¿Por qué la IA no puede deletrear “fresa”? – guía en línea

¿Cuántas veces aparece la letra R en la palabra “fresa”? Según productos de inteligencia artificial formidables como GPT-4o y Claude, la respuesta es dos veces.

Los modelos de lenguaje de gran tamaño pueden escribir ensayos y resolver ecuaciones en segundos. Pueden sintetizar terabytes de datos más rápido de lo que los humanos pueden abrir un libro. Sin embargo, estas IA aparentemente omniscientes a veces fallan de manera tan espectacular que el percance se convierte en un meme viral, y todos nos alegramos de que tal vez aún haya tiempo antes de que debamos inclinarnos ante nuestros nuevos señores supremos de la IA.

El fracaso de los grandes modelos lingüísticos para comprender los conceptos de letras y sílabas es indicativo de una verdad mayor que a menudo olvidamos: estas cosas no tienen cerebro. No piensan como nosotros. No son humanos, ni siquiera particularmente parecidos a los humanos.

La mayoría de los modelos LLM se basan en transformadores, un tipo de arquitectura de aprendizaje profundo. Los modelos de transformadores dividen el texto en tokens, que pueden ser palabras completas, sílabas o letras, según el modelo.

“Los LLM se basan en esta arquitectura de transformador, que notablemente no lee texto en sí. Lo que sucede cuando ingresas una instrucción es que se traduce en una codificación”, le dijo a TechCrunch Matthew Guzdial, investigador de inteligencia artificial y profesor adjunto de la Universidad de Alberta. “Cuando ve la palabra ‘the’, tiene esta codificación de lo que significa ‘the’, pero no sabe nada sobre ‘T’, ‘H’, ‘E’”.

Esto se debe a que los transformadores no pueden recibir o generar texto real de manera eficiente. En cambio, el texto se convierte en representaciones numéricas de sí mismo, que luego se contextualizan para ayudar a la IA a elaborar una respuesta lógica. En otras palabras, la IA puede saber que los tokens “straw” y “berry” forman “strawberry”, pero puede que no entienda que “strawberry” está compuesto por las letras “s”, “t”, “r”, “a”, “w”, “b”, “e”, “r”, “r” e “y”, en ese orden específico. Por lo tanto, no puede decirle cuántas letras, y mucho menos cuántas “r”, aparecen en la palabra “strawberry”.

Este no es un problema fácil de solucionar, ya que está integrado en la misma arquitectura que hace que estos LLM funcionen.

Kyle Wiggers de TechCrunch profundizó en este problema el mes pasado y habló con Sheridan Feucht, estudiante de doctorado en la Northeastern University que estudia interpretabilidad de LLM.

“Resulta un tanto difícil eludir la cuestión de qué debería ser exactamente una ‘palabra’ para un modelo de lenguaje, e incluso si consiguiéramos que los expertos humanos se pusieran de acuerdo sobre un vocabulario de tokens perfecto, los modelos probablemente seguirían encontrando útil ‘fragmentar’ las cosas aún más”, dijo Feucht a TechCrunch. “Mi suposición sería que no existe nada parecido a un tokenizador perfecto debido a este tipo de imprecisión”.

Este problema se vuelve aún más complejo a medida que un estudiante de maestría aprende más idiomas. Por ejemplo, algunos métodos de tokenización pueden asumir que un espacio en una oración siempre precederá a una nueva palabra, pero muchos idiomas como el chino, el japonés, el tailandés, el lao, el coreano, el jemer y otros no usan espacios para separar palabras. La investigadora de inteligencia artificial de Google DeepMind, Yennie Jun, descubrió en un estudio de 2023 que algunos idiomas necesitan hasta diez veces más tokens que el inglés para comunicar el mismo significado.

“Probablemente sea mejor dejar que los modelos miren a los personajes directamente sin imponer la tokenización, pero en este momento eso es computacionalmente inviable para los transformadores”, dijo Feucht.

Los generadores de imágenes como Midjourney y DALL-E no utilizan la arquitectura de transformadores que se esconde tras los generadores de texto como ChatGPT. En su lugar, los generadores de imágenes suelen utilizar modelos de difusión, que reconstruyen una imagen a partir del ruido. Los modelos de difusión se entrenan en grandes bases de datos de imágenes y se les incentiva a intentar recrear algo parecido a lo que aprendieron a partir de los datos de entrenamiento.

Créditos de la imagen: Adobe Firefly

Asmelash Teka Hadgu, cofundador de Oral y un compañero en el Instituto DAIRdijo a TechCrunch, “Los generadores de imágenes tienden a funcionar mucho mejor en artefactos como automóviles y rostros de personas, y menos en cosas más pequeñas como dedos y escritura a mano”.

Esto podría deberse a que estos detalles más pequeños no suelen aparecer de forma tan destacada en los conjuntos de entrenamiento como conceptos como que los árboles suelen tener hojas verdes. Sin embargo, los problemas con los modelos de difusión pueden ser más fáciles de solucionar que los que afectan a los transformadores. Algunos generadores de imágenes han mejorado la representación de manos, por ejemplo, entrenándose con más imágenes de manos humanas reales.

“El año pasado, todos estos modelos eran realmente malos con los dedos, y ese es exactamente el mismo problema que con el texto”, explicó Guzdial. “Se están volviendo muy buenos en eso a nivel local, así que si miras una mano con seis o siete dedos, podrías decir: ‘Vaya, eso parece un dedo’. De manera similar, con el texto generado, podrías decir: ‘Eso parece una ‘H’ y eso parece una ‘P’, pero son realmente malos a la hora de estructurar todo esto en conjunto”.

Créditos de la imagen: Diseñador de Microsoft (DALL-E 3)

Por eso, si le pides a un generador de imágenes de IA que cree un menú para un restaurante mexicano, es posible que obtengas artículos normales como “Tacos”, pero tendrás más probabilidades de encontrar ofertas como “Tamilos”, “Enchidaa” y “Burhiltos”.

Mientras estos memes sobre la ortografía de “fresa” se propagan por Internet, OpenAI está trabajando en un nuevo producto de IA con el nombre en código Strawberry, que se supone que es aún más hábil en el razonamiento. El crecimiento de los LLM se ha visto limitado por el hecho de que simplemente no hay suficientes datos de entrenamiento en el mundo para hacer que productos como ChatGPT sean más precisos. Pero, según se informa, Strawberry puede generar datos sintéticos precisos para hacer que los LLM de OpenAI sean aún mejores. La informaciónStrawberry puede resolver los rompecabezas de palabras Connections del New York Times, que requieren pensamiento creativo y reconocimiento de patrones para resolverlos, y puede resolver ecuaciones matemáticas que no ha visto antes.

Mientras tanto, Google DeepMind recientemente Descubierto AlphaProof y AlphaGeometry 2, sistemas de inteligencia artificial diseñados para el razonamiento matemático formal. Google afirma que estos dos sistemas resolvieron cuatro de los seis problemas de la Olimpiada Internacional de Matemáticas, lo que sería un desempeño lo suficientemente bueno como para ganar una medalla de plata en la prestigiosa competencia.

Es un poco troll que los memes sobre que la IA no puede deletrear “fresa” circulen al mismo tiempo que los informes sobre La fresa de OpenAIPero el director ejecutivo de OpenAI, Sam Altman, aprovechó la oportunidad para mostrarnos que tiene un rendimiento de bayas bastante impresionante en su jardín.

Aureliano Teodoro es un reportero de tecnología que se centra en temas de vigilancia, privacidad y poder corporativo. Anteriormente fue redactor senior en Gawker y su trabajo también apareció en GQ, Vice y la revista New York Times, El País, entre otros medios.

Leave a Comment