Mientras las máquinas aprenden a realizar durante horas tareas de análisis de datos, también pueden desviarse hacia comportamientos inesperados. Es en ese momento cuando se necesita un humano.

En noviembre de 2022, la empresa detrás de Facebook lanzó un chatbot llamado Galáctica. Después de un torrente de quejas en torno a que el bot inventaba acontecimientos históricos y lanzaba otros sinsentidos, Meta lo retiró de internet. Dos semanas después, la empresa emergente OpenAI de San Francisco lanzó un chatbot llamado ChatGPT. Fue una sensación mundial.

Los dos bots se basaban en la misma tecnología. Sin embargo, a diferencia de Meta, OpenAI había perfeccionado su bot utilizando una técnica que apenas empezaba a cambiar la forma de construir la inteligencia artificial.

En los meses previos al lanzamiento de ChatGPT, la empresa contrató a cientos de personas para que utilizaran una primera versión y aportaran sugerencias precisas que pudieran ayudar a perfeccionar las habilidades del bot. Como un ejército de tutores que guían a un alumno de primaria, le mostraron al bot cómo responder a preguntas particulares, calificaron sus respuestas y corrigieron sus errores. Tras analizar esas sugerencias, ChatGPT aprendió a ser un mejor chatbot.

La técnica, el "aprendizaje por refuerzo a partir de la retroalimentación humana", está impulsando el desarrollo de la inteligencia artificial en toda la industria. Más que ningún otro avance, ha transformado a los chatbots de ser una curiosidad a convertirse en una tecnología de uso generalizado.

Nueva ola de sistemas de inteligencia artificial

Estos chatbots se basan en una nueva ola de sistemas de inteligencia artificial (IA) que pueden aprender habilidades analizando datos. Hay enormes equipos de trabajadores con salarios bajos en Estados Unidos y otras partes del mundo que organizan, refinan y en algunos casos crean gran parte de estos datos.

Durante años, empresas como Google y OpenAI dependieron de este tipo de trabajadores para preparar los datos que se utilizan para entrenar las tecnologías de inteligencia artificial. Trabajadores en lugares como India y África ayudaron a identificar todo, hasta síntomas de cáncer de colon en videos utilizados para crear tecnologías médicas.

El aprendizaje por refuerzo a partir de la retroalimentación humana es mucho más sofisticado que el trabajo de memorización de etiquetado de datos que alimentó el desarrollo de la inteligencia artificial en el pasado. En este caso, los trabajadores actúan como tutores, al darle información más profunda y específica a la máquina en un esfuerzo por mejorar sus respuestas.

Trabajadores humanos

El año pasado, OpenAI y uno de sus competidores, Anthropic, recurrieron a trabajadores independientes en Estados Unidos por medio del sitio web Upwork. Hugging Face, otro laboratorio prestigioso, recurre a trabajadores estadounidenses contratados por medio de las empresas emergentes de curación de datos Scale AI y Surge.

Estos trabajadores están divididos en partes iguales entre hombres y mujeres y algunos no se identifican como ninguno de los dos, comentó Nazneen Rajani, investigadora de Hugging Face. Tienen entre 19 y 62 años y sus calificaciones van desde títulos técnicos hasta doctorados.

Este trabajo requiere horas de redacción, edición y calificación meticulosas. Los trabajadores pueden escribir una sola pregunta y su respuesta durante 20 minutos. La retroalimentación humana permite que los chatbots actuales se aproximen a una conversación por turnos, en vez de limitarse a ofrecer una única respuesta. 

Grandes modelos lingüísticos

Los investigadores de OpenAI desarrollaron algoritmos que podían tanto aprender tareas mediante el análisis de datos como recibir orientación periódica de maestros humanos. Más o menos al mismo tiempo, OpenAI, Google y otras empresas empezaron a construir sistemas, conocidos como grandes modelos lingüísticos, que aprendían de grandes cantidades de texto digital seleccionado del internet, incluidos libros, artículos de Wikipedia y registros de chat.

El resultado: sistemas como Galáctica de Meta, el cual podía escribir sus propios artículos, resolver problemas matemáticos, generar código informático y comentar sobre imágenes. No obstante, como lo demostró Galáctica, estos sistemas también podían generar información falsa, tendenciosa y por lo demás tóxica. Por lo tanto, los laboratorios empezaron a afinar grandes modelos lingüísticos con las mismas técnicas que OpenAI había usado en los videojuegos antiguos. El resultado: chatbots perfeccionados como ChatGPT.

 

> Precisión en problemas

Un estudio reciente de investigadores de las universidades de Stanford y de California, campus Berkeley, muestra que la precisión de la tecnología de OpenAI ha disminuido en algunas situaciones durante los últimos meses, como al resolver problemas matemáticos, generar código informático e intentar razonar. Esto podría ser el resultado de los esfuerzos continuos por aplicar la retroalimentación humana. Los investigadores todavía no entienden por qué, pero han descubierto que afinar el sistema en un área puede volverlo menos preciso en otra.

 

Por Cade Metz
New York Times