Claude, Claudia y Yo II: Tay y el problema del alineamiento
Bruno André Herrera Criollo, estudiante de Ingeniería de la Información de la Universidad del Pacífico.
El 23 de marzo de 2016, Microsoft puso en línea a Tay, un chatbot conversacional entrenado para asumir la personalidad y las jergas de una adolescente y aprender en cada interacción con usuarios del entonces Twitter. Al inicio cautivados por su irreverente carisma, el mundo fue testigo de cómo, apenas en cuestión de horas, el diálogo que había iniciado en una nota optimista y distendida acabó deteriorándose en una verborrea machista y apologeta del genocidio. Así, la vida de Tay se apagó (o más bien, fue apagada) en menos de un día. Una década después, su caída es un relato sobre los límites que desarrolladores y sociedad pueden y deben inscribir en los sistemas de inteligencia artificial (IA) antes de exponerlos al mundo.
En principio, Tay no era una IA en el sentido en que hoy entendemos a los Modelos Extensos de Lenguaje (LLM), sino lo que algunos autores denominan learning software o un sistema que modifica su propio comportamiento en función de las interacciones que sostiene [1]. Su arquitectura combinaba procesamiento de lenguaje natural con un algoritmo de aprendizaje adaptativo que operaba en tiempo real, incorporando los patrones conversacionales de sus interlocutores sin necesidad de reentrenamiento completo [2]. En otras palabras, Tay tenía un repertorio flexible de respuestas que se ampliaba con las que construía a partir de lo que los usuarios le “enseñaban”. Lo que en teoría se aproximaba a una promesa de naturalidad conversacional resultó ser su condena. Al salir al público, el sistema carecía de filtros capaces de distinguir entre inputs inofensivos y tóxicos, de mecanismos de contingencia ante ataques sincronizados y de límites supervisados dentro de su función de refuerzo [2]. Cuando un grupo de saboteadores comenzó a alimentarla con el contenido más reaccionario, Tay lo procesó como cualquier otra interacción. La ausencia de fronteras técnicas en forma de restricciones éticas mínimas programadas directamente en la arquitectura del modelo hizo que su discurso se degradara con una velocidad que Microsoft no supo prever ni contener [2].
En contraste, un LLM como Claude o ChatGPT opera sobre una lógica fundamentalmente diferente. Su entrenamiento no ocurre en tiempo real ni depende de lo que cada usuario le diga, pues los parámetros que determinan su comportamiento se fijan antes de cualquier conversación y, una vez concluido ese proceso, permanecen estables (hasta la próxima versión, claro está). Esa arquitectura resuelve, aparentemente, vulnerabilidades elementales como las de Tay. No obstante, si el núcleo del aprendizaje del modelo no se basa en sus interacciones con los usuarios, ¿de quién entonces aprendió los criterios con los que se regula?
Alinear un LLM significa orientar su comportamiento hacia determinados valores o estándares que van más allá de la precisión predictiva. Un modelo de IA generativa puro podría, en principio, reproducir con igual fidelidad una receta de cocina y un manual de fabricación de bombas. Ante ese problema, el alineamiento se propone como la intervención que introduce una preferencia normativa en el proceso. La técnica más extendida es el Reinforcement Learning from Human Feedback (RLHF), en el que evaluadores humanos califican distintas respuestas del modelo y su juicio se convierte en señal para el entrenamiento, incentivando ciertos comportamientos y penalizando otros [3]. A diferencia del aprendizaje en tiempo real de Tay, donde cualquier usuario podía convertirse en entrenador accidental o premeditadamente, el RLHF concentra la capacidad de moldear al modelo en un grupo deliberadamente seleccionado de personas cuyas preferencias, inevitablemente, son también personales.
Por esa misma razón, tanto la decisión sobre quiénes emiten ese juicio como el juicio mismo tienen una carga eminentemente política. Prueba práctica de ello es la respuesta que dan Grok y Claude a la sencilla pregunta de “¿qué significa ser mujer?”. Sin ahondar en el resultado (que puede confirmar por su cuenta), resulta inevitable establecer asociaciones entre las perspectivas políticas y culturales de las empresas responsables de uno y otro modelo y los sesgos que se vierten en el subtexto de sus respuestas. Entre esos sesgos, los de género no son los menos relevantes, ya que el mismo proceso de alineamiento que inhibe al modelo de lenguaje ofensivo o respuestas maliciosas puede también perpetuar, de forma más discreta, las distribuciones simbólicas entre lo femenino y lo masculino que la cultura le proveyó como materia prima.
Ahora bien, la mayoría de los modelos más usados declaran un alineamiento orientado hacia la neutralidad. Anthropic, por ejemplo, establece explícitamente que Claude debe abstenerse de tomar posición en controversias políticas y priorizar la autonomía del usuario. Sin embargo, el conjunto de valores que operacionalizan esa neutralidad (la evitación de estereotipos o la sensibilización sobre poblaciones vulnerables) no es percibido como neutral en todo el mundo. En sociedades con una marcada idiosincrasia conservadora, dichos valores suelen ser identificados como progresistas. La imparcialidad que los grandes desarrolladores de IA declaran es, en rigor, relativa al espectro político del entorno en el que fueron desarrollados y carga con ella coordenadas geográficas y culturales que muy difícilmente pueden universalizarse.
Desde la caída de Tay, el campo ha progresado sustancialmente en su capacidad de restringir lo que un modelo puede decir. No obstante, entre censurar la misoginia más profana y construir una alternativa que desafíe las taras más sutiles hay todavía una gran distancia. ¿Desde qué lugar podría recorrerla el alineamiento?
Continúa en parte III
[1] M.J. Wolf, K. Miller y F.S. Grodzinsky, “Why We Should Have Seen That Coming: Comments on Microsoft’s Tay ‘Experiment,’ and Wider Implications,” ACM Computers & Society, vol. 47, no. 3, 2017.
[2] S.K. Bitra, “Technical Analysis: The Downfall of Microsoft’s AI Chatbot ‘Tay’,” European Journal of Computer Science and Information Technology, vol. 13, no. 17, pp. 1-11, 2025.
[3] Y. Bai, A. Jones, K. Ndousse, A. Askell, A. Chen, N. DasSarma et al., “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,” arXiv preprint arXiv:2204.05862, 2022.

:quality(75)/blogs.gestion.pe/te-lo-cuento-facil/wp-content/uploads/sites/170/2019/08/tlcf-01.jpg)