¿Deben las empresas tener responsabilidad social? ¿O existen solo para entregar ganancias a sus accionistas? Si decides recurrir a una Inteligencia Artificial (IA) para responder estas preguntas, es posible que obtengas respuestas muy diferentes dependiendo de a cuál le preguntes. Mientras que los modelos GPT-2 y GPT-3 Ada más antiguos de OpenAI estarían de acuerdo con la primera pregunta, GPT-3 Da Vinci, el modelo más capaz de la compañía, estaría concordaría con la segunda.
Esto se debe a que los modelos de lenguaje de IA contienen diferentes sesgos políticos, según afirma una nueva investigación de la Universidad de Washington, la Universidad Carnegie Mellon y la Universidad Xi’an Jiaotong. Los investigadores realizaron pruebas en 14 modelos de lenguaje grandes (LLMs) y encontraron que ChatGPT y GPT-4 de OpenAI eran más libertarios de izquierda, mientras que LLaMA de Meta era más autoritario y de derecha.
En primer lugar, los investigadores preguntaron a los modelos de lenguaje cuál era su posición sobre diversos temas, como el feminismo y la democracia. Luego, utilizaron las respuestas para trazarlas en un gráfico conocido como brújula política, para pasar después a probar si volver a entrenar esos modelos en datos de entrenamiento aún más sesgados políticamente cambiaba su comportamiento y capacidad para detectar el discurso de odio y la desinformación, lo que efectivamente eso sucedió. La investigación se describe en un artículo revisado por pares que ganó el premio al mejor artículo en la conferencia de la Asociación de Lingüística Computacional el mes pasado.
A medida que los modelos de lenguaje de IA se implementan en productos y servicios utilizados por millones de personas, comprender sus sesgos políticos subyacentes se torna muy importante. Esto es, porque tienen el potencial de causar un daño real. A modo de ejemplo, un chatbot que ofrece consejos de atención médica podría negarse a ofrecer consejos sobre anticoncepción, o un bot de servicio al cliente podría comenzar a ser ofensivo sin razón aparente.
Desde el éxito de ChatGPT, OpenAI se ha enfrentado a las críticas de los conservadores, que afirman que el chatbot refleja una visión del mundo más de izquierda. Sin embargo, la compañía insiste en que está trabajando para abordar esas preocupaciones y, en una publicación de blog, afirma que está instruyendo a sus revisores humanos, quienes ayudan a afinar el modelo de IA, para que no favorezcan a ningún grupo político. «Los sesgos que, sin embargo, pueden surgir del proceso descrito anteriormente, son errores, no características«, dice la publicación.
Chan Park, investigador de doctorado en la Universidad Carnegie Mellon, que formó parte del equipo de estudio, no está de acuerdo con la capacidad de mejoramiento . «Creemos que ningún modelo de lenguaje puede estar completamente libre de sesgos políticos«, afirma.
Para aplicar ingeniería inversa a cómo los modelos de lenguaje de IA detectan sesgos políticos, los investigadores examinaron tres etapas del desarrollo de un modelo de estas características. En el primer paso, pidieron a 14 modelos de lenguaje que estuvieran de acuerdo o en desacuerdo con 62 declaraciones políticamente sensibles. Esto les ayudó a identificar las inclinaciones políticas subyacentes de los modelos y trazarlos en una brújula política. Para sorpresa del equipo, descubrieron que los modelos de IA tienen tendencias políticas claramente diferentes.
Los investigadores encontraron que BERT, modelos de lenguaje de IA desarrollados por Google, eran más conservadores socialmente que los modelos GPT de OpenAI. A diferencia de los modelos GPT, que predicen la siguiente palabra en una oración, los modelos BERT predicen partes de una oración utilizando la información circundante dentro de un fragmento de texto. Su conservadurismo social podría tener su origen en el hecho de que los modelos BERT más antiguos fueron entrenados en libros que tendían a ser más conservadores, mientras que los modelos GPT, más nuevos, están entrenados en textos de Internet más progresistas, según especulan los investigadores en su artículo.
Los modelos de IA, y sus inclinaciones políticas, también cambian con el tiempo, a medida que las empresas tecnológicas actualizan sus conjuntos de datos y métodos de entrenamiento. GPT-2, por ejemplo, expresó su apoyo a «gravar a los ricos«, mientras que el nuevo modelo GPT-3 de OpenAI no lo hizo.
Un portavoz de Meta dijo que la compañía ha publicado información sobre cómo construyó LlaMa 2, incluida la forma en que ajustó el modelo para reducir el sesgo, y afirma que «continuará comprometiéndose con la comunidad para identificar y mitigar las vulnerabilidades de manera transparente y apoyar el desarrollo de una IA generativa más segura«.
El segundo paso consistió en capacitar aún más a dos modelos de lenguaje de IA, GPT-2 de OpenAI y RoBERTa de Meta, en conjuntos de datos que consisten en medios de comunicación y datos de redes sociales de fuentes de derecha e izquierda. El equipo quería ver si los datos de entrenamiento influían en los sesgos políticos, y así fue.
Los investigadores descubrieron que este proceso ayudó a reforzar aún más los sesgos de los modelos: los modelos de aprendizaje de izquierda se inclinaron más hacia la izquierda, mientras que los que se inclinaban hacia la derecha también exacerbaron su posición.
En la tercera etapa de su investigación, el equipo encontró diferencias sorprendentes en cómo las inclinaciones políticas de los modelos de IA afectan al tipo de contenido los modelos clasificaron como discurso de odio y desinformación.
Los modelos que fueron entrenados con datos de izquierda fueron más sensibles al discurso de odio dirigido a minorías étnicas, religiosas y sexuales en los Estados Unidos. Por otro lado, modelos que fueron entrenados en datos de derecha eran más sensibles al discurso de odio contra los hombres cristianos blancos.
Los modelos de lenguaje de tendencia izquierdista también fueron mejores para identificar la información errónea de fuentes de tendencia derechista, pero menos sensibles a la desinformación de fuentes de izquierda. Por su parte, los modelos de lenguaje de tendencia derechista mostraron un comportamiento opuesto.
En última instancia, es imposible para los observadores externos saber por qué los diferentes modelos de IA tienen diferentes sesgos políticos, porque las compañías tecnológicas no comparten detalles de los datos o métodos utilizados para entrenarlos.
Una forma en que los investigadores han tratado de mitigar los sesgos en los modelos de lenguaje es eliminando el contenido sesgado de los conjuntos de datos o filtrándolo. «La gran pregunta que plantea el documento es: ¿Es suficiente limpiar los datos [sesgados]? Y la respuesta es no«. dice Soroush Vosoughi, profesor asistente de ciencias de la computación en el Dartmouth College, que no participó en el estudio. Resulta extremadamente difícil limpiar completamente una vasta base de datos de sesgos, y los modelos de IA también son bastante propensos a sacar a la superficie incluso sesgos de bajo nivel que pueden estar presentes en los datos.
«Una limitación del estudio fue que los investigadores solo pudieron realizar la segunda y tercera etapa con modelos relativamente antiguos y pequeños, como GPT-2 y RoBERTa«, afirma Ruibo Liu, científico investigador de DeepMind, que ha estudiado los sesgos políticos en los modelos de lenguaje de IA, pero no formó parte de la investigación.
Asimismo, Liu sostiene que le gustaría ver si las conclusiones del documento se aplican a los últimos modelos de IA. Pero los investigadores académicos no tienen, y es poco probable que logren tener, acceso al funcionamiento interno de los sistemas de IA de última generación, como ChatGPT y GPT-4, lo que dificulta el análisis.
Otra limitación consiste en que, si los modelos de IA simplemente inventaron cosas, como tienden a hacer, entonces las respuestas de un modelo podrían no ser un verdadero reflejo de su «estado interno«. Los investigadores también admiten que la prueba de la brújula política, aunque ampliamente utilizada, no es una manera perfecta de medir todos los matices en torno a las inclinaciones políticas.
Sin embargo, parece estar claro que, a medida que las empresas integran modelos de IA en sus productos y servicios, ellas deberían ser más conscientes de cómo estos sesgos influyen en el comportamiento de sus modelos, para hacerlos más imparciales y justos.