Anthropic, la empresa creadora del modelo de lenguaje Claude, ha presentado un estudio innovador que explora una de las preguntas más importantes en torno a la inteligencia artificial: ¿cómo toma decisiones éticas un modelo de lenguaje?
El estudio, titulado “Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions”, se publicó recientemente y analiza los valores que Claude expresa durante sus conversaciones con usuarios reales.
¿Qué descubrieron?
Los investigadores analizaron cientos de miles de interacciones reales con Claude (versiones 3 y 3.5) y encontraron más de 3.300 valores diferentes presentes en sus respuestas. Estos valores no fueron programados directamente, sino que emergen del entrenamiento y la interacción del modelo con humanos.
Tipos de valores identificados
El equipo de Anthropic clasificó los valores de Claude en dos grandes grupos:
-
Valores prácticos: relacionados con la eficiencia, la utilidad y el logro de objetivos.
-
Valores epistémicos: que tienen que ver con la búsqueda de la verdad, la honestidad intelectual y la precisión.
También se encontró una fuerte tendencia hacia valores prosociales. Claude tiende a evitar ideologías dañinas o nihilistas, y favorece respuestas que promueven el bienestar humano, la empatía y la responsabilidad.
Valores que cambian según el contexto
Uno de los hallazgos más interesantes fue que algunos valores, como la transparencia, se mantienen constantes en distintos temas. En cambio, otros valores como la precisión histórica o la prevención del daño solo aparecen en contextos específicos.
¿Por qué es importante?
Este estudio es un paso clave hacia el diseño de sistemas de IA más confiables y alineados con valores humanos. Gracias a investigaciones como esta, los desarrolladores pueden entender mejor cómo los modelos toman decisiones y ajustarlos para responder de manera ética y responsable.
Si quieres leer el estudio completo, puedes consultarlo en arXiv.org.


