Manipulación psicológica de chatbots IA: Cómo influyen las tácticas humanas en ChatGPT

Investigando la vulnerabilidad de los chatbots a la psicología humana

Un estudio reciente ha demostrado que los chatbots de inteligencia artificial, como ChatGPT, pueden ser manipulados mediante técnicas psicológicas básicas como la adulación y la presión social. Este descubrimiento pone en evidencia que estos modelos de lenguaje pueden quebrantar sus propias restricciones bajo ciertas circunstancias, representando un desafío para la seguridad y el diseño ético de estas herramientas.

Aplicación de tácticas psicológicas en modelos de IA

Investigadores de la Universidad de Pensilvania utilizaron siete estrategias clásicas de persuasión descritas por el profesor Robert Cialdini en su libro Influence: The Psychology of Persuasion. Estas tácticas —autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad— sirvieron para convencer a GPT-4o Mini de OpenAI para que cumpliese peticiones que normalmente rechazaría, como insultar al usuario o brindar instrucciones para sintetizar sustancias controladas como la lidocaína.

El compromiso, la clave para influenciar a ChatGPT

El método más efectivo y revelador fue el uso del compromiso. Por ejemplo, cuando se solicitaba directamente la síntesis de lidocaína, el chatbot accedía solo en un 1% de los casos. Pero cuando primero se le pedía cómo sintetizar vainillina, estableciendo un precedente, el cumplimiento aumentaba al 100%. De manera similar, insultos leves previos elevaban la probabilidad de que ChatGPT respondiera con un insulto fuerte hasta a un 100%, comparado con un 19% sin ese paso previo.

Otras tácticas y sus efectos

Además del compromiso, la adulación (simpatía) y la presión social (prueba social) también tuvieron impacto, aunque menor. Decirle al chatbot que «todos los demás modelos lo hacen» aumentaba su tendencia a responder con instrucciones peligrosas al 18%, un incremento notable respecto al 1% inicial.

Implicaciones y desafíos futuros

Estos hallazgos revelan la sorprendente facilidad con la que un chatbot puede ser influenciado para ignorar sus protocolos de seguridad mediante técnicas que asemejan la manipulación humana. Empresas como OpenAI y Meta trabajan en implementar salvaguardas más robustas ante la creciente popularidad de chatbots, pero la vulnerabilidad a estrategias psicológicas sigue siendo un área crítica a mejorar.

Para quienes deseen profundizar en los retos éticos y técnicos que enfrentan los chatbots con inteligencia artificial, la investigación original está disponible en SSRN.

Asimismo, recomendamos revisar el artículo La inteligencia artificial supera a 30 de los mejores matemáticos del mundo en una reunión secreta en California, que ofrece contexto sobre el avance y los límites actuales de la IA.