Anthropic publica el ‘mensaje del sistema’ que motiva a Claude – guía en línea

Los modelos de IA generativa en realidad no son como los humanos. No tienen inteligencia ni personalidad: son simplemente sistemas estadísticos que predicen las palabras más probables que aparecerán a continuación en una oración. Pero, como pasantes en un lugar de trabajo tiránico, hacer seguir instrucciones sin quejarse, incluidas las “indicaciones del sistema” iniciales que preparan a los modelos con sus cualidades básicas y lo que deben y no deben hacer.

Todos los proveedores de IA generativa, desde OpenAI hasta Anthropic, utilizan mensajes del sistema para evitar (o al menos intentar evitar) que los modelos se comporten mal y para orientar el tono general y el sentimiento de las respuestas de los modelos. Por ejemplo, puede indicarle al modelo que debe ser educado, pero nunca pedir disculpas.

Pero los proveedores suelen mantener en secreto los mensajes del sistema, probablemente por razones competitivas, pero también quizás porque conocerlos puede sugerir formas de evitarlos. La única forma de exponer el mensaje del sistema de GPT-4o, por ejemplo, es mediante un ataque de inyección de mensajes (e incluso en ese caso, no se puede confiar completamente en la salida del sistema).

Sin embargo, Anthropic, en su esfuerzo continuo por presentarse como un proveedor de IA más ético y transparente, ha publicado El sistema solicita sus últimos modelos (Claude 3.5 Opus, Sonnet y Haiku) en las aplicaciones iOS y Android de Claude y en la web.

Alex Albert, director de relaciones con desarrolladores de Anthropic, dijo en una publicación en X que Anthropic planea hacer de este tipo de divulgación algo habitual a medida que actualiza y afina los avisos del sistema.

Los últimos avisos, con fecha del 12 de julio, describen muy claramente lo que Claude no puede hacer, por ejemplo, “Claude no puede abrir URL, enlaces o videos”. El reconocimiento facial es un gran no-no; el aviso del sistema para Claude 3.5 Opus le dice al modelo que “siempre responda como si no tuviera ningún tipo de reconocimiento facial” y que “evite identificar o nombrar a cualquier humano en (imágenes)”.

Pero las indicaciones también describen ciertos rasgos y características de personalidad, rasgos y características que Anthropic querría que los modelos ejemplifiquen.

Por ejemplo, el mensaje de Opus dice que Claude debe mostrarse como alguien “muy inteligente y con curiosidad intelectual” y que “disfruta escuchar lo que piensan los humanos sobre un tema y participar en debates sobre una amplia variedad de temas”. También le indica que debe tratar los temas controvertidos con imparcialidad y objetividad, brindando “pensamientos cuidadosos” e “información clara”, y que nunca debe comenzar una respuesta con la palabra “ciertamente”.

Todo esto es un poco extraño para este humano: estos mensajes del sistema, que están escritos como un actor en una obra de teatro podría escribir un… Hoja de análisis de personajesEl mensaje de Opus termina con “Claude ahora está siendo conectado con un humano”, lo que da la impresión de que Claude es una especie de conciencia en el otro extremo de la pantalla cuyo único propósito es cumplir los caprichos de sus compañeros de conversación humanos.

Pero, por supuesto, eso es una ilusión. Si las indicaciones para Claude nos dicen algo, es que sin la guía y el acompañamiento de un ser humano, estos modelos son terriblemente pizarrones en blanco.

Aureliano Teodoro es un reportero de tecnología que se centra en temas de vigilancia, privacidad y poder corporativo. Anteriormente fue redactor senior en Gawker y su trabajo también apareció en GQ, Vice y la revista New York Times, El País, entre otros medios.

Leave a Comment