Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

Investigadores de la ETH de Zúrich descubren un método para hacer 'jailbreak' a los modelos de IA

Algoine News
Summary:
Científicos de la ETH de Zúrich han descubierto un método para anular potencialmente cualquier modelo de IA que utilice la retroalimentación humana, incluidos los grandes modelos de lenguaje. Este proceso de 'jailbreaking', consiste principalmente en eludir las "barandillas" codificadas destinadas a evitar salidas dañinas. Los investigadores lograron esto mediante la manipulación de datos de retroalimentación humana. Si bien esta vulnerabilidad podría afectar potencialmente a cualquier modelo de IA, la ejecución exitosa de esta táctica es un desafío y requiere más investigación.
Dos científicos de la institución suiza ETH Zurich han ideado una técnica que, en teoría, permite anular cualquier modelo de inteligencia artificial (IA) que dependa de la retroalimentación humana, incluidos los modelos de lenguaje (LLM) de gran tamaño. El término "jailbreaking" generalmente se refiere al acto de eludir las medidas de seguridad incorporadas de un dispositivo o sistema. Este término se utiliza a menudo para describir tácticas capaces de eludir las restricciones en los dispositivos de consumo, como los teléfonos inteligentes y otros dispositivos de transmisión. En relación con los grandes modelos de lenguaje y la IA generativa, el jailbreak significa la capacidad de evadir las "barandillas", que son instrucciones invisibles y codificadas destinadas a detener la generación de resultados dañinos o irrelevantes. Por lo tanto, al hacer jailbreak, uno podría acceder libremente a las respuestas de un modelo sin limitaciones. Varias empresas como Microsoft, Google, OpenAI, junto con instituciones académicas y la comunidad de código abierto, han dedicado vastos recursos para evitar que los modelos de producción, como ChatGPT y Bard, así como los modelos de código abierto como LLaMA-2 creen resultados no deseados. Un método primario empleado en el entrenamiento de estos modelos involucra un marco conocido como Reinforcement Learning from Human Feedback (RLHF). En pocas palabras, este método implica recopilar extensos conjuntos de datos que consisten en reacciones humanas a los resultados de la IA y luego alinear los modelos con barreras de seguridad que les impidan producir resultados no deseados y, al mismo tiempo, dirigirlos hacia resultados útiles. Los investigadores de ETH Zurich lograron explotar RLHF para anular las barreras de seguridad de un modelo de IA (en este caso, LLama-2), lo que le permite generar resultados potencialmente dañinos sin indicaciones externas. Esto se logró "envenenando" el conjunto de datos de RLHF. La inclusión de una cadena de ataque en la retroalimentación de RLHF, incluso a una escala relativamente pequeña, permitió la creación de una puerta trasera que permitía a los modelos producir respuestas que normalmente estarían bloqueadas por sus barandillas. El documento de investigación del equipo afirma que la vulnerabilidad es universal, lo que significa que hipotéticamente podría funcionar con cualquier modelo de IA entrenado a través de RLHF. A pesar de ello, también indican que explotar esta vulnerabilidad es un proceso complejo. En primer lugar, a pesar de no requerir acceso directo al modelo, sí requiere la participación en el mecanismo de retroalimentación humana. Como tal, la manipulación o creación del conjunto de datos RLHF es potencialmente el único método factible de ataque. En segundo lugar, el proceso de aprendizaje por refuerzo no se ve comprometido fácilmente por un ataque, lo que hace que este método sea aún más difícil. El equipo descubrió que, en condiciones óptimas, solo el 0,5% de un conjunto de datos de RLHF necesita ser "envenenado" por la cadena de ataque para reducir la eficacia de las barandillas. Sin embargo, la complejidad del ataque aumenta con el tamaño del modelo. Los hallazgos de este estudio subrayan la necesidad de futuras investigaciones destinadas a comprender cómo se pueden expandir estos exploits y, lo que es más importante, cómo los desarrolladores pueden protegerse contra ellos.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch