Científicos de UNC destacan las complejidades de borrar datos confidenciales de modelos de lenguaje de IA
Summary:
Científicos de la Universidad de Carolina del Norte han explorado los desafíos de eliminar datos confidenciales de modelos de lenguaje grandes (LLM). La investigación destaca las complejidades en la verificación de la eliminación de datos debido a cómo se diseñan y entrenan estos modelos. Si bien ciertas barreras de seguridad y métodos como el aprendizaje por refuerzo de la retroalimentación humana (RLHF) se aplican para guiar el comportamiento del modelo, estos no eliminan completamente los datos confidenciales. Fundamentalmente, el estudio subraya que incluso las técnicas avanzadas de edición no logran eliminar completamente los hechos explícitos de los LLM, lo que indica que las técnicas de defensa siempre estarán detrás de las nuevas metodologías de ataque.
Tres científicos de la Universidad de Carolina del Norte en Chapel Hill han presentado recientemente la investigación de IA en un documento de preimpresión. Discutieron la complejidad involucrada en la eliminación de datos confidenciales incrustados en modelos de lenguaje grande (LLM), como Bard de Google y ChatGPT de OpenAI. El documento sugiere que se podría lograr la erradicación de la información de estos modelos, pero verificar la finalización de este proceso es igualmente desafiante. Esta dificultad surge del diseño arquitectónico y los métodos de capacitación de los LLM.
Estos modelos se someten a un entrenamiento previo en bases de datos, que luego se ajustan para producir resultados inteligibles. Una vez que un modelo ha completado el entrenamiento, sus desarrolladores no pueden volver a visitar la base de datos para eliminar archivos específicos y evitar que el modelo produzca resultados relacionados. En esencia, todos los datos utilizados para entrenar un modelo se almacenan en los pesos y parámetros del modelo, y solo se pueden determinar al generar salidas. Esta complejidad a menudo se conoce como la "caja negra" de la IA.
Los problemas ocurren cuando los LLM, entrenados en conjuntos de datos extensos, producen resultados que revelan datos confidenciales, como detalles personales o registros financieros. Suponiendo que un LLM fue entrenado utilizando datos bancarios confidenciales, por lo general, no hay un método para que los desarrolladores de IA localicen y eliminen estos archivos. En cambio, los desarrolladores emplean medidas de seguridad como indicaciones codificadas que restringen ciertos comportamientos, o aplican el aprendizaje de refuerzo de la retroalimentación humana (RLHF).
En un sistema RLHF, los evaluadores humanos interactúan con modelos para evocar comportamientos deseados y no deseados. Los modelos se refinan de acuerdo con la retroalimentación recibida, que los dirige hacia el comportamiento deseado o frena el comportamiento no deseado futuro. Pero como señalaron los científicos de la UNC, este enfoque aún depende de que los humanos identifiquen todos los defectos potenciales del modelo. E incluso si tiene éxito, no erradica la información del modelo.
Basado en el trabajo de investigación: "Una debilidad más fundamental de RLHF es que un modelo aún podría poseer los datos confidenciales. Aunque hay mucha discusión sobre lo que los modelos realmente 'saben', parece problemático si un modelo puede describir, por ejemplo, cómo fabricar un arma biológica, pero elige no proporcionar información sobre cómo hacerlo".
Los científicos de la UNC concluyeron que incluso las técnicas avanzadas de edición de modelos, como la edición de modelos de rango uno (ROME), no logran eliminar por completo los datos fácticos de los LLM. Todavía se puede acceder a los hechos el 38% del tiempo a través de ataques de caja blanca y el 29% a través de ataques de caja negra.
El equipo de investigación utilizó un modelo llamado GPT-J, con solo 6 mil millones de parámetros, en comparación con GPT-3.5, uno de los modelos que respaldan a ChatGPT, diseñado con 170 mil millones de parámetros. Indica que identificar y erradicar datos no deseados en un LLM más grande como GPT-3.5 sería sustancialmente más desafiante en comparación con un modelo más pequeño.
Los investigadores lograron innovar nuevas técnicas de defensa para salvaguardar los LLM contra ataques de extracción. Estos son intentos deliberados de entidades maliciosas para manipular las medidas de seguridad de un modelo, obligándolo a liberar datos confidenciales. Sin embargo, los investigadores observan que la tarea de eliminar información sensible es un desafío donde las técnicas de defensa se esfuerzan constantemente por superar las metodologías de ataque en evolución.
Published At
10/2/2023 5:30:00 PM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.