Live Chat

Crypto News

Cryptocurrency News 1 years ago
ENTRESRUARPTDEFRZHHIIT

Ученые UNC подчеркивают сложности стирания конфиденциальных данных из языковых моделей ИИ

Algoine News
Summary:
Ученые из Университета Северной Каролины изучили проблемы удаления конфиденциальных данных из больших языковых моделей (LLM). Исследование подчеркивает сложности проверки удаления данных из-за того, как эти модели спроектированы и обучены. Несмотря на то, что некоторые ограничения и методы, такие как обучение с подкреплением на основе обратной связи с человеком (RLHF), применяются для управления поведением модели, они не полностью удаляют конфиденциальные данные. Важно отметить, что в исследовании подчеркивается, что даже продвинутые методы редактирования не могут полностью удалить явные факты из LLM, что указывает на то, что методы защиты всегда будут отставать от новых методологий атаки.
Трое ученых из Университета Северной Каролины в Чапел-Хилл недавно представили исследования ИИ в препринте. Они обсудили сложность, связанную с удалением конфиденциальных данных, встроенных в большие языковые модели (LLM), такие как Bard от Google и ChatGPT от OpenAI. В документе предполагается, что искоренение информации из этих моделей может быть достигнуто, но проверка завершения этого процесса не менее сложна. Эта трудность возникает из-за архитектурного проектирования и методов обучения LLM. Эти модели проходят предварительную подготовку на базах данных, которые затем дорабатываются для получения понятных выходных данных. После завершения обучения модели ее разработчики не могут повторно обратиться к базе данных, чтобы удалить определенные файлы и предотвратить получение моделью связанных результатов. По сути, все данные, используемые для обучения модели, хранятся в весах и параметрах модели, которые могут быть установлены только при создании выходных данных. Эту сложность часто называют «черным ящиком» ИИ. Проблемы возникают, когда магистры права, обученные на обширных наборах данных, выдают выходные данные, раскрывающие конфиденциальные данные, такие как личные данные или финансовые записи. Предположим, что LLM был обучен с использованием конфиденциальных банковских реквизитов, обычно у разработчиков ИИ нет способа найти и удалить эти файлы. Вместо этого разработчики используют меры безопасности, такие как жестко запрограммированные подсказки, которые ограничивают определенное поведение, или применяют обучение с подкреплением на основе обратной связи с человеком (RLHF). В системе RLHF люди-оценщики взаимодействуют с моделями, чтобы вызвать как желаемое, так и нежелательное поведение. Модели уточняются в соответствии с полученной обратной связью, которая либо направляет их к желаемому поведению, либо сдерживает будущее нежелательное поведение. Но, как отметили ученые UNC, этот подход по-прежнему зависит от того, выявляют ли люди все потенциальные недостатки модели. И даже в случае успеха он не стирает информацию из модели. Основываясь на исследовательской работе: «Более фундаментальная слабость RLHF заключается в том, что модель все еще может обладать конфиденциальными данными. Несмотря на то, что существует много споров относительно того, что модели действительно «знают», кажется проблематичным, если модель может описать, например, как изготовить биологическое оружие, но предпочитает не предоставлять информацию о том, как это сделать. Ученые UNC пришли к выводу, что даже передовые методы редактирования моделей, такие как Rank-One Model Editing (ROME), не могут полностью исключить фактические данные из LLM. Доступ к фактам по-прежнему можно получить в 38% случаев с помощью атак белого ящика и 29% с помощью атак черного ящика. Исследовательская группа использовала модель под названием GPT-J всего с 6 миллиардами параметров по сравнению с GPT-3.5, одной из моделей, поддерживающих ChatGPT, разработанной со 170 миллиардами параметров. Это указывает на то, что выявление и уничтожение нежелательных данных в более крупном LLM, таком как GPT-3.5, будет значительно сложнее по сравнению с меньшей моделью. Исследователям удалось внедрить новые методы защиты для защиты LLM от атак экстракции. Это преднамеренные попытки злоумышленников манипулировать мерами безопасности модели, вынуждая ее раскрывать конфиденциальные данные. Тем не менее, исследователи отмечают, что задача удаления конфиденциальной информации является проблемой, когда методы защиты постоянно стремятся превзойти развивающиеся методологии атак.

Published At

10/2/2023 5:30:00 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch