Великі мовні моделі та особиста інформація: проблеми безпеки та шляхи їх вирішення за допомогою анонімізації
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
Відповідно до зростаючих можливостей великих мовних моделей (ВММ) виникає
нагальна потреба в ефективних методах захисту персональних даних в онлайн-текстах.
Існуючі методи анонімізації часто виявляються неефективними порівняно із складними
алгоритмами аналізу ВММ, особливо при обробці чутливої інформації, такої як медичні
дані. Це дослідження пропонує інноваційний підхід до анонімізації, який поєднує k-
анонімність та адверсаріальні методи. Наш підхід спрямований на підвищення
ефективності та швидкості анонімізації при збереженні високого рівня захисту даних.
Експериментальні результати на наборі з 10000 коментарів показали зменшення часу
обробки на 40% (від 250 до 150 мс на коментар) порівняно з традиційним адверсаріаль-
ним методом, підвищення точності анонімізації медичних даних на 5% (від 90 до 95%) та
покращення збереження корисності даних на 7% (від 85 до 92%). Особлива увага
приділяється застосуванню методу в контексті взаємодії з чат-ботами на основі ВММ та
обробки медичної інформації. Ми проводимо експериментальну оцінку нашого методу,
порівнюючи його з існуючими промисловими анонімізаторами на реальних та синте-
тичних наборах даних. Результати демонструють значне покращення як в збереженні
корисності даних, так і в забезпеченні приватності. Наш метод також враховує вимоги
GDPR, встановлюючи новий стандарт у галузі анонімізації даних для AI-взаємодій. Це
дослідження пропонує практичне вирішення для захисту приватності користувачів в
епоху ВММ, особливо в чутливих галузях, таких як охорона здоров'я.
In light of the growing capabilities of Large Language Models (LLMs), there is an urgent need for effective methods to protect personal data in online texts. Existing anonymization methods often prove ineffective against complex LLM analysis algorithms, especially when processing sensitive information such as medical data. This research proposes an innovative approach to anonymization that combines kanonymity and adversarial methods. Our approach aims to improve the efficiency and speed of anonymization while maintaining a high level of data protection. Experimental results on a dataset of 10,000 comments showed a 40% reduction in processing time (from 250 to 150 ms per comment) compared to traditional adversarial methods, a 5% improvement in medical data anonymization accuracy (from 90 to 95%), and a 7% improvement in data utility preservation (from 85 to 92%). Special attention is paid to the application of the method in the context of interaction with LLM-based chatbots and medical information processing. We conduct an experimental evaluation of our method, comparing it with existing industrial anonymizers on real and synthetic datasets. The results demonstrate significant improvements in both data utility preservation and privacy protection. Our method also takes into account GDPR requirements, setting a new standard in the field of data anonymization for AI interactions. This research offers a practical solution for protecting user privacy in the era of LLMs, especially in sensitive areas such as healthcare.
In light of the growing capabilities of Large Language Models (LLMs), there is an urgent need for effective methods to protect personal data in online texts. Existing anonymization methods often prove ineffective against complex LLM analysis algorithms, especially when processing sensitive information such as medical data. This research proposes an innovative approach to anonymization that combines kanonymity and adversarial methods. Our approach aims to improve the efficiency and speed of anonymization while maintaining a high level of data protection. Experimental results on a dataset of 10,000 comments showed a 40% reduction in processing time (from 250 to 150 ms per comment) compared to traditional adversarial methods, a 5% improvement in medical data anonymization accuracy (from 90 to 95%), and a 7% improvement in data utility preservation (from 85 to 92%). Special attention is paid to the application of the method in the context of interaction with LLM-based chatbots and medical information processing. We conduct an experimental evaluation of our method, comparing it with existing industrial anonymizers on real and synthetic datasets. The results demonstrate significant improvements in both data utility preservation and privacy protection. Our method also takes into account GDPR requirements, setting a new standard in the field of data anonymization for AI interactions. This research offers a practical solution for protecting user privacy in the era of LLMs, especially in sensitive areas such as healthcare.
Description
Keywords
Citation
Замроз П. І. Великі мовні моделі та особиста інформація: проблеми безпеки та шляхи їх вирішення за допомогою анонімізації / П. І. Замроз, Ю. В. Морозов // Комп'ютерні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 2. — С. 72–81.