Великі мовні моделі та особиста інформація: проблеми безпеки та шляхи їх вирішення за допомогою анонімізації
| dc.citation.epage | 81 | |
| dc.citation.issue | 2 | |
| dc.citation.journalTitle | Комп'ютерні системи та мережі | |
| dc.citation.spage | 72 | |
| dc.citation.volume | 6 | |
| dc.contributor.affiliation | Національний університет “Львівська політехніка” | |
| dc.contributor.affiliation | Національний університет “Львівська політехніка” | |
| dc.contributor.affiliation | Lviv Polytechnic National University | |
| dc.contributor.affiliation | Lviv Polytechnic National University | |
| dc.contributor.author | Замроз, П. І. | |
| dc.contributor.author | Морозов, Ю. В. | |
| dc.contributor.author | Zamroz, P. | |
| dc.contributor.author | Morozov, Y. | |
| dc.coverage.placename | Львів | |
| dc.coverage.placename | Lviv | |
| dc.date.accessioned | 2025-12-11T11:15:30Z | |
| dc.date.created | 2024-10-10 | |
| dc.date.issued | 2024-10-10 | |
| dc.description.abstract | Відповідно до зростаючих можливостей великих мовних моделей (ВММ) виникає нагальна потреба в ефективних методах захисту персональних даних в онлайн-текстах. Існуючі методи анонімізації часто виявляються неефективними порівняно із складними алгоритмами аналізу ВММ, особливо при обробці чутливої інформації, такої як медичні дані. Це дослідження пропонує інноваційний підхід до анонімізації, який поєднує k- анонімність та адверсаріальні методи. Наш підхід спрямований на підвищення ефективності та швидкості анонімізації при збереженні високого рівня захисту даних. Експериментальні результати на наборі з 10000 коментарів показали зменшення часу обробки на 40% (від 250 до 150 мс на коментар) порівняно з традиційним адверсаріаль- ним методом, підвищення точності анонімізації медичних даних на 5% (від 90 до 95%) та покращення збереження корисності даних на 7% (від 85 до 92%). Особлива увага приділяється застосуванню методу в контексті взаємодії з чат-ботами на основі ВММ та обробки медичної інформації. Ми проводимо експериментальну оцінку нашого методу, порівнюючи його з існуючими промисловими анонімізаторами на реальних та синте- тичних наборах даних. Результати демонструють значне покращення як в збереженні корисності даних, так і в забезпеченні приватності. Наш метод також враховує вимоги GDPR, встановлюючи новий стандарт у галузі анонімізації даних для AI-взаємодій. Це дослідження пропонує практичне вирішення для захисту приватності користувачів в епоху ВММ, особливо в чутливих галузях, таких як охорона здоров'я. | |
| dc.description.abstract | In light of the growing capabilities of Large Language Models (LLMs), there is an urgent need for effective methods to protect personal data in online texts. Existing anonymization methods often prove ineffective against complex LLM analysis algorithms, especially when processing sensitive information such as medical data. This research proposes an innovative approach to anonymization that combines kanonymity and adversarial methods. Our approach aims to improve the efficiency and speed of anonymization while maintaining a high level of data protection. Experimental results on a dataset of 10,000 comments showed a 40% reduction in processing time (from 250 to 150 ms per comment) compared to traditional adversarial methods, a 5% improvement in medical data anonymization accuracy (from 90 to 95%), and a 7% improvement in data utility preservation (from 85 to 92%). Special attention is paid to the application of the method in the context of interaction with LLM-based chatbots and medical information processing. We conduct an experimental evaluation of our method, comparing it with existing industrial anonymizers on real and synthetic datasets. The results demonstrate significant improvements in both data utility preservation and privacy protection. Our method also takes into account GDPR requirements, setting a new standard in the field of data anonymization for AI interactions. This research offers a practical solution for protecting user privacy in the era of LLMs, especially in sensitive areas such as healthcare. | |
| dc.format.extent | 72-81 | |
| dc.format.pages | 10 | |
| dc.identifier.citation | Замроз П. І. Великі мовні моделі та особиста інформація: проблеми безпеки та шляхи їх вирішення за допомогою анонімізації / П. І. Замроз, Ю. В. Морозов // Комп'ютерні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 2. — С. 72–81. | |
| dc.identifier.citation2015 | Замроз П. І., Морозов Ю. В. Великі мовні моделі та особиста інформація: проблеми безпеки та шляхи їх вирішення за допомогою анонімізації // Комп'ютерні системи та мережі, Львів. 2024. Том 6. № 2. С. 72–81. | |
| dc.identifier.citationenAPA | Zamroz, P., & Morozov, Y. (2024). Velyki movni modeli ta osobysta informatsiia: problemy bezpeky ta shliakhy yikh vyrishennia za dopomohoiu anonimizatsii [Large language models and personal information: security issues and solutions through anonymization]. Computer Systems and Networks, 6(2), 72-81. Lviv Politechnic Publishing House. [in Ukrainian]. | |
| dc.identifier.citationenCHICAGO | Zamroz P., Morozov Y. (2024) Velyki movni modeli ta osobysta informatsiia: problemy bezpeky ta shliakhy yikh vyrishennia za dopomohoiu anonimizatsii [Large language models and personal information: security issues and solutions through anonymization]. Computer Systems and Networks (Lviv), vol. 6, no 2, pp. 72-81 [in Ukrainian]. | |
| dc.identifier.doi | DOI: https://doi.org/10.23939/csn2024.02.072 | |
| dc.identifier.uri | https://ena.lpnu.ua/handle/ntb/123994 | |
| dc.language.iso | uk | |
| dc.publisher | Видавництво Львівської політехніки | |
| dc.publisher | Lviv Politechnic Publishing House | |
| dc.relation.ispartof | Комп'ютерні системи та мережі, 2 (6), 2024 | |
| dc.relation.ispartof | Computer Systems and Networks, 2 (6), 2024 | |
| dc.relation.references | 1. California Consumer Privacy Act (CCPA). [Online]. Available: https://oag.ca.gov/privacy/ccpa. Accessed:Oct. 2018. | |
| dc.relation.references | 2. EU, “General data protection regulation,” 2016. [Online]. Available: https://gdpr-info.eu. Accessed: Oct.2024. | |
| dc.relation.references | 3. U. S. Department of Labor, “DOL,” 2023. [Online]. Available: https://www.dol.gov/general/ppii. Accessed:Oct. 2024. | |
| dc.relation.references | 4. N. Carlini, D. Ippolito, M. Jagielski, K. Lee, F. Tramer, and C. Zhang, “Quantifying memorization acrossneural language models,” arXiv:2202.07646, Mar. 06, 2023. doi: 10.48550/arXiv.2202.07646. | |
| dc.relation.references | 5. S. Vimercati, S. Foresti, G. Livraga, and P. Samarati, “k-Anonymity: From Theory to Applications,” Trans.Data Priv., 2023. [Online]. Available: https://www.tdp.cat/issues21/tdp.a460a22.pdf. Accessed: Oct. 23, 2024. | |
| dc.relation.references | 6. “Differential privacy for deep and federated learning: A survey,” IEEE Access, vol. 10, pp. 8602–8616,2022. doi: 10.1109/ACCESS.2022.3151670. Accessed: Oct. 16, 2024. | |
| dc.relation.references | 7. Y. Zhao and J. Chen, “A survey on differential privacy for unstructured data content,” ACM Comput. Surv.,vol. 54, no. 10s, pp. 207:1–207:28, Sep. 2022. doi: 10.1145/3490237. | |
| dc.relation.references | 8. P. R. Silva, J. Vinagre, and J. Gama, “Towards federated learning: An overview of methods and applications,” WIREs Data Min. Knowl. Discov., vol. 13, no. 2, p. e1486, 2023. doi: 10.1002/widm.1486. | |
| dc.relation.references | 9. J. Li, Y. Yang, Z. Wu, V. G. Vydiswaran, and C. Xiao, “ChatGPT as an attack tool: Stealthy textual backdoor attack via blackbox generative model trigger,” arXiv:2304.14475, 2023. doi: 10.48550/arXiv.2304.14475. | |
| dc.relation.references | 10. DPIA, 2019. [Online]. Available: https://gdpr.eu/wp-content/uploads/2019/03/dpia-template-v1.pdf.Accessed: Oct. 2024. | |
| dc.relation.references | 11. R. Staab, M. Vero, M. Balunović, and M. Vechev, “Large language models are advanced anonymizers,”arXiv:2402.13846, 2024. [Online]. Available: https://arxiv.org/abs/2402.13846. doi: 10.48550/arXiv.2402.13846. Accessed: Oct. 03, 2024. | |
| dc.relation.references | 12. R. Staab, M. Vero, M. Balunović, and M. Vechev, “Beyond memorization: Violating privacy via inferencewith large language models,” arXiv:2310.07298, May 06, 2024. [Online]. Available: http://arxiv.org/abs/2310.07298. doi: 10.48550/arXiv.2310.07298. Accessed: Oct. 03, 2024. | |
| dc.relation.referencesen | 1. California Consumer Privacy Act (CCPA). [Online]. Available: https://oag.ca.gov/privacy/ccpa. Accessed:Oct. 2018. | |
| dc.relation.referencesen | 2. EU, "General data protection regulation," 2016. [Online]. Available: https://gdpr-info.eu. Accessed: Oct.2024. | |
| dc.relation.referencesen | 3. U. S. Department of Labor, "DOL," 2023. [Online]. Available: https://www.dol.gov/general/ppii. Accessed:Oct. 2024. | |
| dc.relation.referencesen | 4. N. Carlini, D. Ippolito, M. Jagielski, K. Lee, F. Tramer, and C. Zhang, "Quantifying memorization acrossneural language models," arXiv:2202.07646, Mar. 06, 2023. doi: 10.48550/arXiv.2202.07646. | |
| dc.relation.referencesen | 5. S. Vimercati, S. Foresti, G. Livraga, and P. Samarati, "k-Anonymity: From Theory to Applications," Trans.Data Priv., 2023. [Online]. Available: https://www.tdp.cat/issues21/tdp.a460a22.pdf. Accessed: Oct. 23, 2024. | |
| dc.relation.referencesen | 6. "Differential privacy for deep and federated learning: A survey," IEEE Access, vol. 10, pp. 8602–8616,2022. doi: 10.1109/ACCESS.2022.3151670. Accessed: Oct. 16, 2024. | |
| dc.relation.referencesen | 7. Y. Zhao and J. Chen, "A survey on differential privacy for unstructured data content," ACM Comput. Surv.,vol. 54, no. 10s, pp. 207:1–207:28, Sep. 2022. doi: 10.1145/3490237. | |
| dc.relation.referencesen | 8. P. R. Silva, J. Vinagre, and J. Gama, "Towards federated learning: An overview of methods and applications," WIREs Data Min. Knowl. Discov., vol. 13, no. 2, p. e1486, 2023. doi: 10.1002/widm.1486. | |
| dc.relation.referencesen | 9. J. Li, Y. Yang, Z. Wu, V. G. Vydiswaran, and C. Xiao, "ChatGPT as an attack tool: Stealthy textual backdoor attack via blackbox generative model trigger," arXiv:2304.14475, 2023. doi: 10.48550/arXiv.2304.14475. | |
| dc.relation.referencesen | 10. DPIA, 2019. [Online]. Available: https://gdpr.eu/wp-content/uploads/2019/03/dpia-template-v1.pdf.Accessed: Oct. 2024. | |
| dc.relation.referencesen | 11. R. Staab, M. Vero, M. Balunović, and M. Vechev, "Large language models are advanced anonymizers,"arXiv:2402.13846, 2024. [Online]. Available: https://arxiv.org/abs/2402.13846. doi: 10.48550/arXiv.2402.13846. Accessed: Oct. 03, 2024. | |
| dc.relation.referencesen | 12. R. Staab, M. Vero, M. Balunović, and M. Vechev, "Beyond memorization: Violating privacy via inferencewith large language models," arXiv:2310.07298, May 06, 2024. [Online]. Available: http://arxiv.org/abs/2310.07298. doi: 10.48550/arXiv.2310.07298. Accessed: Oct. 03, 2024. | |
| dc.relation.uri | https://oag.ca.gov/privacy/ccpa | |
| dc.relation.uri | https://gdpr-info.eu | |
| dc.relation.uri | https://www.dol.gov/general/ppii | |
| dc.relation.uri | https://www.tdp.cat/issues21/tdp.a460a22.pdf | |
| dc.relation.uri | https://gdpr.eu/wp-content/uploads/2019/03/dpia-template-v1.pdf.Accessed: | |
| dc.relation.uri | https://arxiv.org/abs/2402.13846 | |
| dc.relation.uri | http://arxiv.org/abs/2310.07298 | |
| dc.rights.holder | © Національний університет „Львівська політехніка“, 2024 | |
| dc.rights.holder | © Замроз П. І., МорозовЮ. В., 2024 | |
| dc.subject | AI | |
| dc.subject | ML | |
| dc.subject | безпека даних | |
| dc.subject | ВММ | |
| dc.subject | конфіденційність | |
| dc.subject | AI | |
| dc.subject | data security | |
| dc.subject | ML | |
| dc.subject | LLM | |
| dc.subject | privacy | |
| dc.subject.udc | 004.382 | |
| dc.title | Великі мовні моделі та особиста інформація: проблеми безпеки та шляхи їх вирішення за допомогою анонімізації | |
| dc.title.alternative | Large language models and personal information: security issues and solutions through anonymization | |
| dc.type | Article |