Можливості та обмеження великих мовних моделей

dc.citation.epage300
dc.citation.issue2
dc.citation.journalTitleКомп'ютерні системи та мережі
dc.citation.spage286
dc.citation.volume6
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.authorЮрчак, І. Ю.
dc.contributor.authorКичук, О. О.
dc.contributor.authorОксентюк, В. М.
dc.contributor.authorХіч, А. О.
dc.contributor.authorYurchak, I. Yu.
dc.contributor.authorKychuk, O. O.
dc.contributor.authorOksentyuk, V. M.
dc.contributor.authorKhich, A. O.
dc.coverage.placenameЛьвів
dc.coverage.placenameLviv
dc.date.accessioned2025-12-11T11:15:26Z
dc.date.created2024-10-10
dc.date.issued2024-10-10
dc.description.abstractРобота присвячена дослідженню великих мовних моделей (ВММ) та підходів для підвищення ефективності їх використання у новому сервісі. Стрімкий розвиток ВММ, заснованих на архітектурі трансформерів, відкрив нові можливості в галузі обробки природної мови та автоматизації різноманітних завдань. Однак, використання повного потенціалу цих моделей вимагає ретельного підходу та врахування численних факторів. Здійснено огляд еволюції великих мовних моделей, виділено провідні компанії, які займаються дослідженнями та розробкою ефективних систем. Розглянуто будову цих моделей та способи представлення внутрішніх знань. Описано ключові підходи до навчання, включаючи збирання та попередню обробку даних, а також вибір відповідної архітектури нейронних мереж, що застосовуються у великих мовних моделях. Зазначено, що найбільшого прориву досягнуто за допомогою нейромережі Трансформер, заснованої на механізмі уваги. Проведено дослідження та наведено порівняння популярних моделей на базі архітектури трансформера, а саме: GPT, Claude та Gemini. Визначено метрики останніх версій з відкритими API, унікальні особливості, сильні та слабкі сторони, можливості та обмеження. Актуальність теми полягає в стрімкому розвитку технологій обробки природної мови та зростанні попиту на великі мовні моделі в різних галузях. Ефективне використання цих моделей має величезний потенціал для підвищення продуктивності та якості роботи з текстовими даними. Однак, через складність архітектури та великі обсяги даних, необхідних для навчання, вибір та налаштування оптимальної моделі для конкретної задачі є непростим завданням. Як результат дослідження наведено рекомендації для розробників щодо використання популярних моделей з відкритим кодом у новому сервісі або інтеграції зі сторонніми програмами. Зазначено особливості моделей, їх сильні сторони, обмеження та певні застереження щодо довіри до отриманих результатів.
dc.description.abstractThe work is dedicated to the study of large language models (LLMs) and approaches to improving their efficiency in a new service. The rapid development of LLMs based on transformer architecture has opened up new possibilities in natural language processing and the automation of various tasks. However, fully utilizing the potential of these models requires a thorough approach and consideration of numerous factors. A review of the evolution of large language models was conducted, highlighting leading companies engaged in the research and development of efficient systems. The structure of these models and ways of representing internal knowledge were examined. Key approaches to training were described, including data collection, preprocessing, and selecting appropriate neural network architectures used in large language models. It was noted that the greatest breakthrough was achieved with the Transformer neural network, which is based on the attention mechanism. A comparison of popular transformer-based chatbots was presented, namely: ChatGPT, Claude AI, and Gemini AI. Their metrics, capabilities, and limitations were identified. The relevance of the topic lies in the rapid development of natural language processing technologies and the growing demand for large language models across various industries. The effective use of these models has tremendous potential to improve productivity and the quality of work with textual data. However, due to the complexity of the architecture and the large amounts of data required for training, selecting and configuring the optimal model for a specific task is a challenging process. As a result of the study, recommendations for developers were provided on the use of popular open-source models in the new service or integration with third-party programs. The characteristics of the models, their strengths, limitations, and certain caveats regarding trust in the generated results were indicated.
dc.format.extent286-300
dc.format.pages15
dc.identifier.citationМожливості та обмеження великих мовних моделей / І. Ю. Юрчак, О. О. Кичук, В. М. Оксентюк, А. О. Хіч // Комп'ютерні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 2. — С. 286–300.
dc.identifier.citation2015Можливості та обмеження великих мовних моделей / Юрчак І. Ю. та ін. // Комп'ютерні системи та мережі, Львів. 2024. Том 6. № 2. С. 286–300.
dc.identifier.citationenAPAYurchak, I. Yu., Kychuk, O. O., Oksentyuk, V. M., & Khich, A. O. (2024). Mozhlyvosti ta obmezhennia velykykh movnykh modelei [Prompting techniques for enhancing the use of large language models]. Computer Systems and Networks, 6(2), 286-300. Lviv Politechnic Publishing House. [in Ukrainian].
dc.identifier.citationenCHICAGOYurchak I. Yu., Kychuk O. O., Oksentyuk V. M., Khich A. O. (2024) Mozhlyvosti ta obmezhennia velykykh movnykh modelei [Prompting techniques for enhancing the use of large language models]. Computer Systems and Networks (Lviv), vol. 6, no 2, pp. 286-300 [in Ukrainian].
dc.identifier.doiDOI: https://doi.org/10.23939/csn2024.02.286
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/123987
dc.language.isouk
dc.publisherВидавництво Львівської політехніки
dc.publisherLviv Politechnic Publishing House
dc.relation.ispartofКомп'ютерні системи та мережі, 2 (6), 2024
dc.relation.ispartofComputer Systems and Networks, 2 (6), 2024
dc.relation.references1. Alessandro Berti, Humam Kourani, Hannes Hafke, Chiao-Yun Li, Daniel Schuster (2024) Evaluating Large Language Models in Process Mining: Capabilities, Benchmarks, and Evaluation Strategies https://doi.org/10.48550/arXiv.2403.06749.
dc.relation.references2. Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global vectors for word representation.(2014) " Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014. https://doi.org/10.3115/v1/D14-1162
dc.relation.references3. Hojjat Salehinejad, Sharan Sankar, Joseph Barfett, Errol Colak, Shahrokh Valaee. Recent Advances in Recurrent Neural Networks (2017). https://doi.org/10.48550/arXiv.1801.01078
dc.relation.references4. Wang, Chenguang, Mu Li, and Alexander J. Smola. "Language models with transformers." arXiv preprint arXiv:1904.09408 (2019). https://doi.org/10.48550/arXiv.1904.09408
dc.relation.references5. OpenAI, URL: https://platform.openai.com/docs/introduction, (Accessed: 13 September 2024).
dc.relation.references6. Google AI, URL: https://ai.google.dev/gemini-api/docs/model-tuning, (Accessed: 13 September 2024).
dc.relation.references7. Anthropic, URL: https://docs.anthropic.com/claude/docs/intro-to-claude, (Accessed: 13 September 2024).
dc.relation.references8. T. Brown, B. Mann, N. Ryder "Language models are few-shot learners." (2020) arXiv preprint arXiv:2005.14165. https://doi.org/10.48550/arXiv.2005.14165.
dc.relation.references9. Artificial intelligence risk management framework (2023) https://doi.org/10.6028/NIST.AI.100-1.
dc.relation.references10. Laura Weidinger, John Mellor, Maribeth Rauh. Ethical and social risks of harm from Language Models (2021) https://doi.org/10.48550/arXiv.2112.04359
dc.relation.referencesen1. Alessandro Berti, Humam Kourani, Hannes Hafke, Chiao-Yun Li, Daniel Schuster (2024) Evaluating Large Language Models in Process Mining: Capabilities, Benchmarks, and Evaluation Strategies https://doi.org/10.48550/arXiv.2403.06749.
dc.relation.referencesen2. Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global vectors for word representation.(2014) " Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014. https://doi.org/10.3115/v1/D14-1162
dc.relation.referencesen3. Hojjat Salehinejad, Sharan Sankar, Joseph Barfett, Errol Colak, Shahrokh Valaee. Recent Advances in Recurrent Neural Networks (2017). https://doi.org/10.48550/arXiv.1801.01078
dc.relation.referencesen4. Wang, Chenguang, Mu Li, and Alexander J. Smola. "Language models with transformers." arXiv preprint arXiv:1904.09408 (2019). https://doi.org/10.48550/arXiv.1904.09408
dc.relation.referencesen5. OpenAI, URL: https://platform.openai.com/docs/introduction, (Accessed: 13 September 2024).
dc.relation.referencesen6. Google AI, URL: https://ai.google.dev/gemini-api/docs/model-tuning, (Accessed: 13 September 2024).
dc.relation.referencesen7. Anthropic, URL: https://docs.anthropic.com/claude/docs/intro-to-claude, (Accessed: 13 September 2024).
dc.relation.referencesen8. T. Brown, B. Mann, N. Ryder "Language models are few-shot learners." (2020) arXiv preprint arXiv:2005.14165. https://doi.org/10.48550/arXiv.2005.14165.
dc.relation.referencesen9. Artificial intelligence risk management framework (2023) https://doi.org/10.6028/NIST.AI.100-1.
dc.relation.referencesen10. Laura Weidinger, John Mellor, Maribeth Rauh. Ethical and social risks of harm from Language Models (2021) https://doi.org/10.48550/arXiv.2112.04359
dc.relation.urihttps://doi.org/10.48550/arXiv.2403.06749
dc.relation.urihttps://doi.org/10.3115/v1/D14-1162
dc.relation.urihttps://doi.org/10.48550/arXiv.1801.01078
dc.relation.urihttps://doi.org/10.48550/arXiv.1904.09408
dc.relation.urihttps://platform.openai.com/docs/introduction
dc.relation.urihttps://ai.google.dev/gemini-api/docs/model-tuning
dc.relation.urihttps://docs.anthropic.com/claude/docs/intro-to-claude
dc.relation.urihttps://doi.org/10.48550/arXiv.2005.14165
dc.relation.urihttps://doi.org/10.6028/NIST.AI.100-1
dc.relation.urihttps://doi.org/10.48550/arXiv.2112.04359
dc.rights.holder© Національний університет „Львівська політехніка“, 2024
dc.rights.holder© Юрчак І.Ю., Кичук О.О., Оксентюк В.М., Хіч А.О., 2024
dc.subjectвеликі мовні моделі
dc.subjectGPT
dc.subjectClaude
dc.subjectGemini
dc.subjectархітектура трансормер
dc.subjectнейронні мережі
dc.subjectчат-бот
dc.subjectгенерування контенту
dc.subjectlarge language models
dc.subjecttransformer architecture
dc.subjectneural networks
dc.subjectchatbot
dc.subjectcontent generation
dc.subject.udc004.8
dc.titleМожливості та обмеження великих мовних моделей
dc.title.alternativePrompting techniques for enhancing the use of large language models
dc.typeArticle

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2024v6n2_Yurchak_I_Yu-Prompting_techniques_286-300.pdf
Size:
1.6 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.85 KB
Format:
Plain Text
Description: