Розуміння великих мовних моделей: майбутнє штучного інтелекту

dc.citation.epage60
dc.citation.issue2
dc.citation.journalTitleКомп’ютерні системи проектування. Теорія і практика
dc.citation.spage51
dc.citation.volume6
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.authorЮрчак, Ірина
dc.contributor.authorХіч, Андрій
dc.contributor.authorОксентюк, Віра
dc.contributor.authorYurchak, Iryna
dc.contributor.authorKhich, Andrii
dc.contributor.authorOksentyuk, Vira
dc.coverage.placenameЛьвів
dc.coverage.placenameLviv
dc.date.accessioned2025-12-15T08:11:17Z
dc.date.created2024-08-10
dc.date.issued2024-08-10
dc.description.abstractУ статті висвітлено дослідження новітнього напряму в штучному інтелекті – великих мовних моделей, які відкривають нову еру в обробленні природної мови, умож- ливлюючи створення гнучкіших і адаптивніших систем. За їх допомогою досягається високий рівень розуміння контексту, що збагачує досвід користувачів та розширює сфери засто- сування штучного інтелекту. Великі мовні моделі мають величезний потенціал для пере- осмислення взаємодії людини із технологіями та зміни уявлення про машинне навчання. Здійснено огляд історичного розвитку великих мовних моделей, вказано компанії-лідери, що займаються науковими дослідженнями та розробленням ефективних систем. Надано інфор- мацію щодо внутрішнього устрою та подання знань у моделях. Висвітлено основні принципи навчання: збирання даних та їх попереднє оброблення, вибір доцільної нейромережевої архітектури, що використовується у великих мовних моделях. Зазначено, що найбільшого прогресу досягнуто із застосуванням нейронної мережі Трансформер, що ґрунтується на механізмі уваги. Висвітлено кроки, що істотно сприяють навчанню, постнавчанню, оптимі- зації швидкості навчання. Для оцінювання ефективності та якості мовних моделей вико- ристовують різні метрики, які залежать від вирішуваного завдання. Однак, незважаючи на переваги, великі мовні моделі не позбавлені проблем. Можливість генерації недостовірної інформації, вигаданих фактів та неетичних реплік – виклик для дослідників та розробників. Важливо продовжувати роботу над підвищенням відповідальності моделей, розробляти ефективні методи фільтрації контенту та вдосконалювати механізми навчання. Розуміння цих проблем та пошук їх рішень є ключовими кроками на шляху до створення ефективніших та надійніших великих мовних моделей. Відкритість, колективна участь та діалог між сус- пільством, науковою спільнотою та розробниками стають невід’ємною частиною забезпе- чення сталого розвитку цієї технології.
dc.description.abstractThe article examines the newest direction in artificial intelligence – Large Language Models, which open a new era in natural language processing, providing the opportunity to create more flexible and adaptive systems. With their help, a high level of understanding of the context is achieved, which enriches the user experience and expands the fields of application of artificial intelligence. Large language models have enormous potential to redefine human interaction with technology and change the way we think about machine learning. An overview of the historical development of large language models is carried out, leading companies engaged in scientific research and development of effective systems are indicated. Information is provided regarding the internal structure and representation of knowledge in models. The main principles of learning are highlighted: data collection and their pre-processing, selection of an appropriate neural network architecture used in large language models. It is noted that the greatest progress has been achieved using the Transformer neural network, which is based on the mechanism of attention. The steps that significantly contribute to training, post-training, and optimizing the speed of training are highlighted. To evaluate the effectiveness and quality of language models, various metrics are used, which depend on the task to be solved. However, despite their advantages, large language models today are not without problems. The possibility of generating false information, fabricated facts, and unethical remarks presents a challenge for researchers and developers. It is important to continue work on increasing the responsibility of models, develop effective content filtering methods, and improve learning mechanisms. Understanding these problems and finding solutions to them are key steps towards building more efficient and reliable large language models. Openness, collective participation and dialogue between society, the scientific community and developers are becoming an integral part of ensuring the sustainable development of this technology.
dc.format.extent51-60
dc.format.pages10
dc.identifier.citationЮрчак І. Розуміння великих мовних моделей: майбутнє штучного інтелекту / Ірина Юрчак, Андрій Хіч, Віра Оксентюк // Комп’ютерні системи проектування. Теорія і практика. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 2. — С. 51–60.
dc.identifier.citation2015Юрчак І., Оксентюк В. Розуміння великих мовних моделей: майбутнє штучного інтелекту // Комп’ютерні системи проектування. Теорія і практика, Львів. 2024. Том 6. № 2. С. 51–60.
dc.identifier.citationenAPAYurchak, I., Khich, A., & Oksentyuk, V. (2024). Rozuminnia velykykh movnykh modelei: maibutnie shtuchnoho intelektu [Understanding large language models: the future of artificial intelligence]. Computer Systems of Design. Theory and Practice, 6(2), 51-60. Lviv Politechnic Publishing House. [in Ukrainian].
dc.identifier.citationenCHICAGOYurchak I., Khich A., Oksentyuk V. (2024) Rozuminnia velykykh movnykh modelei: maibutnie shtuchnoho intelektu [Understanding large language models: the future of artificial intelligence]. Computer Systems of Design. Theory and Practice (Lviv), vol. 6, no 2, pp. 51-60 [in Ukrainian].
dc.identifier.doihttps://doi.org/10.23939/cds2024.02.051
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/124058
dc.language.isouk
dc.publisherВидавництво Львівської політехніки
dc.publisherLviv Politechnic Publishing House
dc.relation.ispartofКомп’ютерні системи проектування. Теорія і практика, 2 (6), 2024
dc.relation.ispartofComputer Systems of Design. Theory and Practice, 2 (6), 2024
dc.relation.references[1] Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu. A Survey on Evaluation of Large Language Models [Online]. URL: https://dl.acm.org/doi/pdf/10.1145/3641289 (Accessed: 02/05/2024).
dc.relation.references[2] Large LanguageModels powered by world-class Google AI [Online]. URL: https://cloud.google.com/ai/llms
dc.relation.references[3] OpenAI Large Language Models [Online]. URL: https://platform.openai.com/docs/models/ (Accessed:02/05/2024).
dc.relation.references[4] AI history: the Dartmouth Conference [Online]. URL: https://www.klondike.ai/en/ai-history-the-dartmouthconference/(Accessed: 02/05/2024).
dc.relation.references[5] A Very Gentle Introduction to Large Language Models without the Hype [Online]. URL: https://markriedl. medium.com/a-very-gentle-introduction-to-large-language-models-without-the-hype-5f67941fa59e (Accessed:02/05/2024).
dc.relation.references[6] Enkelejda Kasneci, Kathrin Sessler, Stefan Küchemann. ChatGPT for good? On opportunities and challenges of large language models for education, Learning and Individual Differences, Vol. 103, 2023, 102274, ISSN 1041-6080,https://doi.org/10.1016/j.lindif.2023.102274.
dc.relation.references[7] Jiaqi Wang, Zhengliang Liu, Lin Zhao, Review of large vision models and visual prompt engineering, Meta-Radiology, Vol. 1, Issue 3, 2023, 100047, ISSN 2950-1628, https://doi.org/10.1016/j.metrad.2023.100047.
dc.relation.references[8] Usman Naseem, Imran Razzak, Shah Khalid Khan, Mukesh Prasad. A Comprehensive Survey on Word Representation Models: From Classical to State-of-the-Art Word Representation Language Models. ACM Transactions on Asian and Low-Resource Language Information Processing, Vol. 20, Issue 5, Article No. 74, pp. 1–35,https://doi.org/10.1145/3434237
dc.relation.references[9] Jakob Uszkoreit. Transformer: A Novel Neural Network Architecture for Language Understanding. [Online].URL: https://blog.research.google/2017/08/transformer-novel-neural-network.html (Accessed: 02/05/2024).
dc.relation.references[10] Tamkin, A., Brundage, M., Clark, J., & Ganguli, D. (2021). Understanding the capabilities, limitations, and societal impact of large language models. arXiv preprint arXiv:2102.02503. https://doi.org/10.48550/arXiv.2102.02503.
dc.relation.referencesen[1] Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu. A Survey on Evaluation of Large Language Models [Online]. URL: https://dl.acm.org/doi/pdf/10.1145/3641289 (Accessed: 02/05/2024).
dc.relation.referencesen[2] Large LanguageModels powered by world-class Google AI [Online]. URL: https://cloud.google.com/ai/llms
dc.relation.referencesen[3] OpenAI Large Language Models [Online]. URL: https://platform.openai.com/docs/models/ (Accessed:02/05/2024).
dc.relation.referencesen[4] AI history: the Dartmouth Conference [Online]. URL: https://www.klondike.ai/en/ai-history-the-dartmouthconference/(Accessed: 02/05/2024).
dc.relation.referencesen[5] A Very Gentle Introduction to Large Language Models without the Hype [Online]. URL: https://markriedl. medium.com/a-very-gentle-introduction-to-large-language-models-without-the-hype-5f67941fa59e (Accessed:02/05/2024).
dc.relation.referencesen[6] Enkelejda Kasneci, Kathrin Sessler, Stefan Küchemann. ChatGPT for good? On opportunities and challenges of large language models for education, Learning and Individual Differences, Vol. 103, 2023, 102274, ISSN 1041-6080,https://doi.org/10.1016/j.lindif.2023.102274.
dc.relation.referencesen[7] Jiaqi Wang, Zhengliang Liu, Lin Zhao, Review of large vision models and visual prompt engineering, Meta-Radiology, Vol. 1, Issue 3, 2023, 100047, ISSN 2950-1628, https://doi.org/10.1016/j.metrad.2023.100047.
dc.relation.referencesen[8] Usman Naseem, Imran Razzak, Shah Khalid Khan, Mukesh Prasad. A Comprehensive Survey on Word Representation Models: From Classical to State-of-the-Art Word Representation Language Models. ACM Transactions on Asian and Low-Resource Language Information Processing, Vol. 20, Issue 5, Article No. 74, pp. 1–35,https://doi.org/10.1145/3434237
dc.relation.referencesen[9] Jakob Uszkoreit. Transformer: A Novel Neural Network Architecture for Language Understanding. [Online].URL: https://blog.research.google/2017/08/transformer-novel-neural-network.html (Accessed: 02/05/2024).
dc.relation.referencesen[10] Tamkin, A., Brundage, M., Clark, J., & Ganguli, D. (2021). Understanding the capabilities, limitations, and societal impact of large language models. arXiv preprint arXiv:2102.02503. https://doi.org/10.48550/arXiv.2102.02503.
dc.relation.urihttps://dl.acm.org/doi/pdf/10.1145/3641289
dc.relation.urihttps://cloud.google.com/ai/llms
dc.relation.urihttps://platform.openai.com/docs/models/
dc.relation.urihttps://www.klondike.ai/en/ai-history-the-dartmouthconference/(Accessed:
dc.relation.urihttps://markriedl
dc.relation.urihttps://doi.org/10.1016/j.lindif.2023.102274
dc.relation.urihttps://doi.org/10.1016/j.metrad.2023.100047
dc.relation.urihttps://doi.org/10.1145/3434237
dc.relation.urihttps://blog.research.google/2017/08/transformer-novel-neural-network.html
dc.relation.urihttps://doi.org/10.48550/arXiv.2102.02503
dc.rights.holder© Національний університет „Львівська політехніка“, 2024
dc.rights.holder© Юрчак І., Хіч А., Оксентюк В., 2024
dc.subjectвеликі мовні моделі
dc.subjectмашинне навчання
dc.subjectглибоке навчання
dc.subjectнабір даних
dc.subjectнейронна мережа Трансформер
dc.subjectінженерія запитів
dc.subjectпромпт
dc.subjectlarge language models
dc.subjectmachine learning
dc.subjectdeep learning
dc.subjectdata set
dc.subjecttransformer neural network
dc.subjectprompt engineering
dc.titleРозуміння великих мовних моделей: майбутнє штучного інтелекту
dc.title.alternativeUnderstanding large language models: the future of artificial intelligence
dc.typeArticle

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2024v6n2_Yurchak_I-Understanding_large_language_51-60.pdf
Size:
1003.63 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.82 KB
Format:
Plain Text
Description: