Розуміння великих мовних моделей: майбутнє штучного інтелекту
| dc.citation.epage | 60 | |
| dc.citation.issue | 2 | |
| dc.citation.journalTitle | Комп’ютерні системи проектування. Теорія і практика | |
| dc.citation.spage | 51 | |
| dc.citation.volume | 6 | |
| dc.contributor.affiliation | Національний університет “Львівська політехніка” | |
| dc.contributor.affiliation | Національний університет “Львівська політехніка” | |
| dc.contributor.affiliation | Національний університет “Львівська політехніка” | |
| dc.contributor.affiliation | Lviv Polytechnic National University | |
| dc.contributor.affiliation | Lviv Polytechnic National University | |
| dc.contributor.affiliation | Lviv Polytechnic National University | |
| dc.contributor.author | Юрчак, Ірина | |
| dc.contributor.author | Хіч, Андрій | |
| dc.contributor.author | Оксентюк, Віра | |
| dc.contributor.author | Yurchak, Iryna | |
| dc.contributor.author | Khich, Andrii | |
| dc.contributor.author | Oksentyuk, Vira | |
| dc.coverage.placename | Львів | |
| dc.coverage.placename | Lviv | |
| dc.date.accessioned | 2025-12-15T08:11:17Z | |
| dc.date.created | 2024-08-10 | |
| dc.date.issued | 2024-08-10 | |
| dc.description.abstract | У статті висвітлено дослідження новітнього напряму в штучному інтелекті – великих мовних моделей, які відкривають нову еру в обробленні природної мови, умож- ливлюючи створення гнучкіших і адаптивніших систем. За їх допомогою досягається високий рівень розуміння контексту, що збагачує досвід користувачів та розширює сфери засто- сування штучного інтелекту. Великі мовні моделі мають величезний потенціал для пере- осмислення взаємодії людини із технологіями та зміни уявлення про машинне навчання. Здійснено огляд історичного розвитку великих мовних моделей, вказано компанії-лідери, що займаються науковими дослідженнями та розробленням ефективних систем. Надано інфор- мацію щодо внутрішнього устрою та подання знань у моделях. Висвітлено основні принципи навчання: збирання даних та їх попереднє оброблення, вибір доцільної нейромережевої архітектури, що використовується у великих мовних моделях. Зазначено, що найбільшого прогресу досягнуто із застосуванням нейронної мережі Трансформер, що ґрунтується на механізмі уваги. Висвітлено кроки, що істотно сприяють навчанню, постнавчанню, оптимі- зації швидкості навчання. Для оцінювання ефективності та якості мовних моделей вико- ристовують різні метрики, які залежать від вирішуваного завдання. Однак, незважаючи на переваги, великі мовні моделі не позбавлені проблем. Можливість генерації недостовірної інформації, вигаданих фактів та неетичних реплік – виклик для дослідників та розробників. Важливо продовжувати роботу над підвищенням відповідальності моделей, розробляти ефективні методи фільтрації контенту та вдосконалювати механізми навчання. Розуміння цих проблем та пошук їх рішень є ключовими кроками на шляху до створення ефективніших та надійніших великих мовних моделей. Відкритість, колективна участь та діалог між сус- пільством, науковою спільнотою та розробниками стають невід’ємною частиною забезпе- чення сталого розвитку цієї технології. | |
| dc.description.abstract | The article examines the newest direction in artificial intelligence – Large Language Models, which open a new era in natural language processing, providing the opportunity to create more flexible and adaptive systems. With their help, a high level of understanding of the context is achieved, which enriches the user experience and expands the fields of application of artificial intelligence. Large language models have enormous potential to redefine human interaction with technology and change the way we think about machine learning. An overview of the historical development of large language models is carried out, leading companies engaged in scientific research and development of effective systems are indicated. Information is provided regarding the internal structure and representation of knowledge in models. The main principles of learning are highlighted: data collection and their pre-processing, selection of an appropriate neural network architecture used in large language models. It is noted that the greatest progress has been achieved using the Transformer neural network, which is based on the mechanism of attention. The steps that significantly contribute to training, post-training, and optimizing the speed of training are highlighted. To evaluate the effectiveness and quality of language models, various metrics are used, which depend on the task to be solved. However, despite their advantages, large language models today are not without problems. The possibility of generating false information, fabricated facts, and unethical remarks presents a challenge for researchers and developers. It is important to continue work on increasing the responsibility of models, develop effective content filtering methods, and improve learning mechanisms. Understanding these problems and finding solutions to them are key steps towards building more efficient and reliable large language models. Openness, collective participation and dialogue between society, the scientific community and developers are becoming an integral part of ensuring the sustainable development of this technology. | |
| dc.format.extent | 51-60 | |
| dc.format.pages | 10 | |
| dc.identifier.citation | Юрчак І. Розуміння великих мовних моделей: майбутнє штучного інтелекту / Ірина Юрчак, Андрій Хіч, Віра Оксентюк // Комп’ютерні системи проектування. Теорія і практика. — Львів : Видавництво Львівської політехніки, 2024. — Том 6. — № 2. — С. 51–60. | |
| dc.identifier.citation2015 | Юрчак І., Оксентюк В. Розуміння великих мовних моделей: майбутнє штучного інтелекту // Комп’ютерні системи проектування. Теорія і практика, Львів. 2024. Том 6. № 2. С. 51–60. | |
| dc.identifier.citationenAPA | Yurchak, I., Khich, A., & Oksentyuk, V. (2024). Rozuminnia velykykh movnykh modelei: maibutnie shtuchnoho intelektu [Understanding large language models: the future of artificial intelligence]. Computer Systems of Design. Theory and Practice, 6(2), 51-60. Lviv Politechnic Publishing House. [in Ukrainian]. | |
| dc.identifier.citationenCHICAGO | Yurchak I., Khich A., Oksentyuk V. (2024) Rozuminnia velykykh movnykh modelei: maibutnie shtuchnoho intelektu [Understanding large language models: the future of artificial intelligence]. Computer Systems of Design. Theory and Practice (Lviv), vol. 6, no 2, pp. 51-60 [in Ukrainian]. | |
| dc.identifier.doi | https://doi.org/10.23939/cds2024.02.051 | |
| dc.identifier.uri | https://ena.lpnu.ua/handle/ntb/124058 | |
| dc.language.iso | uk | |
| dc.publisher | Видавництво Львівської політехніки | |
| dc.publisher | Lviv Politechnic Publishing House | |
| dc.relation.ispartof | Комп’ютерні системи проектування. Теорія і практика, 2 (6), 2024 | |
| dc.relation.ispartof | Computer Systems of Design. Theory and Practice, 2 (6), 2024 | |
| dc.relation.references | [1] Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu. A Survey on Evaluation of Large Language Models [Online]. URL: https://dl.acm.org/doi/pdf/10.1145/3641289 (Accessed: 02/05/2024). | |
| dc.relation.references | [2] Large LanguageModels powered by world-class Google AI [Online]. URL: https://cloud.google.com/ai/llms | |
| dc.relation.references | [3] OpenAI Large Language Models [Online]. URL: https://platform.openai.com/docs/models/ (Accessed:02/05/2024). | |
| dc.relation.references | [4] AI history: the Dartmouth Conference [Online]. URL: https://www.klondike.ai/en/ai-history-the-dartmouthconference/(Accessed: 02/05/2024). | |
| dc.relation.references | [5] A Very Gentle Introduction to Large Language Models without the Hype [Online]. URL: https://markriedl. medium.com/a-very-gentle-introduction-to-large-language-models-without-the-hype-5f67941fa59e (Accessed:02/05/2024). | |
| dc.relation.references | [6] Enkelejda Kasneci, Kathrin Sessler, Stefan Küchemann. ChatGPT for good? On opportunities and challenges of large language models for education, Learning and Individual Differences, Vol. 103, 2023, 102274, ISSN 1041-6080,https://doi.org/10.1016/j.lindif.2023.102274. | |
| dc.relation.references | [7] Jiaqi Wang, Zhengliang Liu, Lin Zhao, Review of large vision models and visual prompt engineering, Meta-Radiology, Vol. 1, Issue 3, 2023, 100047, ISSN 2950-1628, https://doi.org/10.1016/j.metrad.2023.100047. | |
| dc.relation.references | [8] Usman Naseem, Imran Razzak, Shah Khalid Khan, Mukesh Prasad. A Comprehensive Survey on Word Representation Models: From Classical to State-of-the-Art Word Representation Language Models. ACM Transactions on Asian and Low-Resource Language Information Processing, Vol. 20, Issue 5, Article No. 74, pp. 1–35,https://doi.org/10.1145/3434237 | |
| dc.relation.references | [9] Jakob Uszkoreit. Transformer: A Novel Neural Network Architecture for Language Understanding. [Online].URL: https://blog.research.google/2017/08/transformer-novel-neural-network.html (Accessed: 02/05/2024). | |
| dc.relation.references | [10] Tamkin, A., Brundage, M., Clark, J., & Ganguli, D. (2021). Understanding the capabilities, limitations, and societal impact of large language models. arXiv preprint arXiv:2102.02503. https://doi.org/10.48550/arXiv.2102.02503. | |
| dc.relation.referencesen | [1] Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu. A Survey on Evaluation of Large Language Models [Online]. URL: https://dl.acm.org/doi/pdf/10.1145/3641289 (Accessed: 02/05/2024). | |
| dc.relation.referencesen | [2] Large LanguageModels powered by world-class Google AI [Online]. URL: https://cloud.google.com/ai/llms | |
| dc.relation.referencesen | [3] OpenAI Large Language Models [Online]. URL: https://platform.openai.com/docs/models/ (Accessed:02/05/2024). | |
| dc.relation.referencesen | [4] AI history: the Dartmouth Conference [Online]. URL: https://www.klondike.ai/en/ai-history-the-dartmouthconference/(Accessed: 02/05/2024). | |
| dc.relation.referencesen | [5] A Very Gentle Introduction to Large Language Models without the Hype [Online]. URL: https://markriedl. medium.com/a-very-gentle-introduction-to-large-language-models-without-the-hype-5f67941fa59e (Accessed:02/05/2024). | |
| dc.relation.referencesen | [6] Enkelejda Kasneci, Kathrin Sessler, Stefan Küchemann. ChatGPT for good? On opportunities and challenges of large language models for education, Learning and Individual Differences, Vol. 103, 2023, 102274, ISSN 1041-6080,https://doi.org/10.1016/j.lindif.2023.102274. | |
| dc.relation.referencesen | [7] Jiaqi Wang, Zhengliang Liu, Lin Zhao, Review of large vision models and visual prompt engineering, Meta-Radiology, Vol. 1, Issue 3, 2023, 100047, ISSN 2950-1628, https://doi.org/10.1016/j.metrad.2023.100047. | |
| dc.relation.referencesen | [8] Usman Naseem, Imran Razzak, Shah Khalid Khan, Mukesh Prasad. A Comprehensive Survey on Word Representation Models: From Classical to State-of-the-Art Word Representation Language Models. ACM Transactions on Asian and Low-Resource Language Information Processing, Vol. 20, Issue 5, Article No. 74, pp. 1–35,https://doi.org/10.1145/3434237 | |
| dc.relation.referencesen | [9] Jakob Uszkoreit. Transformer: A Novel Neural Network Architecture for Language Understanding. [Online].URL: https://blog.research.google/2017/08/transformer-novel-neural-network.html (Accessed: 02/05/2024). | |
| dc.relation.referencesen | [10] Tamkin, A., Brundage, M., Clark, J., & Ganguli, D. (2021). Understanding the capabilities, limitations, and societal impact of large language models. arXiv preprint arXiv:2102.02503. https://doi.org/10.48550/arXiv.2102.02503. | |
| dc.relation.uri | https://dl.acm.org/doi/pdf/10.1145/3641289 | |
| dc.relation.uri | https://cloud.google.com/ai/llms | |
| dc.relation.uri | https://platform.openai.com/docs/models/ | |
| dc.relation.uri | https://www.klondike.ai/en/ai-history-the-dartmouthconference/(Accessed: | |
| dc.relation.uri | https://markriedl | |
| dc.relation.uri | https://doi.org/10.1016/j.lindif.2023.102274 | |
| dc.relation.uri | https://doi.org/10.1016/j.metrad.2023.100047 | |
| dc.relation.uri | https://doi.org/10.1145/3434237 | |
| dc.relation.uri | https://blog.research.google/2017/08/transformer-novel-neural-network.html | |
| dc.relation.uri | https://doi.org/10.48550/arXiv.2102.02503 | |
| dc.rights.holder | © Національний університет „Львівська політехніка“, 2024 | |
| dc.rights.holder | © Юрчак І., Хіч А., Оксентюк В., 2024 | |
| dc.subject | великі мовні моделі | |
| dc.subject | машинне навчання | |
| dc.subject | глибоке навчання | |
| dc.subject | набір даних | |
| dc.subject | нейронна мережа Трансформер | |
| dc.subject | інженерія запитів | |
| dc.subject | промпт | |
| dc.subject | large language models | |
| dc.subject | machine learning | |
| dc.subject | deep learning | |
| dc.subject | data set | |
| dc.subject | transformer neural network | |
| dc.subject | prompt engineering | |
| dc.title | Розуміння великих мовних моделей: майбутнє штучного інтелекту | |
| dc.title.alternative | Understanding large language models: the future of artificial intelligence | |
| dc.type | Article |