Оцінка якості генеративних систем штучного інтелекту
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Львівська політехніка"
Abstract
У зв’язку із стрімким розвитком генеративних систем штучного інтелекту, особливо великих мовних моделей (ВММ), зростає потреба в об’єктивній та комплексній оцінці якості їхньої роботи. У цій дипломній роботі досліджено сучасні підходи до оцінювання генеративного тексту, зокрема з точки зору точності, релевантності, логічної послідовності та фактичної достовірності. Було розроблено прототип автоматизованої системи оцінки якості генерації на основі фреймворку RAGAS із використанням Retrieval-Augmented Generation. Проведено експериментальні дослідження з оцінювання якості двох найвідоміших моделей, побудовані на основі власного датасету. Для кожної моделі було проведено аналіз за основними метриками якості, включаючи людське оцінювання. Результати підтверджують ефективність використаного підходу та демонструють ключові відмінності між моделями. Можливі причини таких результатів розглянуто. Та надано пропозиції щодо подальшої роботи.
Due to the rapid development of generative artificial intelligence systems, particularly large language models (LLMs), there is a growing need for objective and comprehensive evaluation of their performance. In this thesis we explore current approaches to assessing generative text, with a focus on accuracy, relevance, logical coherence, and factual consistency. A prototype of an automated evaluation system was developed based on the RAGAS framework, utilizing Retrieval-Augmented Generation. Experimental studies were conducted to evaluate the quality of two of the most well-known models, using a custom-built dataset. Each model was analyzed using key quality metrics, including human evaluation. The results confirm the effectiveness of the chosen approach and highlight key differences between the models. Possible reasons for such outcomes are discussed, and suggestions for future work are provided.
Due to the rapid development of generative artificial intelligence systems, particularly large language models (LLMs), there is a growing need for objective and comprehensive evaluation of their performance. In this thesis we explore current approaches to assessing generative text, with a focus on accuracy, relevance, logical coherence, and factual consistency. A prototype of an automated evaluation system was developed based on the RAGAS framework, utilizing Retrieval-Augmented Generation. Experimental studies were conducted to evaluate the quality of two of the most well-known models, using a custom-built dataset. Each model was analyzed using key quality metrics, including human evaluation. The results confirm the effectiveness of the chosen approach and highlight key differences between the models. Possible reasons for such outcomes are discussed, and suggestions for future work are provided.
Description
Keywords
Citation
Шовак Р. М. Оцінка якості генеративних систем штучного інтелекту : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „6.152.00.00 — Метрологія та інформаційно-вимірювальна техніка“ / Ростислав Михайлович Шовак. — Львів, 2024. — 71 с.