SED-UA-small: Ukrainian synthetic dataset for text embedding models
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет «Львівська політехніка»
Abstract
This paper presents Small Synthetic Embedding Dataset, a fully synthetic dataset in Ukrainian designed for training, fine-tuning, and evaluating text embedding models. The use of large language models (LLMs) allows for controlling the diversity of generated data in aspects such as NLP tasks, asymmetry between queries and documents, the presence of instructions, support for various languages, and avoidance of social biases. A zero-shot generation approach was used to create a set of Ukrainian query-documents pairs with corresponding similarity scores. The dataset can be used to evaluate the quality of multilingual embedding models, as well as to train or fine-tune models to improve their effectiveness when working with Ukrainian texts. The paper covers a comprehensive description of the dataset construction process, including the parameters influencing the diversity of generated texts, the large language models used for actual generation of the data, and an example of using the dataset to evaluate and compare selected multilingual embedding models on the task of semantic text similarity. Unlike existing Ukrainian datasets, which are mainly based on real texts, SED-UA-small is fully synthetic, providing greater flexibility in controlling the diversity and specificity of data for the needs of training and evaluating embedding models, and allowing for feast and cost-effective expansion of the dataset with high-quality entries if needed. We used a combination of open and proprietary large language models of different sizes to generate the first version of the dataset, consisting of 112 thousand text pairs, divided into training (~50 %), testing (25 %), and validation (25 %) sets. The data is publicly available at https://huggingface.co/datasets/suntez13/sed-ua-small-sts-v1. У даній роботі представлено Small Synthetic Embedding Dataset, повністю синтетичний набір даних українською мовою, розроблений для навчання, донавчання та оцінки моделей вбудовування текстів. Використання великих мовних моделей дозволяє контролювати різноманітність згенерованих даних за такими аспектами, як NLP-задачі, асиметричність між запитами та документами, наявність інструкцій, підтримка різних мов та уникнення соціальних зміщень. При генерації набору даних було використано підхід без навчання на прикладах цільового завдання до генерації для створення набору пар запитів та відповідних їм текстів українською мовою. Набір даних може бути використаний для оцінки якості мультимовних моделей вбудовування текстів, а також для навчання або донавчання моделей з метою підвищення їхньої ефективності при роботі з україномовними текстами. Робота охоплює детальний опис процесу побудови набору даних, включаючи параметри, що впливають на різноманітність генерованих текстів, використані мовні моделі, а також приклад використання набору даних для оцінки та порівняння відібраних мультимовних моделей вбудовування текстів на задачі семантичної подібності текстів. На відміну від наявних україномовних наборів даних, які переважно базуються на реальних текстах, SED-UA-small є повністю синтетичним, що надає більшу гнучкість у контролі різноманітності та специфічності даних для потреб навчання та оцінки таких моделей, дозволяє швидко та економічно ефективно розширювати набір даних високоякісними записами. Ми використовували комбінацію відкритих та приватних великих мовних моделей різних розмірів для генерації першої версії набору даних, що складається з 112 тисяч пар текстів, розділених на тренувальний (~50 %), тестовий (25%) та валідаційний (25 %) набори. Дані доступні за посиланням - ttps://huggingface.co/datasets/suntez13/sed-ua-small-sts-v1.
Description
Citation
Mediakov O. SED-UA-small: Ukrainian synthetic dataset for text embedding models / Oleksandr Mediakov, Dmytro Martjanov, Vasyl Lytvyn // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2025. — № 17. — С. 403–410.