Оцінка адекватності контенту новин за контекстом методами ансаблів моделей трансформерів
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет «Львівська політехніка»
Abstract
Тематика оцінки адекватності та етичності тексту набуває популярності рівномірно із тим як збільшується кількість інформації яка генерується в соцмережах (Рис. 1.4). Відповідно бажання контролювати правила спільнот стають нагальною проблемою для платформ. Із точки зору зацікавленості у науковій спільноті кількість написаних статей із схожою тематикою здебільшого зростає з року в рік . Проблематика полягає в тому, що сучасні методи оцінки текстів не здатні працювати із різно контекстними даними тобто модель натренована на одних даних прив'язується до контексту середовища даних в яких було зібрано цей набір. Розроблений у роботі метод дає змогу моделі бути натренованою на різних контекстах та незалежних наборах даних, безпосередньо голосувати кожній моделі з ансамблю за особистий варіант правди згідно з локальним контекстом тієї моделі. Буде розроблено бінарний класифікатор адекватності/нормальності повідомлень на базі технології ансамблів під сумуючи розділ можна спостерігати вибраний мною набір методів які є оптимальними за параметрами часу виконання , часу тренування, обсяг оперативної пам'яті та відповідно точністю. Зокрема це такі методи як Catboost XGBoost для класифікації та екстракції особливостей та контексту було обрані BERT та його під вид RoBERTa. В розділі 3 проведу відповідний аналіз та експеримент над цими методами, щоб перевірити те що цей метод є справді ефективним. Основна ідея методу полягає в розділенні набору даних на контексти та на тренувальні вибірки на методах, проілюстрованих в Таблиці 3.1. Натреновані моделі помістяться в ансамбль, в якому вони повинні проголосувати за ту чи іншу характеристику контексту. Ensemble Distillation for BERT-Based Ranking Models The topic of assessing the adequacy and ethics of a text is gaining popularity even as the amount of information generated in social networks increases (Figure 1.4). Accordingly, the desire to control the rules of communities becomes an urgent problem for platforms. In terms of interest in the scientific community, the number of articles written on similar topics is generally increasing from year to year.
Description
Citation
Дупляк С. Я. Оцінка адекватності контенту новин за контекстом методами ансаблів моделей трансформерів : пояснювальна записка до бакалаврської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Степан Ярославович Дупляк ; Національний університет «Львівська політехніка». – Львів, 2023. – 71 с.