Information systems for working with text corpora: classification and comparative analysis

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Видавництво Львівської політехніки

Abstract

The article examines information systems for working with text corpora, particularly their application for linguistic analysis and management of large text data. Information systems for supporting text corpora are analyzed, classified, and compared based on their historical development and functional capabilities. The main focus is comparing the two most common systems that can be distinguished by functionality as corpus managers: “AntConc” and “Sketch Engine”. These are evaluated based on key criteria: corpus creation, text processing, annotation, storage and export, data analysis and visualization, interface intuitiveness, support for the Ukrainian language, as well as the presence of an open license. The research aimed to conduct a comparative analysis of these systems using the analytic hierarchy process method to determine their strengths and weaknesses under different usage conditions. It was found that “Sketch Engine” provides advanced capabilities for creating and managing large corpora, annotating and visualizing data, making it a better choice for large research projects. At the same time, “AntConc” is a more accessible and efficient system for individual or small-scale research due to its simplicity, lack of licensing costs, and support for specific parameters for text analysis. The research findings can be useful for corpus and applied linguists when choosing systems for creating and working with text corpora. The conclusions will contribute to making decisions regarding the selection of appropriate tools based on specific research needs, workload, and budget constraints. In addition, the research results can be applied to improving existing and developing new information systems to support corpora in future scientific projects by the authors. У статті досліджено інформаційні системи для роботи з текстовими корпусами, зокрема їхнє застосування для лінгвістичного аналізу та управління великими текстовими даними. Проаналізовано інформаційні системи для підтримки текстових корпусів, проведено їхню класифікацію та досліджено поступ функціональних можливостей. Основну увагу зосереджено на порівнянні двох найпоширеніших систем, котрі можна виділити за функціоналом як корпусні менеджери, – “AntConc” і “Sketch Engine”. Їх оцінено за ключовими критеріями: створення корпусів текстів, опрацювання текстів, розмітка, збереження та експорт, аналіз і візуалізація даних, інтуїтивність інтерфейсу, підтримка української мови, а також наявність відкритої ліцензії. Метою дослідження було провести порівняльний аналіз цих систем із використанням методу аналізу ієрархій для визначення їхніх сильних та слабких сторін у різних умовах використання. Виявлено, що “Sketch Engine” забезпечує розширені можливості для створення й управління великими корпусами, розмітки та візуалізації даних, що робить його кращим вибором для великих дослідницьких проєктів. Водночас “AntConc” є більш доступною та ефективною системою для індивідуальних або малих досліджень завдяки простоті, відсутності ліцензійних витрат і підтримці специфічних параметрів для аналізу текстів. Результати дослідження можуть бути корисними для корпусних та прикладних лінгвістів під час вибору систем для створення і роботи з текстовими корпусами. Висновки сприятимуть ухваленню рішень щодо вибору відповідних інструментів залежно від конкретних потреб дослідження, обсягу роботи та бюджетних обмежень. Окрім того, результати дослідження можуть бути застосовані для вдосконалення наявних та розроблення нових інформаційних систем для забезпечення підтримки корпусів у подальших наукових проєктах авторів.

Description

Citation

Kozak I. Information systems for working with text corpora: classification and comparative analysis / Ivan Kozak, Nataliia Kunanets // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — № 16. — С. 273–289.

Endorsement

Review

Supplemented By

Referenced By