Удосконалення методів зберігання текстових даних

Литвин, Василь; Каланча, Артем; Угрин, Дмитро; Талах,  Марія

Удосконалення методів зберігання текстових даних

Files

maket2402951-106-118.pdf (836.02 KB)

Date

2024

Authors

Publisher

Національний університет «Львівська політехніка»

Abstract

У дослідженні проаналізовано якісні характеристики повідомлень у месенджері Telegram, використаних як вихідні дані для подальшого аналізу текстового контенту. Здійснено ретельний огляд параметрів цих повідомлень, таких як їх формат, розмір, наявність шумів та швидкодія. Основна мета статті – моделювання оптимального підходу до збереження великого обсягу даних перед важливим етапом аналізу тексту. Під час дослідження детально проаналізовано літературні джерела із цієї тематики. Розглянуто основні переваги та недоліки наявних алгоритмів переднього опрацювання даних, а також проблеми, пов’язані з чистотою даних і їх впливом на потенційні результати дослідження. У межах програмних експериментів оцінено вплив попереднього опрацювання даних на розмір збережених даних для подальшого використання, а також на швидкість генерації вхідних даних. Серед запропонованих методів виділено метод збереження очищених токенів у форматі рядка та метод збереження кодів слів у форматі рядка разом зі словником слово-код, використання яких дасть змогу забезпечити ефективний розподіл завдань системи аналізу текстів протягом періоду доби. In this research, an analysis of the qualitative characteristics of messages in the Telegram messenger was carried out, which are used as raw data for further analysis of textual content. A thorough review of the parameters of these messages, such as their format, size, presence of noise, and speed. The main goal of the article is to model the optimal approach to saving a large amount of data before the important stage of text analysis. During the research, a detailed analysis of literary sources devoted to this topic was carried out. The article examines the main advantages and disadvantages of existing data preprocessing algorithms, as well as problems related to data purity and their impact on potential research results. As part of the software experiments, the impact of data preprocessing on the size of the saved data for further use, as well as on the speed of input data generation, was evaluated. Among the proposed methods, the method of saving cleared tokens in string format and the method of saving word codes in string format together with the word-code dictionary were highlighted. This is aimed at ensuring the effective distribution of tasks of the text analysis system during the period of the day.

Keywords

текстовий аналіз; попередня обробка тексту; база даних; кодування. text analysis; text preprocessing; database; encoding

Citation

Удосконалення методів зберігання текстових даних / Василь Литвин, Артем Каланча, Дмитро Угрин, Марія Талах // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — № 15. — С. 102–114.

URI

https://ena.lpnu.ua/handle/ntb/115395

Collections

Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. – 2024. – Випуск 15

Full item page

Удосконалення методів зберігання текстових даних

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By