Унормовування тексту при докорпусному опрацюванні: досвід застосування
Date
2020-02-24
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
Узагальнено досвід унормування текстів перед внесенням їх у корпус творів
Наддністрянської України, створення якого розпочато на кафедрі прикладної лінгвістики
Львівської політехніки. Йдеться про тексти художнього стилю. Під унормуванням розуміємо
сукупність інформаційних процедур, що роблять текст придатним до внесення його в корпус:
приведення всіх текстів до однієї кодової таблиці, перевірку їх на пунктуаційну коректність
(однакові за смислом сутності мають бути позначені одним знаком), усунення зайвих символів
(наприклад, порожні абзаци, декілька пробілів поспіль і т. ін.), уніфікацію засобів та способів
форматування тощо. Як програмне середовище унормування запропоновано редактор MS Word,
а для створення додаткового програмного інструментарію – мову програмування Python. Процес
унормування текстів містить такі етапи: унормування кодування, унормування графіки,
коректура тексту, технічне унормування пунктуації. Для кожного етапу подано його
характеристику, вказано проблеми, які виникають при його реалізації та запропоновано шляхи
їх подолання. Зроблено висновки.
The article analyses the experience of normalization of texts before introduction into the corpus of literary works of Naddnistrian Ukraine. The creation of the corpus was started at the department of Applied Linguistics of Lviv Polytechnic National University. Normalization means a set of information procedures that make the texts suitable for insertion into the corpus: bringing all texts to one code table, checking them for punctuation correctness (sense-identical entities should be marked with one character), eliminating unnecessary characters (for example, blank paragraphs , several gaps in a row, etc.), unification of formatting tools and methods, and more. MS Word editor is offered as a standardization medium, and Python programming language is used to create additional programming tools. Text normalization process contains the following stages: normalization of coding, normalization of graphics, text proofreading, technical normalization of punctuation. Each stage characteristics are presented, problems that arise during their implementation are indicated, and ways to overcome them are suggested. The conclusions are drawn.
The article analyses the experience of normalization of texts before introduction into the corpus of literary works of Naddnistrian Ukraine. The creation of the corpus was started at the department of Applied Linguistics of Lviv Polytechnic National University. Normalization means a set of information procedures that make the texts suitable for insertion into the corpus: bringing all texts to one code table, checking them for punctuation correctness (sense-identical entities should be marked with one character), eliminating unnecessary characters (for example, blank paragraphs , several gaps in a row, etc.), unification of formatting tools and methods, and more. MS Word editor is offered as a standardization medium, and Python programming language is used to create additional programming tools. Text normalization process contains the following stages: normalization of coding, normalization of graphics, text proofreading, technical normalization of punctuation. Each stage characteristics are presented, problems that arise during their implementation are indicated, and ways to overcome them are suggested. The conclusions are drawn.
Description
Keywords
корпус текстів, унормування, кодові таблиці, графіка тексту, коректура тексту, пунктуація, of texts, normalization, code tables, text graphics, text correction, punctuation
Citation
Кульчицький І. Унормовування тексту при докорпусному опрацюванні: досвід застосування / Ігор Кульчицький // Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2020. — № 7. — С. 51–58.