Унормовування тексту при докорпусному опрацюванні: досвід застосування

dc.description.abstractУзагальнено досвід унормування текстів перед внесенням їх у корпус творів Наддністрянської України, створення якого розпочато на кафедрі прикладної лінгвістики Львівської політехніки. Йдеться про тексти художнього стилю. Під унормуванням розуміємо сукупність інформаційних процедур, що роблять текст придатним до внесення його в корпус: приведення всіх текстів до однієї кодової таблиці, перевірку їх на пунктуаційну коректність (однакові за смислом сутності мають бути позначені одним знаком), усунення зайвих символів (наприклад, порожні абзаци, декілька пробілів поспіль і т. ін.), уніфікацію засобів та способів форматування тощо. Як програмне середовище унормування запропоновано редактор MS Word, а для створення додаткового програмного інструментарію – мову програмування Python. Процес унормування текстів містить такі етапи: унормування кодування, унормування графіки, коректура тексту, технічне унормування пунктуації. Для кожного етапу подано його характеристику, вказано проблеми, які виникають при його реалізації та запропоновано шляхи їх подолання. Зроблено висновки.
dc.description.abstractThe article analyses the experience of normalization of texts before introduction into the corpus of literary works of Naddnistrian Ukraine. The creation of the corpus was started at the department of Applied Linguistics of Lviv Polytechnic National University. Normalization means a set of information procedures that make the texts suitable for insertion into the corpus: bringing all texts to one code table, checking them for punctuation correctness (sense-identical entities should be marked with one character), eliminating unnecessary characters (for example, blank paragraphs , several gaps in a row, etc.), unification of formatting tools and methods, and more. MS Word editor is offered as a standardization medium, and Python programming language is used to create additional programming tools. Text normalization process contains the following stages: normalization of coding, normalization of graphics, text proofreading, technical normalization of punctuation. Each stage characteristics are presented, problems that arise during their implementation are indicated, and ways to overcome them are suggested. The conclusions are drawn.
