Унормовування тексту при докорпусному опрацюванні: досвід застосування

dc.citation.epage58
dc.citation.issue7
dc.citation.journalTitleВісник Національного університету "Львівська політехніка". Інформаційні системи та мережі
dc.citation.spage51
dc.contributor.affiliationНаціональний університет “Львівська політехніка”
dc.contributor.affiliationLviv Polytechnic National University
dc.contributor.authorКульчицький, Ігор
dc.contributor.authorKulchytskyy, Ihor
dc.coverage.placenameЛьвів
dc.coverage.placenameLviv
dc.date.accessioned2021-02-11T14:12:50Z
dc.date.available2021-02-11T14:12:50Z
dc.date.created2020-02-24
dc.date.issued2020-02-24
dc.description.abstractУзагальнено досвід унормування текстів перед внесенням їх у корпус творів Наддністрянської України, створення якого розпочато на кафедрі прикладної лінгвістики Львівської політехніки. Йдеться про тексти художнього стилю. Під унормуванням розуміємо сукупність інформаційних процедур, що роблять текст придатним до внесення його в корпус: приведення всіх текстів до однієї кодової таблиці, перевірку їх на пунктуаційну коректність (однакові за смислом сутності мають бути позначені одним знаком), усунення зайвих символів (наприклад, порожні абзаци, декілька пробілів поспіль і т. ін.), уніфікацію засобів та способів форматування тощо. Як програмне середовище унормування запропоновано редактор MS Word, а для створення додаткового програмного інструментарію – мову програмування Python. Процес унормування текстів містить такі етапи: унормування кодування, унормування графіки, коректура тексту, технічне унормування пунктуації. Для кожного етапу подано його характеристику, вказано проблеми, які виникають при його реалізації та запропоновано шляхи їх подолання. Зроблено висновки.
dc.description.abstractThe article analyses the experience of normalization of texts before introduction into the corpus of literary works of Naddnistrian Ukraine. The creation of the corpus was started at the department of Applied Linguistics of Lviv Polytechnic National University. Normalization means a set of information procedures that make the texts suitable for insertion into the corpus: bringing all texts to one code table, checking them for punctuation correctness (sense-identical entities should be marked with one character), eliminating unnecessary characters (for example, blank paragraphs , several gaps in a row, etc.), unification of formatting tools and methods, and more. MS Word editor is offered as a standardization medium, and Python programming language is used to create additional programming tools. Text normalization process contains the following stages: normalization of coding, normalization of graphics, text proofreading, technical normalization of punctuation. Each stage characteristics are presented, problems that arise during their implementation are indicated, and ways to overcome them are suggested. The conclusions are drawn.
dc.format.extent51-58
dc.format.pages8
dc.identifier.citationКульчицький І. Унормовування тексту при докорпусному опрацюванні: досвід застосування / Ігор Кульчицький // Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2020. — № 7. — С. 51–58.
dc.identifier.citationenKulchytskyy I. Text normalization during pre-corpus preparation: experience of application / Ihor Kulchytskyy // Visnyk Natsionalnoho universytetu "Lvivska politekhnika". Informatsiini systemy ta merezhi. — Lviv : Lviv Politechnic Publishing House, 2020. — No 7. — P. 51–58.
dc.identifier.urihttps://ena.lpnu.ua/handle/ntb/56141
dc.language.isouk
dc.publisherВидавництво Львівської політехніки
dc.publisherLviv Politechnic Publishing House
dc.relation.ispartofВісник Національного університету "Львівська політехніка". Інформаційні системи та мережі, 7, 2020
dc.relation.references1. Ellis N. C. (2012). Formulaic language and second language acquisition. Zipfand the phrasal teddy bear’. Annual Review of Applied Linguistics, 32, 17–44.
dc.relation.references2. Friederike Müller & Birgit Waibel (n. d.) Corpus linguistics — an introduction. Retrieved January 15, 2020 from https://www.anglistik.uni-freiburg.de/seminar/abteilungen/sprachwissenschaft/ls_mair/corpus-linguistics.
dc.relation.references3. Gries S. Th. (2013). Statistics for Linguistics Using. Berlin.
dc.relation.references4. Gries Stefan Th. (2019). Some long overdue additions/corrections (to/of actually all sorts of corpuslinguistics measures). International Journal of Corpus Linguistics, 24 (3), 385–412.
dc.relation.references5. Nancy Ide (2008). Preparation and Analysis of Linguistic Corpora. In S. Schreibman & R. Siemens & J. Unsworth (Eds.) A Companion to Digital Humanities (pp. 289-305). doi:10.1002/9780470999875.
dc.relation.references6. Perez Paredes. (n. d.) All things corpus & applied linguistics Research methods: corpus linguistics. Retrieved January 15, 2020 from http://www.perezparedes.es/research-methods-corpus-linguistics/.
dc.relation.references7. Unicode Standard Releases. (n. d.) Unicode – The World Standard for Text and Emoji. Retrieved January 15, 2020 from https://home.unicode.org.
dc.relation.references8. Бобкова, Т. В. (2014). До визначення корпусної лінгвістики в сучасному мовознавстві. Наукові записки Національного університету “Острозька академія”, ( 45), 3–6.
dc.relation.references9. Ванівська, О. І. (2012). Основні підходи до аналізу мовних даних у корпусній лінгвістиці. Наукові записки Національного університету “Острозька академія”, 27, 3–8.
dc.relation.references10. ГРАК (n. d.) Генеральний регіонально анотований корпус української мови. Доступ 15/01/2020 http://uacorpus.org/
dc.relation.references11. Данилюк, І. (2013). Корпус текстів для вивчення граматичної службовості. Лінгвістичні студії, 26, 224–229.
dc.relation.references12. Дарчук, Н. (2010). Дослідницький корпус української мови: основні засади і перспективи. Вісник Київського національного університету імені ТарасаШевченка, 21, 45–49.
dc.relation.references13. Загнітко, А. П. (2015). Встановлення функційної характерології та парадигмально-синтагмального вияву часток в експериментальному дослідницькому лінгвістичному корпусі службовості. In О. Левченко (Ed.) Дані текстових корпусів у лінгвістичних дослідженнях (pp. 46–64).
dc.relation.references14. Загнітко, А. & Данилюк, І. (2013). Корпус текстів граматичної службовості. In Прикладна лінгвістика та лінгвістичні технології (pp. 102–112).
dc.relation.references15. Кульчицький, І. М. (2015). Технологічні аспекти укладання корпусів текстів. In О. Левченко (Ed.) Дані текстових корпусів у лінгвістичних дослідженнях (pp. 29–45).
dc.relation.references16. Кульчицький, І. (2016). Корпуси текстів як лінгвотехнологічне підґрунтя виявлення змін в українській мові. In А. Архангельська (Ed.) XX–XXI століття: жанрово-стильові й лінгвістичні метаморфози в українській мові та літературі (pp. 269–298).
dc.relation.references17. Кульчицький І. М. (2014). Технічні аспекти опрацювання комп’ютером природномовної інформації. Вісник Національного університету “Львівська політехніка”, 783, 344–353.
dc.relation.references18. Друль Орест (2015). Поправлюваний Франко. Збруч. Отримано 16/01/2020 з https://zbruc.eu/node/35977
dc.relation.references19. Русанівський В. М. & Тараненко О. О. & all. (2004). Українська мова: Енциклопедія. Видавництво “Українська енциклопедія ім. М. П. Бажана”.
dc.relation.references20. Український правопис 2019. (2019). Міністерство освіти і науки України. Отримано 15/01/2020 з https://mon.gov.ua/ua/osvita/zagalna-serednya-osvita/navchalni-programi/ukrayinskij-pravopis-2019
dc.relation.references21. Широков В. А. & all (2005). Корпусна лінгвістика. Довіра.
dc.relation.referencesen1. Ellis N. C. ‘Formulaic language and second language acquisition. Zipfand the phrasal teddy bear’. Annual Review of Applied Linguistics 32, 2012. 17–44.
dc.relation.referencesen2. Friederike Müller and Birgit Waibel, Corpus linguistics – an introduction, from https://www.anglistik.unifreiburg. de/seminar/abteilungen/sprachwissenschaft/ls_mair/corpus-linguistics [FM].
dc.relation.referencesen3. Gries S. Th. Statistics for Linguistics Using R. 2nd edn. Berlin. De Gruyter Mouton, 2013. p. 179.
dc.relation.referencesen4. Gries Stefan Th. Some long overdue additions/corrections (to/of actually all sorts of corpus-linguistics measures). International Journal of Corpus Linguistics, Volume 24, Issue 3, Aug 2019, p. 385–412
dc.relation.referencesen5. Nancy Ide (2008). Preparation and Analysis of Linguistic Corpora. A Companion to Digital Humanities/Susan Schreibman, Ray Siemens, John Unsworth, John Wiley & Sons 640 p. [NI08].
dc.relation.referencesen6. Perez Paredes. All things corpus & applied linguistics Research methods: corpus linguistics, from http://www.perezparedes.es/research-methods-corpus-linguistics/
dc.relation.referencesen7. The Unicode Consortium, from http://www.unicode.org/ [UTF].
dc.relation.referencesen8. Bobkova, T. V (2014). Towards a definition of corpus linguistics in modern linguistics. Scientific Papers of Ostroh Academy National University, (45), 3–6.
dc.relation.referencesen9. Vanivska, O. I (2012). Basic approaches to the analysis of language data in corpus linguistics. Scientific Papers of Ostroh Academy National University, 27, 3–8.
dc.relation.referencesen10. GRAC (n. D.) General regionally annotated corpus of the Ukrainian language. Accessed 15/01/2020 http://uacorpus.org/
dc.relation.referencesen11. Danylyuk, I. (2013). A body of texts for the study of grammatical servitude. Linguistic Studies, 26, 224–229.
dc.relation.referencesen12. Darchuk, N. (2010). The research body of the Ukrainian language: basic principles and perspectives. Bulletin of Taras Shevchenko National University of Kyiv, 21, 45–49.
dc.relation.referencesen13. Zagnitko, A. P (2015). Establishment of Functional Characteristics and Paradigm-Syntagmal Particle Detection in the Experimental Research Linguistic Corps of Servitude. In O. Levchenko (Ed.) Data from text corpora in linguistic studies (pp. 46–64).
dc.relation.referencesen14. Zagnitko, A. & Danylyuk, I. (2013). A body of grammatical servitude texts. In Applied Linguistics and Linguistic Technologies (pp. 102–112).
dc.relation.referencesen15. Kulchytskyy, I. M. (2015). Technological aspects of text corpus laying. In O. Levchenko (Ed.) Text corpus data in linguistic research (pp. 29–45).
dc.relation.referencesen16. Kulchytskyi, I. (2016). Text Cases as a Linguistic and Technological Basis for Detecting Changes in the Ukrainian Language. In A. Arkhangelsk (Ed.) XX–XXI centuries: genre-style and linguistic metamorphoses in Ukrainian language and literature (pp. 269–298).
dc.relation.referencesen17. Kulchitsky I. M. (2014). Technical aspects of computer-generated natural language information. Bulletin of the National University of Lviv Polytechnic, 783, 344–353.
dc.relation.referencesen18. Drul Orestes (2015). Corrected by Franco. Collapsed. Retrieved 16/01/2020 from https://zbruc.eu/node/35977
dc.relation.referencesen19. Rusanovsky V. M & Taranenko OO & all. (2004). English language: Encyclopedia. Publishing House “Ukrainian Encyclopedia. MP Bazhan”.
dc.relation.referencesen20. Ukrainian Spelling 2019. (2019). Ministry of Education and Science of Ukraine. Retrieved 15/01/2020 from https://mon.gov.ua/en/osvita/zagalna-serednya-osvita/navchalni-programi/ukrayinskij-pravopis-2019
dc.relation.referencesen21. Shirokov V. A & all (2005). Corpus linguistics. Trust.
dc.relation.urihttps://www.anglistik.uni-freiburg.de/seminar/abteilungen/sprachwissenschaft/ls_mair/corpus-linguistics
dc.relation.urihttp://www.perezparedes.es/research-methods-corpus-linguistics/
dc.relation.urihttps://home.unicode.org
dc.relation.urihttp://uacorpus.org/
dc.relation.urihttps://zbruc.eu/node/35977
dc.relation.urihttps://mon.gov.ua/ua/osvita/zagalna-serednya-osvita/navchalni-programi/ukrayinskij-pravopis-2019
dc.relation.urihttps://www.anglistik.unifreiburg
dc.relation.urihttp://www.unicode.org/
dc.relation.urihttps://mon.gov.ua/en/osvita/zagalna-serednya-osvita/navchalni-programi/ukrayinskij-pravopis-2019
dc.rights.holder© Національний університет “Львівська політехніка”, 2020
dc.rights.holder© Кульчицький І., 2020
dc.subjectкорпус текстів
dc.subjectунормування
dc.subjectкодові таблиці
dc.subjectграфіка тексту
dc.subjectкоректура тексту
dc.subjectпунктуація
dc.subjectof texts
dc.subjectnormalization
dc.subjectcode tables
dc.subjecttext graphics
dc.subjecttext correction
dc.subjectpunctuation
dc.subject.udc004.415.3
dc.titleУнормовування тексту при докорпусному опрацюванні: досвід застосування
dc.title.alternativeText normalization during pre-corpus preparation: experience of application
dc.typeArticle

Files

Original bundle

Now showing 1 - 2 of 2
Thumbnail Image
Name:
2020n7_Kulchytskyy_I-Text_normalization_during_51-58.pdf
Size:
884.07 KB
Format:
Adobe Portable Document Format
Thumbnail Image
Name:
2020n7_Kulchytskyy_I-Text_normalization_during_51-58__COVER.png
Size:
391.86 KB
Format:
Portable Network Graphics

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.97 KB
Format:
Plain Text
Description: