Інформаційна система аналізу наукових статей для їх кластеризації

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет "Львівська політехніка"

Abstract

У сучасному інформаційному просторі наукові дослідження розвиваються надзвичайно швидко, що призводить до стрімкого збільшення кількості наукових статтей. Це ускладнює процес ефективного пошуку, аналізу та впорядкування інформації, оскільки традиційні методи систематизації не завжди здатні оперативно обробляти великі обсяги даних. Одним із дієвих способів впорядкування наукової інформації є кластеризація статтей, яка дозволяє автоматично групувати документи за тематичною схожістю. Це значно спрощує пошук релевантних матеріалів для дослідників. Застосування сучасних методів машинного навчання, обробки природної мови (NLP) та алгоритмів кластеризації сприяє підвищенню точності та швидкості аналізу наукових публікацій. Актуальність даної магістерської роботи обумовлена кількома факторами: • зростанням обсягів наукових публікацій, що робить традиційні підходи до аналізу літератури менш ефективними; • необхідністю автоматизації процесу аналізу, оскільки ручне сортування статтей потребує значних ресурсів і часу; • активним використанням методів машинного навчання для точнішої кластеризації наукових матеріалів; • застосуванням кластеризації в наукометричних дослідженнях для виявлення тенденцій, оцінки наукових напрямів і підтримки ухвалення рішень у сфері наукової політики; • покращенням доступності інформації для дослідників, що сприяє швидкому пошуку необхідних матеріалів. Таким чином, розробка інформаційної системи для кластеризації наукових статтей є важливим завданням, яке сприятиме ефективному управлінню науковими даними та підвищенню якості досліджень у різних галузях науки. Мета дослідження Розробити інформаційну систему для аналізу та кластеризації наукових статтей, що дозволить автоматично групувати документи за тематичною схожістю та полегшить навігацію й пошук необхідної інформації для дослідників. Завдання дослідження • Аналіз існуючих методів обробки природної мови (NLP) та алгоритмів кластеризації текстових даних. • Розробка моделі автоматичної кластеризації наукових статтей. • Створення інформаційної системи для ефективного аналізу та впорядкування наукових публікацій. • Тестування та оцінка ефективності розробленої системи. Досягнення цих завдань сприятиме оптимізації процесу пошуку та аналізу наукової інформації, що значно полегшить роботу дослідників і стимулюватиме розвиток науки. Об’єкт дослідження – процес аналізу наукових публікацій. Предмет дослідження – розробка методів та засобів кластеризації наукових статтей. Практична цінність Розроблена система матиме такі переваги: • автоматизація обробки наукових текстів, що значно скорочує час та зусилля, необхідні для аналізу великого обсягу публікацій; • покращений доступ до релевантної інформації завдяки ефективному групуванню статтей за тематикою; • використання сучасних алгоритмів машинного навчання (k-means, DBSCAN, ієрархічна кластеризація) та методів NLP для підвищення точності кластеризації; • можливість застосування в наукометрії та аналітиці для виявлення трендів, міждисциплінарних зв’язків та оцінки наукових напрямів; • інтеграція з електронними бібліотеками та науковими репозитаріями, що спрощує управління науковими працями; • потенціал подальшого розвитку, включаючи функції автоматичного реферування статтей, аналізу цитувань та прогнозування наукових тенденцій. Отже, результати дослідження можуть бути корисними для освітніх і наукових установ, наукометричних досліджень та автоматизованих систем управління науковою інформацією.
In the modern information space, scientific research is developing at an extremely rapid pace, leading to a sharp increase in the number of scientific articles. This complicates the process of efficient search, analysis, and organization of information, as traditional methods of systematization are not always capable of processing large volumes of data in a timely manner. One of the effective ways to organize scientific information is article clustering, which allows documents to be automatically grouped based on thematic similarity. This significantly simplifies the search for relevant materials for researchers. The application of modern machine learning methods, natural language processing (NLP), and clustering algorithms contributes to improving the accuracy and speed of scientific publication analysis. Relevance of the Study The relevance of this master's thesis is determined by several factors: • The increasing volume of scientific publications, making traditional approaches to literature analysis less effective. • The need to automate the analysis process, as manual article sorting requires significant resources and time. • The active use of machine learning methods for more precise clustering of scientific materials. • The application of clustering in scientometric research to identify trends, assess scientific fields, and support decision-making in scientific policy. • Improving information accessibility for researchers, facilitating the quick retrieval of necessary materials. Thus, the development of an information system for clustering scientific articles is an important task that will contribute to effective management of scientific data and enhance the quality of research in various scientific fields. Research Objective To develop an information system for the analysis and clustering of scientific articles, which will enable automatic grouping of documents based on thematic similarity and simplify navigation and the search for necessary information for researchers. Research Tasks • Analyze existing methods of natural language processing (NLP) and clustering algorithms for text data. • Develop a model for automatic clustering of scientific articles. • Create an information system for the efficient analysis and organization of scientific publications. • Test and evaluate the effectiveness of the developed system. Achieving these tasks will contribute to optimizing the process of searching and analyzing scientific information, significantly facilitating the work of researchers and stimulating scientific progress. Object and Subject of Research • Object of research – the process of analyzing scientific publications. • Subject of research – the development of methods and tools for clustering scientific articles. • Practical Significance • The developed system will have the following advantages: • Automation of scientific text processing, significantly reducing the time and effort required for analyzing a large volume of publications. • Improved access to relevant information through effective thematic clustering of articles. • Use of modern machine learning algorithms (k-means, DBSCAN, hierarchical clustering) and NLP methods to enhance clustering accuracy. • Application in scientometrics and analytics to identify trends, interdisciplinary connections, and assess scientific directions. • Integration with electronic libraries and scientific repositories, simplifying the management of scientific works. • Potential for further development, including features such as automatic article summarization, citation analysis, and forecasting scientific trends. Thus, the results of this research can be valuable for educational and scientific institutions, scientometric studies, and automated scientific information management systems.

Description

Keywords

Citation

Панчишин О. І. Інформаційна система аналізу наукових статей для їх кластеризації : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.126.00.00 — Інформаційні системи та технології (освітньо-наукова програма)“ / Олександр Ігорович Панчишин. — Львів, 2024. — 87 с.

Endorsement

Review

Supplemented By

Referenced By