Інтелектуальна інформаційна система виявлення плагіату в текстах з інформаційних технологій

Loading...
Thumbnail Image

Date

2022

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет "Львівська політехніка"

Abstract

В сучасному інформаційному світі, де зростає кількість текстів, що публікуються в мережі Інтернет, зростає і ймовірність того, що деякі з цих текстів можуть містити плагіат. Поняття «плагіат» описується у науковій літературі наступними визначеннями: - «оприлюднення (опублікування) повністю або частково чужого твору під іменем особи, яка не є автором цього твору» [1]; - «привласнення авторства на чужий твір науки, літератури, мистецтва або на чуже відкриття, винахід чи раціоналізаторську пропозицію, а також використання у своїх працях чужого твору без посилання на автора»[2, 365-372]; - «вид порушення прав автора або винахідника, що полягає у незаконному використанні під своїм ім’ям чужого твору (наукового, літературного, музичного) або винаходу, раціоналізаторської пропозиції (повністю або частково) без вказівки джерела запозичення...» [3, 601]; До поняття плагіат також можна віднести неправомірні дії з примусом до співавторства[4]. Основна проблема полягає в тому, що плагіат стає все більш поширеним явищем, і він може мати негативний вплив на різні аспекти життя, включаючи науку, бізнес і освіту. При цьому виявлення плагіату залишається складною задачею, особливо якщо він маскується під авторський текст або відбувається в багатоавторних текстах. Розвиток інформаційних технологій надає можливості для розробки інтелектуальних інформаційних систем, які здатні виявляти плагіат у текстах шляхом порівняння їх з базою даних із відомими текстами. Такі системи можуть допомогти уникнути плагіату та зберегти авторські права на інтелектуальну власність. Однак, розробка такої системи є складною задачею, і потребує використання різноманітних методів машинного навчання, обробки природньої мови та інших сучасних інформаційних технологій. Об’єкт дослідження. Об’єктом дослідження можна виділити процес виявлення плагіату в текстах з інформаційних технологій та самі інформаційні тексти, які можуть містити елементи плагіату. Предмет дослідження. В свою чергу, предметом дослідження є інтелектуальна інформаційна система виявлення плагіату в текстах з інформаційних технологій, використовуючи засоби та методи машинного навчання. Мета дослідження. Метою дослідження є розробка та реалізація інтелектуальної інформаційної системи для виявлення плагіату в текстах з інформаційних технологій. Для досягнення мети необхідно вирішити наступні завдання: 1. Аналіз існуючих методів та підходів до виявлення плагіату в текстах з використанням інформаційних технологій. 2. Розробка алгоритмів та моделей машинного навчання для виявлення плагіату в текстах з інформаційних технологій. 3. Розробка та імплементація програмного забезпечення для побудови інтелектуальної інформаційної системи. 4. Експериментальне дослідження розробленої системи та порівняння її ефективності з існуючими методами виявлення плагіату. 5. Аналіз результатів дослідження та формулювання висновків щодо можливості використання розробленої системи в практичній діяльності для контролю за оригінальністю текстів у сфері інформаційних технологій. Аналіз певної кількості наукових статей та досліджень показав, що проблема виявлення плагіату є важливою в сучасному світі і вимагає постійної уваги та розробки нових методів та алгоритмів для її вирішення, а застосування машинного навчання для виявлення плагіату є актуальною та перспективною темою досліджень. У роботі розглянуто різні методи виявлення плагіату, включаючи метод векторного порівняння, який ґрунтується на використанні векторних представлень слів. Було проведено аналіз переваг та недоліків програмних та системних засобів вирішення проблеми та обрано мови програмування реалізації системи, набір допоміжних інструментів, інструмент автоматизованої збірки проектів, сервер розгортання. Для реалізації інтелектуальної складової системи використовується мова програмування Python, а також бібліотеки машинного навчання, зокрема Pandas, Flask та scikit-learn. Розроблена система здатна працювати з текстами різної довжини та форматування, що дозволяє застосовувати її у багатьох галузях, де важлива автентичність текстів. Результати дослідження свідчать про можливість використання даної системи для підвищення репутації авторів та видавництв, які дотримуються правил інтелектуальної власності. Основні завдання роботи полягали у вивченні теорії плагіату та методів його виявлення, виборі оптимального методу виявлення плагіату для застосування у розробленій системі, розробці імплементації алгоритму методу векторного порівняння та створенні інтерфейсу взаємодії з користувачем. Розроблена система може забезпечити ефективний та точний пошук плагіату в текстах з інформаційних технологій, що дозволить забезпечити більш високу якість контролю за оригінальністю текстів.
In today's information world, where the number of texts is growing, what are published on the Internet, the probability that some of these texts may contain plagiarism increases. The term "plagiarism" is described in the scientific literature with the following definitions: - "publication (publication) of someone else's work in whole or in part under the name of a person who is not the author of this work" [1]; - "appropriation of authorship of someone else's work of science, literature, art, or someone else's discovery, invention, or rationalizing proposal, as well as the use of someone else's work in one's works without reference to the author" [2, 365-372]; - "a type of violation of the rights of the author or inventor, which consists in the illegal use under one's own name of someone else's work (scientific, literary, musical) or invention, rationalizing proposal (in whole or in part) without indicating the source of borrowing..." [3, 601 ]; The concept of plagiarism can also include illegal actions with coercion of co-authorship[4]. The main problem is that plagiarism is becoming more and more common, and it can have a negative impact on various aspects of life, including science, business and education. At the same time, detecting plagiarism remains a difficult task, especially if it is disguised as an author's text or occurs in multi-authored texts. The development of information technologies provides opportunities for the development of intelligent information systems that are able to detect plagiarism in texts by comparing them with a database of known texts. Such systems can help avoid plagiarism and preserve intellectual property copyrights. However, the development of such a system is a complex task and requires the use of various methods of machine learning, natural language processing and other modern information technologies. Study object. The object of research is the process of detecting plagiarism in information technology texts and the informational texts themselves, which may contain elements of plagiarism. Scope of research. In turn, the scope of research is an intellectual information system for detecting plagiarism in information technology texts, using machine learning tools and methods. Goal of research. The purpose of the research is the development and implementation of an intelligent information system for detecting plagiarism in information technology texts. To achieve the goal, it is necessary to solve the following tasks: 1. Analysis of existing methods and approaches to detecting plagiarism in texts using information technologies. 2. Development of algorithms and machine learning models for detecting plagiarism in information technology texts. 3. Development and implementation of software for building an intelligent information system. 4. Experimental study of the developed system and comparison of its effectiveness with existing methods of plagiarism detection. 5. Analysis of research results and formulation of conclusions regarding the possibility of using the developed system in practical activities to control the originality of texts in the field of information technologies. The analysis of a certain number of scientific articles and studies showed that the problem of plagiarism detection is important in the modern world and requires constant attention and the development of new methods and algorithms for its solution, and the application of machine learning to detect plagiarism is a relevant and promising topic of research. The paper considers various methods of detecting plagiarism, including the method of vector comparison, which is based on the use of vector representations of words. An analysis of the advantages and disadvantages of software and system tools for solving the problem was carried out, and programming languages for system implementation, a set of auxiliary tools, an automated project assembly tool, and a deployment server were selected. The Python programming language, as well as machine learning libraries, including Pandas, Flask, and scikit-learn, are used to implement the intelligent component of the system. The developed system is able to work with texts of different lengths and formats, which allows it to be used in many fields where the authenticity of texts is important. The results of the study indicate the possibility of using this system to increase the reputation of authors and publishing houses that adhere to the rules of intellectual property. The main tasks of the work consisted in studying the theory of plagiarism and methods of its detection, choosing the optimal method of detecting plagiarism for use in the developed system, developing the implementation of the algorithm of the vector comparison method and creating an interface for interaction with the user. The developed system can provide an effective and accurate search for plagiarism in information technology texts, which will allow to ensure a higher quality control over the originality of the texts.

Description

Keywords

3.126.00.00, плагіат, машинне навчання, інформаційна система, текстові документи, векторне порівняння, plagiarism, machine learning, information system, text documents, vector comparison

Citation

Геряк Ю. М. Інтелектуальна інформаційна система виявлення плагіату в текстах з інформаційних технологій : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „3.126.00.00 — Інформаційні системи та технології (освітньо-наукова програма)“ / Юрій Миколайович Геряк. — Львів, 2022. — 96 с.

Endorsement

Review

Supplemented By

Referenced By