Автоматизована система аналізу боксованих документів

Loading...
Thumbnail Image

Date

2023

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет “Львівська політехніка”

Abstract

Магістерська кваліфікаційна робота виконана студентом групи КНСШ-24 Киричуком Дмитром Олексійовичем. Тема “Автоматизована система аналізу боксованих документів”. Робота направлена на здобуття ступеня магістр за спеціальністю 122 «Комп’ютерні науки». Об’єкт дослідження є універсальна система екстракції даних з боксованих персоніфікованих документів. Предметом дослідження є методи класифікації зображень при наявності одного взірця документу на кожен клас, сегментація боксованих регіонів інтересу зображення з метою екстракції, та оцінки точності сегментація. Досягнення мети відбувається за рахунок класифікації вхідного документу шляхом порівняння ознак з наявними шаблонами документів; бінарної сегментації зображення при переході в HSV колірну модель та накладання маски шляхом підлаштування порогового значення параметру насиченості. Точність сегментації оцінювалася шляхом накладання й порівняння масок, отриманих алгоритмом сегментації та розмічених людиною вручну, з використанням метрик precision, recall та F1 score. У результаті виконання дипломної роботи створено автоматизовану систему аналізу боксованих документів, яка дозволяє виділяти боксовані регіони інтересу на зображенні документу з метою подальшої обробки їх вмісту. Як приклад подальшої обробки, реалізовано розпізнавання текстових регіонів інтересу, присутніх на зображенні документу. Загальний обсяг роботи: 65 сторінок, 34 рисунки, 20 посилань. Master’s degree work of the student of the group CSAI-24 Kyrychuk Dmytro Oleksiiovych. The topic is “Automated system of boxed documents analysis”. The work is aimed at obtaining a master’s degree in 122 “Computer Science”. The problem of extracting information from structured personalized documents is an extraordinarily relevant task in automated processing and decision-making systems. In this paper, the focus was placed on documents where information is stored in separate boxes. The solution implemented in this work can be used for the development of an automatic system for obtaining and registering data when presenting a personalized document where information are located in boxes, or for a system providing access to locations or equipment. The goal of the work is to develop an automated system for analyzing a boxed document, which can be easily scaled to solve a similar task for any other relevant document. To achieve this goal, a number of tasks must be addressed, namely: to implement the ability to determine whether the provided document matches the template from the document database; to develop an algorithm for extracting boxed regions of interest from the document image; to evaluate the accuracy of the region of interest segmentation result; to ensure the modularity of the system and its ability to be modified to a specific document and task. The object of the research is a universal system for extracting data from boxed personalized documents. The subject of the research is the methods of image classification when there is one sample document for each class, the process of finding image regions of interest, and the evaluation of its accuracy.

Description

Keywords

класифікація зображення, бінарна сегментація, аналіз макету документу, image classification, binary segmentation, document layout analysis

Citation

Киричук Д. О. Автоматизована система аналізу боксованих документів : пояснювальна записка до магістерської кваліфікаційної роботи : 122 «Комп’ютерні науки» / Дмитро Олексійович Киричук ; Національний університет «Львівська політехніка». – Львів, 2023. – 68 с.

Endorsement

Review

Supplemented By

Referenced By