Інформаційна система перетворення звукового україномовного тексту на письмовий на основі методів NLP та машинного навчання
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Lviv Politechnic Publishing House
Lviv Politechnic Publishing House
Abstract
Розпізнавання мовлення передбачає різні моделі, методи та алгоритми аналізу та опрацювання записаного голосу користувача. Завдяки цьому люди можуть керувати різними системами, які підтримують один із видів розпізнавання мовлення. Система перетворення мовлення на текст є одним із видів розпізнавання мовлення, що використовує розмовні дані для подальшого їх опрацювання. Також передбачено декілька етапів для опрацювання аудіофайла, під час якого використовують електроакустичні засоби, алгоритми фільтрації в аудіофайлі для виокремлення релевантних звуків, електронні масиви даних для вибраної мови, а також математичні моделі, які складають із фонем найімовірніші слова. Завдяки перетворенню мовлення на текст істотно пришвидшується та полегшується робота, а також знижується рівень стресу в людей, професії яких тісно пов’язані із набиранням великих текстів на клавіатурі. Окрім цього, такі системи допомагають бізнесу, адже концепція віддаленої праці стає все популярнішою, а отже, компанії потребують інструментів для запису та систематизації нарад у вигляді письмового тексту. Об’єктом дослідження є процес перетворення україномовного тексту на письмовий на основі методів NLP та машинного навчання. Предмет дослідження – алгоритми опрацювання файлів для виокремлення релевантних звуків та розпізнавання фонем, а також математичні моделі для розпізнавання масиву фонем як конкретних слів. Метою виконання роботи є проєктування та розроблення інформаційної системи для перетворення звукового україномовного тексту на письмовий на основі Web-додатка Ukrainian Speech-to-text, який є технологією для точного та легкого аналізу україномовних аудіофайлів та подальшої їх транскрипції у текст. Застосунок підтримує завантаження файлів із файлової системи та запис, із використанням мікрофона, а також збереженням проаналізованих даних. Також у статті описано етапи проєктування та загальну типову архітектуру розробленої системи перетворення звукового україномовного тексту на письмовий. Як свідчать результати експериментальної апробації розробленої системи, кількість слів ніяк не впливає на точність алгоритму перетворення, а зменшення відсотка невелике і спричинене складністю слів та низькою якістю мікрофона, а отже, і записаного аудіофайла.
Speech recognition involves various models, methods and algorithms for analysing and processing the user’s recorded voice. This allows people to control different systems that support one type of speech recognition. A speech-to-text conversion system is a type of speech recognition that uses spoken data for further processing. It also provides several stages for processing an audio file, which uses electroacoustic means, filtering algorithms in the audio file to isolate relevant sounds, electronic data arrays for the selected language, as well as mathematical models that make up the most likely words from phonemes. Thanks to the conversion of speech to text, people whose professions are closely related to typing a large amount of text on the keyboard, significantly speed up and facilitate the work process, as well as reduce the amount of stress. In addition, such systems help businesses, because the concept of remote work is becoming more and more popular, and therefore companies need tools to record and systematize meetings in the form of written text. The object of the research is the process of converting the Ukrainian-language text into a written one based on NLP and machine learning methods. The subject of the research is file processing algorithms for extracting relevant sounds and recognizing phonemes, as well as mathematical models for recognizing an array of phonemes as specific words. The purpose of the work is to design and develop an information system for converting audio Ukrainian-language text into written text based on the Ukrainian Speech-to-text Web application, which is a technology for accurate and easy analysis of Ukrainian-language audio files and their subsequent transcription into text. The application supports downloading files from the file system and recording using the microphone, as well as saving the analysed data. The article also describes the stages of design and the general typical architecture of the corresponding system for converting audio Ukrainian-language text into written text. According to the results of the experimental testing of the developed system, it was found that the number of words does not affect the accuracy of the conversion algorithm, and the decrease in percentage is not large and occurred due to the complexity of the words and the low quality of the microphone, and therefore the recorded file.
Speech recognition involves various models, methods and algorithms for analysing and processing the user’s recorded voice. This allows people to control different systems that support one type of speech recognition. A speech-to-text conversion system is a type of speech recognition that uses spoken data for further processing. It also provides several stages for processing an audio file, which uses electroacoustic means, filtering algorithms in the audio file to isolate relevant sounds, electronic data arrays for the selected language, as well as mathematical models that make up the most likely words from phonemes. Thanks to the conversion of speech to text, people whose professions are closely related to typing a large amount of text on the keyboard, significantly speed up and facilitate the work process, as well as reduce the amount of stress. In addition, such systems help businesses, because the concept of remote work is becoming more and more popular, and therefore companies need tools to record and systematize meetings in the form of written text. The object of the research is the process of converting the Ukrainian-language text into a written one based on NLP and machine learning methods. The subject of the research is file processing algorithms for extracting relevant sounds and recognizing phonemes, as well as mathematical models for recognizing an array of phonemes as specific words. The purpose of the work is to design and develop an information system for converting audio Ukrainian-language text into written text based on the Ukrainian Speech-to-text Web application, which is a technology for accurate and easy analysis of Ukrainian-language audio files and their subsequent transcription into text. The application supports downloading files from the file system and recording using the microphone, as well as saving the analysed data. The article also describes the stages of design and the general typical architecture of the corresponding system for converting audio Ukrainian-language text into written text. According to the results of the experimental testing of the developed system, it was found that the number of words does not affect the accuracy of the conversion algorithm, and the decrease in percentage is not large and occurred due to the complexity of the words and the low quality of the microphone, and therefore the recorded file.
Description
Citation
Тищук Ю. Інформаційна система перетворення звукового україномовного тексту на письмовий на основі методів NLP та машинного навчання / Юрій Тищук, Вікторія Висоцька, Ольга Власенко // Вісник Національного університету "Львівська політехніка" "Інформаційні системи та мережі". — Львів : Видавництво Львівської політехніки, 2022. — № 12. — С. 23–51.