Ефективність форматів інструкцій LLM для задач незбалансованості класів тренувальних даних у системах предиктивного моніторингу
| dc.citation.epage | 81 | |
| dc.citation.issue | 1 | |
| dc.citation.journalTitle | Інфокомунікаційні технології та електронна інженерія | |
| dc.citation.spage | 75 | |
| dc.citation.volume | 5 | |
| dc.contributor.affiliation | Національний університет “Львівська політехніка” | |
| dc.contributor.affiliation | Lviv Polytechnic National University | |
| dc.contributor.author | Луцюк, А. | |
| dc.contributor.author | Lutsiuk, Andrii | |
| dc.coverage.placename | Львів | |
| dc.coverage.placename | Lviv | |
| dc.date.accessioned | 2025-11-04T07:46:49Z | |
| dc.date.created | 2025-06-10 | |
| dc.date.issued | 2025-06-10 | |
| dc.description.abstract | У статті розглянуто підходи до форматування табличних даних (HTML, XML, Markdown, CSV) з метою подальшого генерування синтетичних зразків за допомогою великих мовних моделей (LLM) у задачах предиктивного моніторингу. Оскільки реальні дані часто характеризуються незбалансованістю класів, генерування додаткових зразків дає змогу поліпшити навчальні вибірки, підвищуючи ефективність роботи моделей. Важливим стає питання швидкості обробки та вартості запитів, які істотно залежать від того, скільки вхідних токенів потребує вибраний формат для форматування табличних даних. У межах дослідження проаналізовано витрати обчислювальних ресурсів і тривалість опрацювання запитів LLM залежно від формату табличних даних. Хоча, згідно із дослідженнями [1], HTML забезпечує найвищий рівень точності, він водночас потребує істотно більшої кількості токенів через формат подання таб- лиць. Така особливість суттєво збільшує об’єм вхідних даних та загальний час опрацювання запиту. Натомість менш об’ємні формати (Markdown та CSV) потребують значно менше то- кенів, пришвидшуючи опрацювання та знижуючи вартість взаємодії з моделлю. Незначне зменшення точності, порівняно із HTML, може виявитися прийнятним компромісом, особливо коли постає завдання масштабного розширення набору тренувальних даних задля компенсації нестачі прикладів нештатних станів. Такий підхід ефективний у системах предиктивного моніторингу, де час реакції та обсяг оброблених даних безпосередньо впливають на швидкість виявлення аномалій та стійкості системи загалом. Результати дослідження підтверджують, що Markdown і CSV, завдяки меншому об’єму вхідних даних, дають змогу зменшити тривалість обробки запитів та витрати на генерування синтетичних зразків для навчання. Водночас HTML і XML потенційно залишаються корисними в завданнях, де максимально важливе збереження складної структури й додаткових метаданих, проте ці формати потребують більших ресурсів. Отже, вибір формату подання табличних даних повинен враховувати вимоги конкретної системи й особливості робочого середовища: від апаратних обмежень і тарифікації за токени до потрібної тривалості обробки запиту. | |
| dc.description.abstract | The article examines approaches to formatting tabular data (HTML, XML, Markdown, CSV) for the subsequent generation of synthetic samples using large language models (LLM) in predictive monitoring tasks. Since real-world data are often characterized by class imbalance, generating additional samples helps improve training datasets, thereby enhancing the effectiveness of models. At the same time, an important issue arises regarding processing speed and query costs, which largely depend on how many input tokens are required by the chosen format for tabular data representation. The study analyzes computational resource consumption and query processing time for LLMs depending on the tabular data format. Although, according to research [1], HTML provides the highest level of accuracy, it also requires a significantly larger number of tokens due to its table representation format. This characteristic considerably increases the volume of input data and the overall query processing time. In contrast, less bulky formats (Markdown and CSV) require significantly fewer tokens, speeding up processing and reducing the cost of interaction with the model. A slight reduction in accuracy compared to HTML may be an acceptable trade-off, especially when the goal is to significantly expand the training dataset to compensate for the lack of examples of non-standard conditions. This approach proves to be effective in predictive monitoring systems, where response time and the volume of processed data directly affect the speed of anomaly detection and overall system resilience. The study results confirm that Markdown and CSV, due to their smaller input data volume, help reduce query processing time and the costs associated with generating synthetic training samples. At the same time, HTML and XML remain potentially useful in tasks where preserving complex structures and additional metadata is of utmost importance, although these formats require significantly more resources. Thus, the choice of a tabular data representation format should take into account the specific system requirements and operational environment characteristics, ranging from hardware limitations and token-based pricing to the required query processing time. | |
| dc.format.extent | 75-81 | |
| dc.format.pages | 7 | |
| dc.identifier.citation | Луцюк А. Ефективність форматів інструкцій LLM для задач незбалансованості класів тренувальних даних у системах предиктивного моніторингу / А. Луцюк // Інфокомунікаційні технології та електронна інженерія. — Львів : Видавництво Львівської політехніки, 2025. — Том 5. — № 1. — С. 75–81. | |
| dc.identifier.citation2015 | Луцюк А. Ефективність форматів інструкцій LLM для задач незбалансованості класів тренувальних даних у системах предиктивного моніторингу // Інфокомунікаційні технології та електронна інженерія, Львів. 2025. Том 5. № 1. С. 75–81. | |
| dc.identifier.citationenAPA | Lutsiuk, A. (2025). Efektyvnist formativ instruktsii LLM dlia zadach nezbalansovanosti klasiv trenuvalnykh danykh u systemakh predyktyvnoho monitorynhu [Efficiency of LLM instruction formats for class imbalance problems in training data for predictive monitoring systems]. Infocommunication Technologies and Electronic Engineering, 5(1), 75-81. Lviv Politechnic Publishing House. [in Ukrainian]. | |
| dc.identifier.citationenCHICAGO | Lutsiuk A. (2025) Efektyvnist formativ instruktsii LLM dlia zadach nezbalansovanosti klasiv trenuvalnykh danykh u systemakh predyktyvnoho monitorynhu [Efficiency of LLM instruction formats for class imbalance problems in training data for predictive monitoring systems]. Infocommunication Technologies and Electronic Engineering (Lviv), vol. 5, no 1, pp. 75-81 [in Ukrainian]. | |
| dc.identifier.doi | https://doi.org/10.23939/ictee2025.01.075 | |
| dc.identifier.uri | https://ena.lpnu.ua/handle/ntb/117166 | |
| dc.language.iso | uk | |
| dc.publisher | Видавництво Львівської політехніки | |
| dc.publisher | Lviv Politechnic Publishing House | |
| dc.relation.ispartof | Інфокомунікаційні технології та електронна інженерія, 1 (5), 2025 | |
| dc.relation.ispartof | Infocommunication Technologies and Electronic Engineering, 1 (5), 2025 | |
| dc.relation.references | [1] Sui, Y., Zhou, M., Zhou, M., Han, S. and Zhang, D. (2024), “Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study”, Proceedings of the 17th ACM International Conference on Web Search and Data Mining (WSDM '24), 4–8 March, Mérida, Yucatán, Mexico. ACM. | |
| dc.relation.references | [2] Луцюк, А. В. (2024). “Предиктивний моніторинг інформаційно-комунікаційних систем за допомогою спеціалізованої моделі машинного навчання”. Вчені записки Таврійського національного університету ім. В. І. Вернадського. Серія: Технічні науки, 35(74)(6, ч. 1), с. 129–135. | |
| dc.relation.references | [3] Aghajanyan, A., Okhonko, D., Lewis, M., Joshi, M., Xu, H., Ghosh, G. and Zettlemoyer, L. (2022). “HTLM: Hyper-Text Pre-Training and Prompting of Language Models”, 10th International Conference on Learning Representations (ICLR 2022), 25–29 April. | |
| dc.relation.references | [4] Mills, R. (2025). “LUFlow Network Intrusion Detection Data Set”, Kaggle [Data set]. Available at: https://doi.org/10.34740/KAGGLE/DSV/11027911 (Accessed: 15 February 2025). | |
| dc.relation.references | [5] Chen, W. (2023). “Large Language Models Are Few(1)-Shot Table Reasoners”, Findings of the Association for Computational Linguistics: EACL 2023, 2 April. | |
| dc.relation.references | [6] Dong, H., Cheng, Z., He, X., Zhou, M., Zhou, A., Zhou, F., Liu, A., Han, S. and Zhang, D. (2022). ‘Table Pretraining: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks’, Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence (IJCAI-22), 23–29 July, Vienna, Austria. | |
| dc.relation.references | [7] Eisenschlos, J. M., Gor, M., Müller, T. and Cohen, W. W. (2021) “MATE: Multi-view Attention for Table Transformer Efficiency”, Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021), 7–11 November, Punta Cana, Dominican Republic. Association for Computational Linguistics. | |
| dc.relation.references | [8] Herzig, J., Nowak, P. K., Müller, T., Piccinno, F. and Eisenschlos, J. (2020). “TaPas: Weakly supervised table parsing via pre-training”, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), 5–10 July, pp. 4320–4333. Association for Computational Linguistics. | |
| dc.relation.references | [9] Hulsebos, M., Demiralp, Ç. and Groth, P. (2023). ‘GitTables: A Large-Scale Corpus of Relational Tables’, Proceedings of the ACM on Management of Data, 1(1), pp. 1–17. | |
| dc.relation.references | [10] Iida, H., Thai, D., Manjunatha, V. and Iyyer, M. (2021). ‘TABBIE: Pretrained Representations of Tabular Data’, arXiv preprint. Available at: https://doi.org/10.48550/arXiv.2105.02584 (Accessed: 15 February 2025). | |
| dc.relation.referencesen | [1] Sui, Y., Zhou, M., Zhou, M., Han, S. and Zhang, D. (2024), "Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study", Proceedings of the 17th ACM International Conference on Web Search and Data Mining (WSDM '24), 4–8 March, Mérida, Yucatán, Mexico. ACM. | |
| dc.relation.referencesen | [2] Lutsiuk, A. V. (2024). "Predyktyvnyi monitorynh informatsiino-komunikatsiinykh system za dopomohoiu spetsializovanoi modeli mashynnoho navchannia". Vcheni zapysky Tavriiskoho natsionalnoho universytetu im. V. I. Vernadskoho. Serie: Tekhnichni nauky, 35(74)(6, ch. 1), P. 129–135. | |
| dc.relation.referencesen | [3] Aghajanyan, A., Okhonko, D., Lewis, M., Joshi, M., Xu, H., Ghosh, G. and Zettlemoyer, L. (2022). "HTLM: Hyper-Text Pre-Training and Prompting of Language Models", 10th International Conference on Learning Representations (ICLR 2022), 25–29 April. | |
| dc.relation.referencesen | [4] Mills, R. (2025). "LUFlow Network Intrusion Detection Data Set", Kaggle [Data set]. Available at: https://doi.org/10.34740/KAGGLE/DSV/11027911 (Accessed: 15 February 2025). | |
| dc.relation.referencesen | [5] Chen, W. (2023). "Large Language Models Are Few(1)-Shot Table Reasoners", Findings of the Association for Computational Linguistics: EACL 2023, 2 April. | |
| dc.relation.referencesen | [6] Dong, H., Cheng, Z., He, X., Zhou, M., Zhou, A., Zhou, F., Liu, A., Han, S. and Zhang, D. (2022). ‘Table Pretraining: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks’, Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence (IJCAI-22), 23–29 July, Vienna, Austria. | |
| dc.relation.referencesen | [7] Eisenschlos, J. M., Gor, M., Müller, T. and Cohen, W. W. (2021) "MATE: Multi-view Attention for Table Transformer Efficiency", Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021), 7–11 November, Punta Cana, Dominican Republic. Association for Computational Linguistics. | |
| dc.relation.referencesen | [8] Herzig, J., Nowak, P. K., Müller, T., Piccinno, F. and Eisenschlos, J. (2020). "TaPas: Weakly supervised table parsing via pre-training", Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), 5–10 July, pp. 4320–4333. Association for Computational Linguistics. | |
| dc.relation.referencesen | [9] Hulsebos, M., Demiralp, Ç. and Groth, P. (2023). ‘GitTables: A Large-Scale Corpus of Relational Tables’, Proceedings of the ACM on Management of Data, 1(1), pp. 1–17. | |
| dc.relation.referencesen | [10] Iida, H., Thai, D., Manjunatha, V. and Iyyer, M. (2021). ‘TABBIE: Pretrained Representations of Tabular Data’, arXiv preprint. Available at: https://doi.org/10.48550/arXiv.2105.02584 (Accessed: 15 February 2025). | |
| dc.relation.uri | https://doi.org/10.34740/KAGGLE/DSV/11027911 | |
| dc.relation.uri | https://doi.org/10.48550/arXiv.2105.02584 | |
| dc.rights.holder | © Національний університет „Львівська політехніка“, 2025 | |
| dc.subject | великі мовні моделі | |
| dc.subject | предиктивний моніторинг | |
| dc.subject | форматування інструкцій | |
| dc.subject | large language model | |
| dc.subject | predictive monitoring | |
| dc.subject | prompt formatting | |
| dc.subject.udc | 621.391 | |
| dc.title | Ефективність форматів інструкцій LLM для задач незбалансованості класів тренувальних даних у системах предиктивного моніторингу | |
| dc.title.alternative | Efficiency of LLM instruction formats for class imbalance problems in training data for predictive monitoring systems | |
| dc.type | Article |