GNN implementation approaches in AWS cloud for risk assessment in the insurance area
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Видавництво Львівської політехніки
Abstract
This article analyzes three most common approaches to the GNN architecture implementation on the AWS cloud for the use case of the risk assessment in the insurance area. The paper is split to several chapters, with the first one being the overview of 3 approaches to the GNN architecture, the second one describing prerequisites for the implementation, and finally development of the approaches on the cloud infrastructure, testing them on graph insurance data and comparison of all the approaches to select the
most suitable for the risk assessment task. The initial chapter introduces the three architectural approaches to GNN implementation being respectively Graph Convolutional Network (GCN), Graph Attention Network (GAT) and GraphSAGE (Graph Sample And AGgregatE). To conclude the chapter, it is decided to proceed with the further implementation of all three models on the AWS infrastructure and analyze the outputs on the same graph data to select the best suit for the risk assessment use case. Then the article proceeds with considering the specifics of a realization of risk assessment in insurance on top of cloud infrastructure and preparing the data to use it for the GNN training and testing. After the analysis of the use case, it is decided to focus on only on the individuals’ insurance. The main goal is to analyze the unique properties of every human which can affect the risk of insuring them
as well as their connections with other individuals. Further along, the development of all three approaches for risk assessment solution is described with first being GCN, then GAT and finally GraphSage. The models are then trained, tested and the output analysis is performed. Considering the analysis results, GAT and GraphSage provide the most correct results maintaining the test accuracy. However, considering model statistics, it is found that GraphSage has more distinct probabilities and additional insights through feature importance analysis which makes it the best fit for the risk assessment use case. The article concludes by stating that out of all three analyzed architectures the most suitable for the risk assessment task is the GraphSAGE with a slight difference between this model and GAT, which
will be used for further analysis and improvements. Furthermore, the article mentions a few steps for the potential future improvements of the models, which include using class weights or oversampling techniques to ensure the best performance, also mentioning the experiments that can be done with
deeper architectures or different GNN layers. The last but not the least would be to focus on the testing and training on the larger dataset to make it more applicable for real-world applications. У статті проаналізовано три найпоширеніші підходи до реалізації архітектури ГНМ у хмарних сервісах AWS для оцінки ризиків у сфері страхування. Стаття поділена на кілька розділів, перший з яких містить огляд 3-х підходів до архітектури ГНМ, другий ‒ описує передумови для впровадження і, нарешті, впровадження та порівняння всіх підходів для вибору найкращого. У першому розділі представлено три архітектурні підходи до впровадження ГНМ, а саме: Графові Мережі Згортки (ГМЗ), Графові Мережі Уваги (ГМУ) і GraphSAGE (Графові збір та агрегація). Архітектури описані з акцентом на математичні формулювання. На завершення
розділу вирішено продовжити подальше впровадження всіх трьох моделей в інфраструктуру AWS і проаналізувати результати на тих самих графових даних, щоб вибрати найкращий варіант для оцінки ризику для страхової компанії. Далі стаття продовжує вибір інструментів і підготовку даних для їхнього подальшого використання в цілях навчання та тестування ГНМ. Після аналізу варіантів використання вирішено зосередитися лише на страхуванні фізичних осіб. Основна мета полягає в аналізі унікальних властивостей кожної людини, які можуть впливати на ризик її страхування, а також на її зв’язки з іншими особами. Основними інструментами для використання є NeptuneDB для
зберігання графів і Sagemaker для розгортання та навчання моделі. Стаття також зосереджена на виборі відповідного інструменту для реалізації, порівнюючи два найбільш використовувані фреймворки Python PyTorch PyG і Deep Graph Library (DGL). До того ж пріоритет надано PyG. Далі описано процес впровадження всіх трьох підходів: спочатку ГМЗ, потім ГМУ і, нарешті, GraphSage. Далі моделі піддаються навчанню та тестуванню з подальшим аналізом вихідних даних. З огляду на результати аналізу, ГМУ і GraphSage забезпечують найбільш точні
результати, зберігаючи точність під час тестування. Однак враховуючи статистичні дані обох моделей, виявлено, що GraphSage має більшу різницю між імовірностями ризиків та додаткові відомості завдяки аналізу важливості особливостей даних, що робить його найкращим для
сценарію використання оцінки ризику. На завершення статті зазначено, що з усіх трьох проаналізованих архітектур найбільш придатною для завдання оцінки ризику є GraphSAGE з невеликою перевагою цієї моделі над ГМУ, відповідно її вирішено використати для подальшого аналізу та вдосконалення. Крім того, у статті згадується кілька кроків для потенційного майбутнього вдосконалення моделей, а також зосереджено увагу на тестуванні та навчанні на більшому наборі даних, щоб зробити його більш застосовним для реальних програм.
Description
Keywords
Graph Convolutional Networks (GCN), Graph Attention Networks (GAT), GraphSAGE (Sample and aggreGatE), Graph, Graph Neural Network (GNN), Underwriting, Insurance, Risk Assessment, Графові Згортальні Мережі (ГЗМ), Графові Мережі Уваги (ГМУ), GraphSAGE (Збір та агрегація), Граф, Графові нейронні мережі (ГНМ), Андеррайтинг, Страху- вання, Оцінка Ризиків
Citation
Lutsenko O. GNN implementation approaches in AWS cloud for risk assessment in the insurance area / Oleksandr Lutsenko, Serhii Shcherbak // Вісник Національного університету “Львівська політехніка”. Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2024. — № 16. — С. 251–272.