Please use this identifier to cite or link to this item:
https://krs.chmnu.edu.ua/jspui/handle/123456789/2672
Title: | Інтелектуальна система класифікації сервісів е-commerce компанії на основі ансамблів моделей |
Other Titles: | кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки» |
Authors: | Жебко, О. О. |
Keywords: | кафедра інтелектуальних інформаційних систем Гожий О. П. інтелектуальна система ансамбль моделей задача прогнозування базові алгоритми машинне навчання intelligent system ensemble model forecasting task basic algorithms machine learning |
Issue Date: | Feb-2023 |
Publisher: | ЧНУ ім. Петра Могили |
Abstract: | Актуальність даного дослідження полягає у необхідності підвищення ефективності сервісів доставки із врахуванням транспортних маршрутів, часових обмежень та характеристик товару, розробці програмного забезпечення з використанням сучасних мета-евристичних методів для вирішення відповідної задачі. Це дозволить зменшити витрати компанії та підвищити якість обслуговування клієнтів. Об’єктом дослідження є процес аналізу даних про сервіси доставки товарів міжнародної компанії із виявленням закономірностей та взаємозалежностей для подальшого прогнозування. Предметом дослідження є математичні моделі інтелектуального аналізу даних та їх ансамблі для вирішення задач класифікації на основі статистичних даних. Метою дослідження є покращення сервісів E-Commerce компанії на основі ансамблів моделей. Необхідно виявити чинники, пов'язані з ризиком невчасної доставки товару клієнту. В ході виконання магістерської кваліфікаційної роботи було використано методи інтелектуального аналізу даних та інтелектуального прийняття рішень на основі даних навчальної вибірки. Також, розглянуто та проаналізовано одні з найбільш впроваджених з тих, що існують на даний момент, сучасних методів прогнозування, що базуються на деревах рішень, наївному баєсівському класифікаторі, лінійному дискримінантному аналізі, квадратичному дискримінантному аналізі, логістичній регресії, методі опорних векторів, методі найближчого сусіда, штучних нейронних мережах та моделі випадкового лісу. Для покращення результатів прогнозування використано ансамблеві методи – кілька базових моделей навчались для вирішення однієї і тієї ж проблеми та було об'єднано для отримання кращих результатів. Проведено дослідження базових методів прогнозування та ансамблевих моделей на основі стекінгу та беггінгу, а також метрик оцінки ефективності використання базових класифікаторів та моделей першого та другого рівня, визначено наступні параметри для усіх наведених методів у роботі: точність прогнозування та коефіцієнт помилок, Каппа-статистика, чутливість та специфічність, точність та повнота, F-міра та площею під ROC-кривою. Дана робота складається з шести розділів. В першому розділі здійснено огляд та класифікацію інтелектуальних систем та їх можливостей для вирішення задач прогнозування, а також, використання задач класифікації у керуванні компанією. У другому розділі описано ключові характеристики якості моделей, вибір метрики, підбір базових (слабких) моделей, підбір параметрів для базових моделей та ансамблевих методів. В третьому розділі описано процес збору даних, їх аналіз та інтерпретація, виконано попередню обробку даних та розділено набір на тренувальну та тестову вибірки та згенеровано вхідні змінні на основі поведінкових даних клієнтів. У четвертому розділі наведено результати застосування простих класифікаторів та ансамблю моделі дворівневої класифікації та виконано оцінку ефективності розроблених моделей класифікації. П’ятий розділ присвячено розробці методичних матеріалів. У шостому розділі наведено основні положення з охорони праці та цивільного захисту під час надзвичайних ситуацій. Загальний обсяг роботи – 175 сторінок. Магістерська кваліфікаційна робота містить один додаток, 22 формули, 59 рисунків, 5 таблиць, посилання на 66 літературних джерел. The relevance of this study lies in the need to improve the efficiency of delivery services, taking into account transport routes, time constraints and product characteristics, and to develop software using modern meta-heuristic methods to solve the corresponding problem. This will reduce the company's benefits and improve the quality of customer service. The object of the study is the process of analyzing data on the delivery services of an international company with the identification of patterns and interdependencies for further forecasting. The subject of the study is mathematical models of data mining and their ensembles for solving classification problems based on statistical data. The aim of the thesis is to improve the company's E-Commerce services based on ensemble models. It is necessary to identify the factors associated with the risk of untimely delivery of goods to the client. In the course of the master's thesis, the methods of data mining and intelligent decision-making based on the training sample data were used. Also, some of the most widely used modern forecasting methods based on decision trees, naive Bayes classifiers, linear discriminant analysis, quadratic discriminant analysis, logistic regression, support vector machine, k-nearest neighbors algorithm, artificial neural networks, and random forest model were considered and analyzed. To improve the forecasting results, ensemble methods were used - several basic models were trained to solve the same problem and combined to obtain better results. The study of basic forecasting methods and ensemble models based on stacking and bagging, as well as metrics for evaluating the effectiveness of using basic classifiers and models of the first and second level, was conducted, and the following parameters were determined for all the methods in the paper: prediction accuracy and error rate, Kappa statistic, sensitivity and specificity, precision and recall, F-measure and area under the ROC curve. This paper consists of six chapters. The first section provides an overview and classification of intelligent systems and their capabilities for solving forecasting tasks, as well as the use of classification tasks in company management. The second section describes the key characteristics of model quality, metric selection, selection of basic (weak) models, selection of parameters for basic models and ensemble methods. This thesis consists of six chapters. The first section provides an overview and classification of intelligent systems and their capabilities for solving forecasting problems, as well as the use of classification tasks in company management. The second section describes the key characteristics of model quality, metric selection, selection of basic (weak) models, selection of parameters for basic models and ensemble methods. The third section describes the process of data collection, analysis and interpretation, performs data preprocessing and divides the set into training and test samples, and generates input variables based on customer behavioral data. The fourth section presents the results of applying simple classifiers and the ensemble of the two-level classification model and evaluates the effectiveness of the developed classification models. Section 5 presents the main provisions on labor protection and civil defense during emergencies. The sixth section is devoted to the development of methodological materials. The master's qualification work contains 175 pages, one appendix, 22 formulas, 59 figures, 5 tables and 66 references. |
Description: | Жебко О. О. Інтелектуальна система класифікації сервісів е-commerce компанії на основі ансамблів моделей : кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки» / О. О. Жебко ; ЧНУ ім. Петра Могили. – Миколаїв, 2023. – 157 с. |
URI: | https://krs.chmnu.edu.ua/jspui/handle/123456789/2672 |
Appears in Collections: | Факультет комп'ютерних наук |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.