Please use this identifier to cite or link to this item:
https://krs.chmnu.edu.ua/jspui/handle/123456789/4571| Title: | Система очищення наборів даних із використанням методів виявлення шумів і викидів |
| Other Titles: | кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 123 «Комп’ютерна інженерія» |
| Authors: | Баженов, Д. С. |
| Keywords: | кафедра комп'ютерної інженерії Чуйко Г. П. магістерська робота комп’ютерна інженерія ОП очищення даних виявлення викидів машинне навчання CAIRAD Python Pandas медичні дані Data Cleaning Outlier Detection Machine Learning Medical Data |
| Issue Date: | Dec-2025 |
| Publisher: | ЧНУ ім. Петра Могили |
| Abstract: | Кваліфікаційна магістерська робота присвячена розробці програмної системи. Головна її задача — автоматизоване очищення наборів даних від шумів та викидів. Це робиться для того, щоб у результаті підвищити якість моделей машинного навчання. Актуальністю є необхідність у створенні доступних інструментів для попередньої обробки. Важливо, щоб вони були здатні виявляти складні речі: семантичні помилки, шум міток. На практиці, особливо для медичних чи аналітичних систем, це часто є критичним моментом. Об’єкт дослідження – процес попередньої обробки та підготовки структурованих даних. Предметом дослідження є методи, алгоритми та програмні засоби автоматизованого виявлення та усунення шумів, викидів і помилкових міток. У ході роботи реалізовано десктопний застосунок мовою Python (з використанням бібліотек Pandas, Scikit-learn, PyQt5), який поєднує статистичні методи фільтрації (Z-score, IQR) та алгоритм CAIRAD для виявлення помилок розмітки класів. Проведено експериментальне дослідження на реальному медичному наборі даних Heart Disease UCI, яке показало приріст точності класифікації на 9,45 % після очищення. Робота пройшла апробацію на XXVІII Всеукраїнській науково-практичній конференції «Могилянські читання – 2025» (Миколаїв, 2025 р.). Пояснювальна записка магістерської роботи складається зі вступу, чотирьох розділів, висновків, переліку джерел посилання та додатків. У вступі визначається актуальність теми, сформульовані мета, об’єкт, предмет роботи та завдання. У першому розділі проводиться аналіз методів виявлення аномалій. Другий розділ присвячено математичному моделюванню. Третій описує програмну реалізацію системи. Четвертий містить результати експериментальних досліджень. The master's thesis is focused on the development of an automated software system for cleaning structured datasets using statistical methods and machine learning algorithms. The relevance of the research lies in the critical impact of data quality on the accuracy of predictive models, especially in medical diagnostics, where noise and mislabeled cases can lead to erroneous decisions. The object of the study is the process of data preprocessing and preparation for machine learning tasks. The subject of the study is the methods, algorithms, and software tools for detecting outliers and class noise in datasets. The system includes a Python-based desktop application with a graphical interface (PyQt5) that implements Z-score and IQR methods for attribute noise detection and the CAIRAD algorithm for identifying mislabeled instances. The software allows loading CSV files, configuring cleaning parameters, visualizing data distributions, and exporting cleaned datasets. The work was approved at the XXVIII All-Ukrainian Scientific and Practical Conference "Mohyla Readings - 2025" (Mykolaiv, 2025). The explanatory note of the master's thesis consists of an introduction, four sections, conclusions, a list of references, and appendices. The introduction determines the relevance of the topic, formulates the goal, object, subject of the work, and tasks to achieve the set goal. The first section analyzes existing methods and tools for outlier detection. The second section describes mathematical models. The third section covers software implementation. The fourth section presents experimental results on the Heart Disease UCI dataset. |
| Description: | Баженов Д. С. Система очищення наборів даних із використанням методів виявлення шумів і викидів : кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 123 «Комп’ютерна інженерія» / Д. С. Баженов ; ЧНУ ім. Петра Могили. - Миколаїв, 2025. - 76 с. |
| URI: | https://krs.chmnu.edu.ua/jspui/handle/123456789/4571 |
| Appears in Collections: | Факультет комп'ютерних наук |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| Кваліфікаційна робота Баженов Д.pdf | 2.72 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.