Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
https://krs.chmnu.edu.ua/jspui/handle/123456789/4571| Titel: | Система очищення наборів даних із використанням методів виявлення шумів і викидів |
| Sonstige Titel: | кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 123 «Комп’ютерна інженерія» |
| Autoren: | Баженов, Д. С. |
| Stichwörter: | кафедра комп'ютерної інженерії Чуйко Г. П. магістерська робота комп’ютерна інженерія ОП очищення даних виявлення викидів машинне навчання CAIRAD Python Pandas медичні дані Data Cleaning Outlier Detection Machine Learning Medical Data |
| Erscheinungsdatum: | Dez-2025 |
| Herausgeber: | ЧНУ ім. Петра Могили |
| Zusammenfassung: | Кваліфікаційна магістерська робота присвячена розробці програмної системи. Головна її задача — автоматизоване очищення наборів даних від шумів та викидів. Це робиться для того, щоб у результаті підвищити якість моделей машинного навчання. Актуальністю є необхідність у створенні доступних інструментів для попередньої обробки. Важливо, щоб вони були здатні виявляти складні речі: семантичні помилки, шум міток. На практиці, особливо для медичних чи аналітичних систем, це часто є критичним моментом. Об’єкт дослідження – процес попередньої обробки та підготовки структурованих даних. Предметом дослідження є методи, алгоритми та програмні засоби автоматизованого виявлення та усунення шумів, викидів і помилкових міток. У ході роботи реалізовано десктопний застосунок мовою Python (з використанням бібліотек Pandas, Scikit-learn, PyQt5), який поєднує статистичні методи фільтрації (Z-score, IQR) та алгоритм CAIRAD для виявлення помилок розмітки класів. Проведено експериментальне дослідження на реальному медичному наборі даних Heart Disease UCI, яке показало приріст точності класифікації на 9,45 % після очищення. Робота пройшла апробацію на XXVІII Всеукраїнській науково-практичній конференції «Могилянські читання – 2025» (Миколаїв, 2025 р.). Пояснювальна записка магістерської роботи складається зі вступу, чотирьох розділів, висновків, переліку джерел посилання та додатків. У вступі визначається актуальність теми, сформульовані мета, об’єкт, предмет роботи та завдання. У першому розділі проводиться аналіз методів виявлення аномалій. Другий розділ присвячено математичному моделюванню. Третій описує програмну реалізацію системи. Четвертий містить результати експериментальних досліджень. The master's thesis is focused on the development of an automated software system for cleaning structured datasets using statistical methods and machine learning algorithms. The relevance of the research lies in the critical impact of data quality on the accuracy of predictive models, especially in medical diagnostics, where noise and mislabeled cases can lead to erroneous decisions. The object of the study is the process of data preprocessing and preparation for machine learning tasks. The subject of the study is the methods, algorithms, and software tools for detecting outliers and class noise in datasets. The system includes a Python-based desktop application with a graphical interface (PyQt5) that implements Z-score and IQR methods for attribute noise detection and the CAIRAD algorithm for identifying mislabeled instances. The software allows loading CSV files, configuring cleaning parameters, visualizing data distributions, and exporting cleaned datasets. The work was approved at the XXVIII All-Ukrainian Scientific and Practical Conference "Mohyla Readings - 2025" (Mykolaiv, 2025). The explanatory note of the master's thesis consists of an introduction, four sections, conclusions, a list of references, and appendices. The introduction determines the relevance of the topic, formulates the goal, object, subject of the work, and tasks to achieve the set goal. The first section analyzes existing methods and tools for outlier detection. The second section describes mathematical models. The third section covers software implementation. The fourth section presents experimental results on the Heart Disease UCI dataset. |
| Beschreibung: | Баженов Д. С. Система очищення наборів даних із використанням методів виявлення шумів і викидів : кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 123 «Комп’ютерна інженерія» / Д. С. Баженов ; ЧНУ ім. Петра Могили. - Миколаїв, 2025. - 76 с. |
| URI: | https://krs.chmnu.edu.ua/jspui/handle/123456789/4571 |
| Enthalten in den Sammlungen: | Факультет комп'ютерних наук |
Dateien zu dieser Ressource:
| Datei | Beschreibung | Größe | Format | |
|---|---|---|---|---|
| Кваліфікаційна робота Баженов Д.pdf | 2.72 MB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.