груші яблоко повидло
груші яблоко повидло
Please use this identifier to cite or link to this item: https://krs.chmnu.edu.ua/jspui/handle/123456789/3300
Title: Інтелектуальна система обробки неструктурованих текстових даних на основі технології JSON
Other Titles: кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки»
Authors: Кучеренко, Є. А.
Keywords: Кафедра інтелектуальних інформаційних систем
Кулаковська І. В.
валідація
інтелектуальна система
неструктуровані дані
JSON
CSV
краулінг
ETL
ELT
автоматизована система
validation
intelligent syste
unstructured data
crowding
automated system
Issue Date: Feb-2024
Publisher: ЧНУ ім. Петра Могили
Abstract: Актуальність даного дослідження полягає у необхідності автоматизації аналізу витоків персональних даних. Практична значимість розробленої системи полягає у вдосконаленні методів збору та обробки інформації з метою її подальшої валідації, очистки та накопичення за наступними категоріями: Паспортні дані, географічні адреси та гео-координати, валідація та автоматизоване доповнення номеру мобільного телефону до міжнародного формату, Обробка автомобільних номерів (у сучасному та застарілому форматі), VIN-коду двигуна та марки автомобіля, валідація url-адрес соціальних мереж, Обробка персональних даних (ПІБ, ДН). Об’єктом дослідження є процес автоматизації систем для структуризації даних з декількох джерел. Предметом дослідження є методи та алгоритми реалізації цілісної системи для виконання автоматизованої та паралельної обробки, валідації та структуризації даних. Метою є розробка системи для підвищення ефективності автоматизації обробки великих даних. В результаті виконання роботи було досліджено два мета-евристичних методи оптимізації (метод мурашиної і штучної бджолиної колоній), проаналізовано вплив їх внутрішніх параметрів на роботу алгоритмів, визначені основні їх переваги та недоліки, а також розроблено програмне забезпечення, в якому реалізовані відповідні методи. Дана робота складається з трьох розділів. У першому розділі представлено огляд способів зчитування вхідних даних, описано особливості розбиття та першочергової підготовки даних та основні кроки для роботи з файлами або чергою файлів, загальний об’єм дискового простору для яких – перевищує доступний ресурс ПЗУ, куди і будуть завантажені дані під час обробки. Другий розділ включає в себе опис технологій та процесів «маппінгу» даних та взаємозалежність між процедурою маппінгу та функціями обробки даних за допомогою спеціалізованих функцій-юнітів, кожна з яких може використовуватись у процесі очищення одного чи декількох стовпців даних – незалежно одна від одної або у комбінованому форматі, колі кожна наступна функція та маніпуляція з даними – базується на результаті виконання попередньої операції, що в свою чергу впливає на їх загальний порядок та швидкість обробки даних. У третьому розділі наведено детальний опис внутрішніх механізмів розробленої автоматизованої системи та способів їх взаємодії і функціонування, а саме наведено взаємозв’язки між функціями сирцевого коду та їх детальних опис, приклад стоврення та параметризації конфігураційного файлу, на базі якого й буде працювати уся система. Окремо наведено детальний опис деяких специфічних та спеціалізованих функцій для обробки даних та деталі їх алгоритмічної реалізації. У спеціальній частині, присвяченій охороні праці, який складається з двох підрозділів у яких відповідно наведено основні засоби та заходи безпеки для працівників у офісних приміщення відповідно до ДСТУ та питання що стосуються цивільного захисту. Загальний обсяг роботи – 134 сторінки. Кваліфікаційна робота магітсра не містить додатків, 8 рисунків, не містить таблиць і посилання на 9 літературних джерел. The relevance of this study lies in the need to automate the analysis of personal data leaks. The practical significance of the developed system is to improve the methods of collecting and processing information for the purpose of its further validation, cleaning and accumulation in the following categories: Passport data, geographical addresses and geo-coordinates, validation and automated completion of a mobile phone number to the international format, Processing of car license plates (in modern and outdated format), VIN-code of the engine and car brand, validation of social networking url-addresses, Processing of personal data (name, date). The object of research is the process of automating systems for structuring data from multiple sources. The subject of the study is methods and algorithms for implementing an integrated system for automated and parallel processing, validation and structuring of data. The goal is to develop a system to increase the efficiency of automating big data processing. As a result of the work, two meta-heuristic optimization methods (the ant and artificial bee colony methods) were investigated, the influence of their internal parameters on the operation of the algorithms was analyzed, their main advantages and disadvantages were identified, and software was developed in which the corresponding methods were implemented. This paper consists of three sections. The first section provides an overview of input data reading methods, describes the peculiarities of data partitioning and priority preparation, and the main steps for working with files or a queue of files whose total disk space exceeds the available ROM resource where the data will be loaded during processing. The second section includes a description of the technologies and processes of data mapping and the interdependence between the mapping procedure and data processing functions using specialized unit functions, each of which can be used in the process of cleaning one or more data columns - independently of each other or in a combined format, where each subsequent function and data manipulation is based on the result of the previous operation, which in turn affects their overall order and speed of data processing. The third section provides a detailed description of the internal mechanisms of the developed automated system and the ways in which they interact and function, namely, the interrelationships between the functions of the raw code and their detailed descriptions, an example of creating and parameterizing a configuration file on the basis of which the entire system will operate. A detailed description of some specific and specialized functions for data processing and details of their algorithmic implementation are provided separately. The special part devoted to labor protection consists of two subsections, which respectively describe the basic means and safety measures for employees in office premises in accordance with DSTU and issues related to civil protection. The total volume of the work is 134 pages. The master's thesis does not contain any appendices, 8 figures, no tables and references to 9 literary sources.
Description: Кучеренко Є. А. Інтелектуальна система обробки неструктурованих текстових даних на основі технології JSON : кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки» / Є. А. Кучеренко ; ЧНУ ім. Петра Могили. - Миколаїв, 2024. – 96 с.
URI: https://krs.chmnu.edu.ua/jspui/handle/123456789/3300
Appears in Collections:Факультет комп'ютерних наук

Files in This Item:
File Description SizeFormat 
Кучеренко 601 КРМ.pdf2.81 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.