Інтелектуальна система обробки неструктурованих текстових даних на основі технології JSON

Кучеренко, Є. А.

Please use this identifier to cite or link to this item: https://krs.chmnu.edu.ua/jspui/handle/123456789/3300

Full metadata record

DC Field	Value	Language
dc.contributor.author	Кучеренко, Є. А.	-
dc.date.accessioned	2024-04-19T10:51:28Z	-
dc.date.available	2024-04-19T10:51:28Z	-
dc.date.issued	2024-02	-
dc.identifier.uri	https://krs.chmnu.edu.ua/jspui/handle/123456789/3300	-
dc.description	Кучеренко Є. А. Інтелектуальна система обробки неструктурованих текстових даних на основі технології JSON : кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки» / Є. А. Кучеренко ; ЧНУ ім. Петра Могили. - Миколаїв, 2024. – 96 с.	uk_UA
dc.description.abstract	Актуальність даного дослідження полягає у необхідності автоматизації аналізу витоків персональних даних. Практична значимість розробленої системи полягає у вдосконаленні методів збору та обробки інформації з метою її подальшої валідації, очистки та накопичення за наступними категоріями: Паспортні дані, географічні адреси та гео-координати, валідація та автоматизоване доповнення номеру мобільного телефону до міжнародного формату, Обробка автомобільних номерів (у сучасному та застарілому форматі), VIN-коду двигуна та марки автомобіля, валідація url-адрес соціальних мереж, Обробка персональних даних (ПІБ, ДН). Об’єктом дослідження є процес автоматизації систем для структуризації даних з декількох джерел. Предметом дослідження є методи та алгоритми реалізації цілісної системи для виконання автоматизованої та паралельної обробки, валідації та структуризації даних. Метою є розробка системи для підвищення ефективності автоматизації обробки великих даних. В результаті виконання роботи було досліджено два мета-евристичних методи оптимізації (метод мурашиної і штучної бджолиної колоній), проаналізовано вплив їх внутрішніх параметрів на роботу алгоритмів, визначені основні їх переваги та недоліки, а також розроблено програмне забезпечення, в якому реалізовані відповідні методи. Дана робота складається з трьох розділів. У першому розділі представлено огляд способів зчитування вхідних даних, описано особливості розбиття та першочергової підготовки даних та основні кроки для роботи з файлами або чергою файлів, загальний об’єм дискового простору для яких – перевищує доступний ресурс ПЗУ, куди і будуть завантажені дані під час обробки. Другий розділ включає в себе опис технологій та процесів «маппінгу» даних та взаємозалежність між процедурою маппінгу та функціями обробки даних за допомогою спеціалізованих функцій-юнітів, кожна з яких може використовуватись у процесі очищення одного чи декількох стовпців даних – незалежно одна від одної або у комбінованому форматі, колі кожна наступна функція та маніпуляція з даними – базується на результаті виконання попередньої операції, що в свою чергу впливає на їх загальний порядок та швидкість обробки даних. У третьому розділі наведено детальний опис внутрішніх механізмів розробленої автоматизованої системи та способів їх взаємодії і функціонування, а саме наведено взаємозв’язки між функціями сирцевого коду та їх детальних опис, приклад стоврення та параметризації конфігураційного файлу, на базі якого й буде працювати уся система. Окремо наведено детальний опис деяких специфічних та спеціалізованих функцій для обробки даних та деталі їх алгоритмічної реалізації. У спеціальній частині, присвяченій охороні праці, який складається з двох підрозділів у яких відповідно наведено основні засоби та заходи безпеки для працівників у офісних приміщення відповідно до ДСТУ та питання що стосуються цивільного захисту. Загальний обсяг роботи – 134 сторінки. Кваліфікаційна робота магітсра не містить додатків, 8 рисунків, не містить таблиць і посилання на 9 літературних джерел. The relevance of this study lies in the need to automate the analysis of personal data leaks. The practical significance of the developed system is to improve the methods of collecting and processing information for the purpose of its further validation, cleaning and accumulation in the following categories: Passport data, geographical addresses and geo-coordinates, validation and automated completion of a mobile phone number to the international format, Processing of car license plates (in modern and outdated format), VIN-code of the engine and car brand, validation of social networking url-addresses, Processing of personal data (name, date). The object of research is the process of automating systems for structuring data from multiple sources. The subject of the study is methods and algorithms for implementing an integrated system for automated and parallel processing, validation and structuring of data. The goal is to develop a system to increase the efficiency of automating big data processing. As a result of the work, two meta-heuristic optimization methods (the ant and artificial bee colony methods) were investigated, the influence of their internal parameters on the operation of the algorithms was analyzed, their main advantages and disadvantages were identified, and software was developed in which the corresponding methods were implemented. This paper consists of three sections. The first section provides an overview of input data reading methods, describes the peculiarities of data partitioning and priority preparation, and the main steps for working with files or a queue of files whose total disk space exceeds the available ROM resource where the data will be loaded during processing. The second section includes a description of the technologies and processes of data mapping and the interdependence between the mapping procedure and data processing functions using specialized unit functions, each of which can be used in the process of cleaning one or more data columns - independently of each other or in a combined format, where each subsequent function and data manipulation is based on the result of the previous operation, which in turn affects their overall order and speed of data processing. The third section provides a detailed description of the internal mechanisms of the developed automated system and the ways in which they interact and function, namely, the interrelationships between the functions of the raw code and their detailed descriptions, an example of creating and parameterizing a configuration file on the basis of which the entire system will operate. A detailed description of some specific and specialized functions for data processing and details of their algorithmic implementation are provided separately. The special part devoted to labor protection consists of two subsections, which respectively describe the basic means and safety measures for employees in office premises in accordance with DSTU and issues related to civil protection. The total volume of the work is 134 pages. The master's thesis does not contain any appendices, 8 figures, no tables and references to 9 literary sources.	uk_UA
dc.language.iso	other	uk_UA
dc.publisher	ЧНУ ім. Петра Могили	uk_UA
dc.subject	Кафедра інтелектуальних інформаційних систем	uk_UA
dc.subject	Кулаковська І. В.	uk_UA
dc.subject	валідація	uk_UA
dc.subject	інтелектуальна система	uk_UA
dc.subject	неструктуровані дані	uk_UA
dc.subject	JSON	uk_UA
dc.subject	CSV	uk_UA
dc.subject	краулінг	uk_UA
dc.subject	ETL	uk_UA
dc.subject	ELT	uk_UA
dc.subject	автоматизована система	uk_UA
dc.subject	validation	uk_UA
dc.subject	intelligent syste	uk_UA
dc.subject	unstructured data	uk_UA
dc.subject	crowding	uk_UA
dc.subject	automated system	uk_UA
dc.title	Інтелектуальна система обробки неструктурованих текстових даних на основі технології JSON	uk_UA
dc.title.alternative	кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки»	uk_UA
dc.type	Other	uk_UA
Appears in Collections:	Факультет комп'ютерних наук

Files in This Item:

File	Description	Size	Format
Кучеренко 601 КРМ.pdf		2.81 MB	Adobe PDF	View/Open

Show simple item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets