Інтелектуальна система обробки природної мови з використанням алгоритмів web-скрейпінгу

Котляренко, В. В.

Please use this identifier to cite or link to this item: https://krs.chmnu.edu.ua/jspui/handle/123456789/3299

Title:	Інтелектуальна система обробки природної мови з використанням алгоритмів web-скрейпінгу
Other Titles:	кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки»
Authors:	Котляренко, В. В.
Keywords:	Кафедра інтелектуальних інформаційних систем Калініна І. О. інтелектуальна система обробка природної мови вебскрапінг алгоритми NLP машинне навчання глибоке навчання автоматизація збору даних користувацький інтерфейс аналіз даних intelligent system natural language processing web scraping NLP algorithms machine learning deep learning data collection automation user interface data analysis
Issue Date:	Feb-2024
Publisher:	ЧНУ ім. Петра Могили
Abstract:	Актуальність даної роботи полягає в необхідності розробки ефективних підходів до обробки великих обсягів текстових даних з Інтернету за допомогою методів природної обробки мови та вебскрапінгу. Такий підхід дозволить автоматизувати процеси збору та аналізу інформації, поліпшивши тим самим ефективність обробки даних. Об'єктом дослідження є процес автоматизації збору текстових даних з вебсайтів та їх подальшого аналізу за допомогою методів обробки природної мови. Предметом дослідження є методи вебскрапінгу та обробки природної мови, що застосовуються для автоматизованого збору та аналізу текстових даних. Метою дослідження є підвищення ефективності обробки природної мови за допомогою алгоритмів вебскрапінгу. Основна увага приділяється розробці алгоритмів, які забезпечують високу точність та ефективність обробки. У процесі роботи використовувались сучасні методи машинного навчання, аналізу даних, та програмування для реалізації алгоритмів вебскрапінгу та обробки тексту. Розглядались популярні та ефективні методи NLP, такі як парсинг, семантичний аналіз, класифікація тексту. Спеціальна увага приділялась розробці ефективних алгоритмів для збору даних із різних вебресурсів, їх обробці та аналізу з метою виявлення інформативних характеристик та взаємозалежностей. Акцент зроблено на впровадженні машинного навчання та глибокого навчання для підвищення точності та надійності результатів обробки даних. Для демонстрації ефективності розробленої системи було проведено низку експериментів на реальних даних. Результати показали значне покращення у точності та швидкості обробки даних порівняно з традиційними методами. Також було розроблено користувацький інтерфейс, що дозволяє з легкістю використовувати систему для специфічних потреб збору та аналізу даних. Магістерська робота складається з шести розділів. Перший розділ присвячений аналізу сучасного стану проблеми та опису предметної сфери. У другому розділі описано методи та алгоритми, їх застосування та ефективність. Третій розділ присвячений детальному опису структури системи та її моделювання. Четвертий розділ містить опис програмної реалізації, результати тестування та аналізу системи. У шостому розділі наведено основні положення з охорони праці та цивільного захисту під час надзвичайних ситуацій. Загальний обсяг роботи – 80 сторінок. Кваліфікаційна робота магістра містить один додаток, 34 рисунків, 8 таблиць, посилання на 45 літературних джерел. The relevance of this work lies in the need to develop effective approaches for processing large volumes of textual data from the Internet using natural language processing methods and web scraping. This approach will allow for the automation of data collection and analysis processes, thereby improving the efficiency of data processing. The object of study is the process of automating the collection of textual data from websites and their subsequent analysis using natural language processing methods. The subject of the study is the web scraping algorithms and natural language processing methods that are used for automated collection and analysis of textual data. The purpose of the study is increasing the efficiency of natural language processing using web scraping algorithms. In the process of the work, modern methods of machine learning, data analysis, and programming were used to implement web scraping and text processing algorithms. Popular and effective NLP methods such as parsing, semantic analysis, and text classification were considered. Special attention was paid to developing effective algorithms for collecting data from various web resources, processing and analyzing them to identify informative characteristics and interdependencies. Emphasis was placed on the implementation of machine learning and deep learning to increase the accuracy and reliability of data processing results. A series of experiments were conducted on real data to demonstrate the effectiveness of the developed system. The results showed a significant improvement in the accuracy and speed of data processing compared to traditional methods. A user interface was also developed that allows the system to be easily used for specific data collection and analysis needs. The master's thesis consists of six chapters. The first chapter is devoted to the analysis of the current state of the problem and a description of the subject area. The second chapter describes the methods and algorithms, their application, and effectiveness. The third chapter is dedicated to a detailed description of the system's structure and its modeling. The fourth chapter contains a description of the software implementation, testing results, and system analysis. The sixth chapter presents the main provisions of labor protection and civil defense during emergencies. The total volume of work is 80 pages. The master's thesis contains one appendix, 34 figures, 8 tables, and references to 45 literary sources.
Description:	Котляренко В. В. Інтелектуальна система обробки природної мови з використанням алгоритмів web-скрейпінгу : кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки» / В. В. Котляренко ; ЧНУ ім. Петра Могили. - Миколаїв, 2024. – 87 с.
URI:	https://krs.chmnu.edu.ua/jspui/handle/123456789/3299
Appears in Collections:	Факультет комп'ютерних наук

Files in This Item:

File	Description	Size	Format
Котляренко 601 КРМ.pdf		2.47 MB	Adobe PDF	View/Open

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets