Інтелектуальна система обробки природної мови з використанням алгоритмів web-скрейпінгу

Котляренко, В. В.

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://krs.chmnu.edu.ua/jspui/handle/123456789/3299

Назва:	Інтелектуальна система обробки природної мови з використанням алгоритмів web-скрейпінгу
Інші назви:	кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки»
Автори:	Котляренко, В. В.
Ключові слова:	Кафедра інтелектуальних інформаційних систем Калініна І. О. інтелектуальна система обробка природної мови вебскрапінг алгоритми NLP машинне навчання глибоке навчання автоматизація збору даних користувацький інтерфейс аналіз даних intelligent system natural language processing web scraping NLP algorithms machine learning deep learning data collection automation user interface data analysis
Дата публікації:	лют-2024
Видавництво:	ЧНУ ім. Петра Могили
Короткий огляд (реферат):	Актуальність даної роботи полягає в необхідності розробки ефективних підходів до обробки великих обсягів текстових даних з Інтернету за допомогою методів природної обробки мови та вебскрапінгу. Такий підхід дозволить автоматизувати процеси збору та аналізу інформації, поліпшивши тим самим ефективність обробки даних. Об'єктом дослідження є процес автоматизації збору текстових даних з вебсайтів та їх подальшого аналізу за допомогою методів обробки природної мови. Предметом дослідження є методи вебскрапінгу та обробки природної мови, що застосовуються для автоматизованого збору та аналізу текстових даних. Метою дослідження є підвищення ефективності обробки природної мови за допомогою алгоритмів вебскрапінгу. Основна увага приділяється розробці алгоритмів, які забезпечують високу точність та ефективність обробки. У процесі роботи використовувались сучасні методи машинного навчання, аналізу даних, та програмування для реалізації алгоритмів вебскрапінгу та обробки тексту. Розглядались популярні та ефективні методи NLP, такі як парсинг, семантичний аналіз, класифікація тексту. Спеціальна увага приділялась розробці ефективних алгоритмів для збору даних із різних вебресурсів, їх обробці та аналізу з метою виявлення інформативних характеристик та взаємозалежностей. Акцент зроблено на впровадженні машинного навчання та глибокого навчання для підвищення точності та надійності результатів обробки даних. Для демонстрації ефективності розробленої системи було проведено низку експериментів на реальних даних. Результати показали значне покращення у точності та швидкості обробки даних порівняно з традиційними методами. Також було розроблено користувацький інтерфейс, що дозволяє з легкістю використовувати систему для специфічних потреб збору та аналізу даних. Магістерська робота складається з шести розділів. Перший розділ присвячений аналізу сучасного стану проблеми та опису предметної сфери. У другому розділі описано методи та алгоритми, їх застосування та ефективність. Третій розділ присвячений детальному опису структури системи та її моделювання. Четвертий розділ містить опис програмної реалізації, результати тестування та аналізу системи. У шостому розділі наведено основні положення з охорони праці та цивільного захисту під час надзвичайних ситуацій. Загальний обсяг роботи – 80 сторінок. Кваліфікаційна робота магістра містить один додаток, 34 рисунків, 8 таблиць, посилання на 45 літературних джерел. The relevance of this work lies in the need to develop effective approaches for processing large volumes of textual data from the Internet using natural language processing methods and web scraping. This approach will allow for the automation of data collection and analysis processes, thereby improving the efficiency of data processing. The object of study is the process of automating the collection of textual data from websites and their subsequent analysis using natural language processing methods. The subject of the study is the web scraping algorithms and natural language processing methods that are used for automated collection and analysis of textual data. The purpose of the study is increasing the efficiency of natural language processing using web scraping algorithms. In the process of the work, modern methods of machine learning, data analysis, and programming were used to implement web scraping and text processing algorithms. Popular and effective NLP methods such as parsing, semantic analysis, and text classification were considered. Special attention was paid to developing effective algorithms for collecting data from various web resources, processing and analyzing them to identify informative characteristics and interdependencies. Emphasis was placed on the implementation of machine learning and deep learning to increase the accuracy and reliability of data processing results. A series of experiments were conducted on real data to demonstrate the effectiveness of the developed system. The results showed a significant improvement in the accuracy and speed of data processing compared to traditional methods. A user interface was also developed that allows the system to be easily used for specific data collection and analysis needs. The master's thesis consists of six chapters. The first chapter is devoted to the analysis of the current state of the problem and a description of the subject area. The second chapter describes the methods and algorithms, their application, and effectiveness. The third chapter is dedicated to a detailed description of the system's structure and its modeling. The fourth chapter contains a description of the software implementation, testing results, and system analysis. The sixth chapter presents the main provisions of labor protection and civil defense during emergencies. The total volume of work is 80 pages. The master's thesis contains one appendix, 34 figures, 8 tables, and references to 45 literary sources.
Опис:	Котляренко В. В. Інтелектуальна система обробки природної мови з використанням алгоритмів web-скрейпінгу : кваліфікаційна робота на здобуття освітнього ступеня «магістр» : спец. 122 «Комп’ютерні науки» / В. В. Котляренко ; ЧНУ ім. Петра Могили. - Миколаїв, 2024. – 87 с.
URI (Уніфікований ідентифікатор ресурсу):	https://krs.chmnu.edu.ua/jspui/handle/123456789/3299
Розташовується у зібраннях:	Факультет комп'ютерних наук

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
Котляренко 601 КРМ.pdf		2.47 MB	Adobe PDF	Переглянути/Відкрити

Показати повний опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

DSpace JSPUI

DSpace зберігає і дозволяє легкий і відкритий доступ до всіх видів цифрового контенту, включаючи текст, зображення, анімовані зображення, MPEG і набори даних