Мультимодальна платформа для аналізу та пошуку даних на основі RAG-архітектури
Вантажиться...
Дата
ORCID
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник/консультант
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Харків : Харківський національний університет імені В. Н. Каразіна
Анотація
Метою магістерської роботи – підвищення якості інформаційного пошуку в неструктурованих текстових масивах шляхом застосування як готових, так розробки нових методів інформаційного пошуку, які допоможуть подолати лексичний розрив між запитом та релевантними документами. Об'єкт дослідження – процеси семантичного пошуку та генерації відповідей у системах доповненої генерації на основі великих мовних моделей. Предмет магістерської роботи – методи та алгоритми гібридного семантичного пошуку документів із застосуванням генерації гіпотетичних документів та механізму пізньої взаємодії ColBERT. Область застосування – інтелектуальні системи пошуку та аналізу текстових даних. Розроблений підхід може бути інтегрований у корпоративні системи управління знаннями, платформи технічної підтримки з автоматизованими відповідями, освітні середовища з адаптивним контентом, а також використаний у дослідницьких проектах з обробки природної мови.
The purpose of the qualification work is to develop a multimodal platform for data analysis and retrieval based on RAG architecture. The object of the research is the processes of semantic search and response generation in retrieval–augmented generation systems based on large language models. The subject of the research is the methods and algorithms of hybrid semantic document retrieval that combine Dense and Sparse approaches with HyDE hypothetical document generation and ColBERT late interaction mechanism to improve result relevance in RAG systems. The problem addressed in the thesis is to improve information retrieval quality by transitioning from homogeneous methods to hybrid approaches using hypothetical document generation and multi–level ranking. This makes it possible to bridge the semantic gap between user queries and relevant documents, reduce lexical mismatch impact, and improve search precision and recall. Scope – intelligent text data search and analysis systems. The developed approach can be integrated into corporate knowledge management systems, technical support platforms with automated responses, educational environments with adaptive content, and used in natural language processing projects.
The purpose of the qualification work is to develop a multimodal platform for data analysis and retrieval based on RAG architecture. The object of the research is the processes of semantic search and response generation in retrieval–augmented generation systems based on large language models. The subject of the research is the methods and algorithms of hybrid semantic document retrieval that combine Dense and Sparse approaches with HyDE hypothetical document generation and ColBERT late interaction mechanism to improve result relevance in RAG systems. The problem addressed in the thesis is to improve information retrieval quality by transitioning from homogeneous methods to hybrid approaches using hypothetical document generation and multi–level ranking. This makes it possible to bridge the semantic gap between user queries and relevant documents, reduce lexical mismatch impact, and improve search precision and recall. Scope – intelligent text data search and analysis systems. The developed approach can be integrated into corporate knowledge management systems, technical support platforms with automated responses, educational environments with adaptive content, and used in natural language processing projects.
Опис
Науковий керівник: Бакуменко Ніна Станіславівна, кандидат технічних наук, доцент кафедри комп’ютерних систем та робототехніки
Ключові слова
TECHNOLOGY::Information technology::Computer science, RAG, Retrieval-Augmented Generation, генеративні мовні моделі, семантичний пошук, BM25, Dense, ColBERT, HyDE, гіпотетичні документи, мікросервісна архітектура, generative language models, semantic search, late interaction, hypothetical documents, microservice architecture
Бібліографічний опис
Філіп'єв, Євген Володимирович. Мультимодальна платформа для аналізу та пошуку даних на основі RAG-архітектури : кваліфікаційна робота здобувача другого (магістерського) рівня : спеціальність 123 – Комп’ютерна інженерія : освітня програма «Комп’ютерна інженерія» / Є. В. Філіп'єв ; наук. кер. Н. С. Бакуменко. – Харків : Харківський національний університет імені В. Н. Каразіна, 2025. – 98 с.
