Верифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool

dc.contributor.authorКоваленко, Іван Владиславович
dc.contributor.authorKovalenko, I. V.
dc.date.accessioned2026-02-05T11:32:27Z
dc.date.issued2025
dc.descriptionНауковий керівник: Мороз Ольга Юріївна, доцент зво кафедри комп’ютерних систем та робототехніки, PhD з інформаційних технологій
dc.description.abstractМетою кваліфікаційної роботи є підвищення продуктивності та точності попередньої обробки даних шляхом розробки та дослідження ефективного методу верифікації й очищення наборів даних із використанням паралельних можливостей мови Java. Об’єкт дослідження – процеси обробки, перевірки та очищення наборів даних у програмних системах. Предмет дослідження – методи, алгоритми та інструменти паралельної верифікації й очищення даних від аномалій і дублікатів із використанням Java Streams API та ForkJoinPool. У роботі досліджено проблеми забезпечення якості даних та методи їхньої верифікації й очищення у сучасних інформаційних системах. Особливу увагу приділено виявленню аномалій і дублікованих записів, що істотно впливають на достовірність аналітики та роботу алгоритмів обробки. Проаналізовано існуючі rule-based, статистичні та нечіткі методи очищення, а також паралельні технології Java. Запропоновано гібридний метод, який поєднує нормалізацію, rule-based перевірки, паралельне виявлення точних і нечітких дублікатів за допомогою Java Streams і ForkJoinPool. Реалізовано програмний модуль для масштабованої обробки даних та проведено експериментальну оцінку, що підтвердила переваги запропонованого підходу над класичними послідовними методами.
dc.description.abstractThe purpose of the qualification work is to increase the productivity and accuracy of data preprocessing by developing and researching an effective method for verifying and cleaning data sets using the parallel capabilities of the Java language. The object of the study is the processes of processing, verifying and cleaning data sets in software systems. The subject of the study is methods, algorithms and tools for parallel verification and cleaning of data from anomalies and duplicates using the Java Streams API and ForkJoinPool. The work investigates the problems of ensuring data quality and methods of their verification and cleaning in modern information systems. Particular attention is paid to the detection of anomalies and duplicate records, which significantly affect the reliability of analytics and the operation of processing algorithms. Existing rule-based, statistical and fuzzy cleaning methods, as well as parallel Java technologies, are analyzed. A hybrid method is proposed that combines normalization, rule-based checks, parallel detection of exact and fuzzy duplicates using Java Streams and ForkJoinPool. A software module for scalable data processing is implemented and an experimental evaluation is conducted, which confirmed the advantages of the proposed approach over classical sequential methods.
dc.identifier.citationКоваленко, Іван Владиславович. Верифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool : кваліфікаційна робота здобувача другого (магістерського) рівня : спеціальність 123 – Комп’ютерна інженерія : освітня програма «Комп’ютерна інженерія» / І. В. Коваленко ; наук. кер. О. Ю. Мороз. – Харків : Харківський національний університет імені В. Н. Каразіна, 2025. – 84 с.
dc.identifier.urihttps://ekhnuir.karazin.ua/handle/123456789/24475
dc.language.isouk
dc.publisherХарків : Харківський національний університет імені В. Н. Каразіна
dc.subjectTECHNOLOGY::Information technology::Computer science
dc.subjectякість даних
dc.subjectверифікація
dc.subjectочищення даних
dc.subjectаномалії
dc.subjectдублікати
dc.subjectJava Streams
dc.subjectForkJoinPool
dc.subjectпаралельна обробка
dc.subjectнечітке зіставлення
dc.subjectгібридний метод
dc.subjectdata quality
dc.subjectverification
dc.subjectdata cleaning
dc.subjectanomalies
dc.subjectduplicates
dc.subjectparallel processing
dc.subjectfuzzy matching
dc.subjecthybrid method
dc.titleВерифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool
dc.typeOther

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
2025_кв_роб_маг_КI_Коваленко Іван.pdf
Розмір:
1.42 MB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
8.17 KB
Формат:
Item-specific license agreed upon to submission
Опис: