Верифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool
| dc.contributor.author | Коваленко, Іван Владиславович | |
| dc.contributor.author | Kovalenko, I. V. | |
| dc.date.accessioned | 2026-02-05T11:32:27Z | |
| dc.date.issued | 2025 | |
| dc.description | Науковий керівник: Мороз Ольга Юріївна, доцент зво кафедри комп’ютерних систем та робототехніки, PhD з інформаційних технологій | |
| dc.description.abstract | Метою кваліфікаційної роботи є підвищення продуктивності та точності попередньої обробки даних шляхом розробки та дослідження ефективного методу верифікації й очищення наборів даних із використанням паралельних можливостей мови Java. Об’єкт дослідження – процеси обробки, перевірки та очищення наборів даних у програмних системах. Предмет дослідження – методи, алгоритми та інструменти паралельної верифікації й очищення даних від аномалій і дублікатів із використанням Java Streams API та ForkJoinPool. У роботі досліджено проблеми забезпечення якості даних та методи їхньої верифікації й очищення у сучасних інформаційних системах. Особливу увагу приділено виявленню аномалій і дублікованих записів, що істотно впливають на достовірність аналітики та роботу алгоритмів обробки. Проаналізовано існуючі rule-based, статистичні та нечіткі методи очищення, а також паралельні технології Java. Запропоновано гібридний метод, який поєднує нормалізацію, rule-based перевірки, паралельне виявлення точних і нечітких дублікатів за допомогою Java Streams і ForkJoinPool. Реалізовано програмний модуль для масштабованої обробки даних та проведено експериментальну оцінку, що підтвердила переваги запропонованого підходу над класичними послідовними методами. | |
| dc.description.abstract | The purpose of the qualification work is to increase the productivity and accuracy of data preprocessing by developing and researching an effective method for verifying and cleaning data sets using the parallel capabilities of the Java language. The object of the study is the processes of processing, verifying and cleaning data sets in software systems. The subject of the study is methods, algorithms and tools for parallel verification and cleaning of data from anomalies and duplicates using the Java Streams API and ForkJoinPool. The work investigates the problems of ensuring data quality and methods of their verification and cleaning in modern information systems. Particular attention is paid to the detection of anomalies and duplicate records, which significantly affect the reliability of analytics and the operation of processing algorithms. Existing rule-based, statistical and fuzzy cleaning methods, as well as parallel Java technologies, are analyzed. A hybrid method is proposed that combines normalization, rule-based checks, parallel detection of exact and fuzzy duplicates using Java Streams and ForkJoinPool. A software module for scalable data processing is implemented and an experimental evaluation is conducted, which confirmed the advantages of the proposed approach over classical sequential methods. | |
| dc.identifier.citation | Коваленко, Іван Владиславович. Верифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool : кваліфікаційна робота здобувача другого (магістерського) рівня : спеціальність 123 – Комп’ютерна інженерія : освітня програма «Комп’ютерна інженерія» / І. В. Коваленко ; наук. кер. О. Ю. Мороз. – Харків : Харківський національний університет імені В. Н. Каразіна, 2025. – 84 с. | |
| dc.identifier.uri | https://ekhnuir.karazin.ua/handle/123456789/24475 | |
| dc.language.iso | uk | |
| dc.publisher | Харків : Харківський національний університет імені В. Н. Каразіна | |
| dc.subject | TECHNOLOGY::Information technology::Computer science | |
| dc.subject | якість даних | |
| dc.subject | верифікація | |
| dc.subject | очищення даних | |
| dc.subject | аномалії | |
| dc.subject | дублікати | |
| dc.subject | Java Streams | |
| dc.subject | ForkJoinPool | |
| dc.subject | паралельна обробка | |
| dc.subject | нечітке зіставлення | |
| dc.subject | гібридний метод | |
| dc.subject | data quality | |
| dc.subject | verification | |
| dc.subject | data cleaning | |
| dc.subject | anomalies | |
| dc.subject | duplicates | |
| dc.subject | parallel processing | |
| dc.subject | fuzzy matching | |
| dc.subject | hybrid method | |
| dc.title | Верифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool | |
| dc.type | Other |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- 2025_кв_роб_маг_КI_Коваленко Іван.pdf
- Розмір:
- 1.42 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 8.17 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис:
