Верифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool
Вантажиться...
Дата
ORCID
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник/консультант
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Харків : Харківський національний університет імені В. Н. Каразіна
Анотація
Метою кваліфікаційної роботи є підвищення продуктивності та точності попередньої обробки даних шляхом розробки та дослідження ефективного методу верифікації й очищення наборів даних із використанням паралельних можливостей мови Java. Об’єкт дослідження – процеси обробки, перевірки та очищення наборів даних у програмних системах. Предмет дослідження – методи, алгоритми та інструменти паралельної верифікації й очищення даних від аномалій і дублікатів із використанням Java Streams API та ForkJoinPool. У роботі досліджено проблеми забезпечення якості даних та методи їхньої верифікації й очищення у сучасних інформаційних системах. Особливу увагу приділено виявленню аномалій і дублікованих записів, що істотно впливають на достовірність аналітики та роботу алгоритмів обробки. Проаналізовано існуючі rule-based, статистичні та нечіткі методи очищення, а також паралельні технології Java. Запропоновано гібридний метод, який поєднує нормалізацію, rule-based перевірки, паралельне виявлення точних і нечітких дублікатів за допомогою Java Streams і ForkJoinPool. Реалізовано програмний модуль для масштабованої обробки даних та проведено експериментальну оцінку, що підтвердила переваги запропонованого підходу над класичними послідовними методами.
The purpose of the qualification work is to increase the productivity and accuracy of data preprocessing by developing and researching an effective method for verifying and cleaning data sets using the parallel capabilities of the Java language. The object of the study is the processes of processing, verifying and cleaning data sets in software systems. The subject of the study is methods, algorithms and tools for parallel verification and cleaning of data from anomalies and duplicates using the Java Streams API and ForkJoinPool. The work investigates the problems of ensuring data quality and methods of their verification and cleaning in modern information systems. Particular attention is paid to the detection of anomalies and duplicate records, which significantly affect the reliability of analytics and the operation of processing algorithms. Existing rule-based, statistical and fuzzy cleaning methods, as well as parallel Java technologies, are analyzed. A hybrid method is proposed that combines normalization, rule-based checks, parallel detection of exact and fuzzy duplicates using Java Streams and ForkJoinPool. A software module for scalable data processing is implemented and an experimental evaluation is conducted, which confirmed the advantages of the proposed approach over classical sequential methods.
The purpose of the qualification work is to increase the productivity and accuracy of data preprocessing by developing and researching an effective method for verifying and cleaning data sets using the parallel capabilities of the Java language. The object of the study is the processes of processing, verifying and cleaning data sets in software systems. The subject of the study is methods, algorithms and tools for parallel verification and cleaning of data from anomalies and duplicates using the Java Streams API and ForkJoinPool. The work investigates the problems of ensuring data quality and methods of their verification and cleaning in modern information systems. Particular attention is paid to the detection of anomalies and duplicate records, which significantly affect the reliability of analytics and the operation of processing algorithms. Existing rule-based, statistical and fuzzy cleaning methods, as well as parallel Java technologies, are analyzed. A hybrid method is proposed that combines normalization, rule-based checks, parallel detection of exact and fuzzy duplicates using Java Streams and ForkJoinPool. A software module for scalable data processing is implemented and an experimental evaluation is conducted, which confirmed the advantages of the proposed approach over classical sequential methods.
Опис
Науковий керівник: Мороз Ольга Юріївна, доцент зво кафедри комп’ютерних систем та робототехніки, PhD з інформаційних технологій
Ключові слова
TECHNOLOGY::Information technology::Computer science, якість даних, верифікація, очищення даних, аномалії, дублікати, Java Streams, ForkJoinPool, паралельна обробка, нечітке зіставлення, гібридний метод, data quality, verification, data cleaning, anomalies, duplicates, parallel processing, fuzzy matching, hybrid method
Бібліографічний опис
Коваленко, Іван Владиславович. Верифікація та очищення даних з аномаліями і дублями у Java Streams та ForkJoinPool : кваліфікаційна робота здобувача другого (магістерського) рівня : спеціальність 123 – Комп’ютерна інженерія : освітня програма «Комп’ютерна інженерія» / І. В. Коваленко ; наук. кер. О. Ю. Мороз. – Харків : Харківський національний університет імені В. Н. Каразіна, 2025. – 84 с.
