RESEARCH AND FORECASTING OF TIME SERIES USING PARALLEL COMPUTING TECHNOLOGIES

Name: RESEARCH AND FORECASTING OF TIME SERIES USING PARALLEL COMPUTING TECHNOLOGIES
Keywords: паралельні обчислення, Apache Spark, AWS EMR, parallel computing, кластер, хмарні технології, ARIMA, time series, cluster, cloud technologies

descriptionPublicationkeyboard_double_arrow_right Article 29 Dec 2024 Ukrainian Publisher:National Technical University "Kharkiv Politechnic Institute"Journal:Bulletin of the National Technical University «KhPI» Series: New solutions in modern technologies (issn: 2413-4295, eissn: 2079-5459,

RESEARCH AND FORECASTING OF TIME SERIES USING PARALLEL COMPUTING TECHNOLOGIES

- Summary
- Subjects
- Metrics

Abstract

Розглядається проблема ефективної обробки часових рядів з метою прогнозування, використовуючи технології розподілених обчислень у хмарному середовищі. Акцентовано увагу на адаптації сучасних підходів до аналізу часових рядів для роботи з великими обсягами даних та їх інтеграції з інфраструктурою хмарних обчислень. Особливий акцент зроблено на обробці ультра-довгих часових рядів, які відзначаються низьким сигнал-шум співвідношенням, складною структурою та довготривалими трендами. Проаналізовано широкий спектр методів прогнозування, включаючи класичні статистичні моделі, такі як авторегресійні інтегровані моделі з рухомим середнім, та сучасні підходи машинного навчання, зокрема нейронні мережі з довгою короткотривалою пам’яттю. Продемонстровано переваги використання паралельних обчислень у забезпеченні значного прискорення обробки великих обсягів даних. Зокрема, у роботі підтверджено ефективність запропонованого підходу з використанням хмарної інфраструктури Amazon Web Services, що дозволяє оптимізувати ресурси та підвищити точність прогнозування. Розроблено програмний пакет на основі технологій Apache Spark для аналізу часових рядів у розподілених середовищах. Проведено тестування продуктивності програмного забезпечення, результати якого свідчать про доцільність його використання у реальних умовах для вирішення задач прогнозування та виявлення аномалій у великих часових рядах. Зокрема, обґрунтовано застосування адаптованої авторегресійної інтегрованої моделі з рухомим середнім у поєднанні з паралельними обчисленнями для забезпечення ефективності прогнозування часових рядів. Розглянуто виклики, пов’язані із впровадженням паралельних обчислень у задачі прогнозування часових рядів, включаючи необхідність оптимізації алгоритмів та забезпечення масштабованості рішень у хмарному середовищі. Окреслено перспективи подальшого вдосконалення програмного забезпечення, зокрема шляхом впровадження адаптивних алгоритмів і розширення їх застосування у сферах кібербезпеки, фінансової аналітики, моніторингу інфраструктурних систем, а також прогнозування в економіці та промисловості. Проаналізовано результати численних обчислювальних експериментів, які довели ефективність розроблених алгоритмів у підвищенні точності прогнозів та зниженні часу обробки даних. Отримані результати формують основу для майбутніх досліджень у напрямі створення комплексних систем аналізу часових рядів, що враховують специфіку різних галузей.

This study addresses the challenge of efficient time series processing for forecasting purposes using distributed computing technologies in a cloud environment. The focus is placed on adapting modern approaches to time series analysis for handling large data volumes and integrating them with cloud computing infrastructure. Particular attention is given to processing ultra-long time series, characterized by low signal-to-noise ratios, complex structures, and long-term trends. A wide range of forecasting methods is analyzed, including classical statistical models such as autoregressive integrated moving average (ARIMA) and modern machine learning approaches, particularly long short-term memory neural networks. The advantages of parallel computing in significantly accelerating the processing of large data volumes are demonstrated. Specifically, the study confirms the effectiveness of the proposed approach using Amazon Web Services cloud infrastructure, enabling resource optimization and improving forecasting accuracy. A software package based on Apache Spark technologies was developed for time series analysis in distributed environments. Performance testing of the software demonstrated its practical applicability for solving forecasting and anomaly detection tasks in large time series. The application of the adapted autoregressive integrated moving average model, combined with parallel computing, is substantiated as an effective method for time series forecasting. The challenges associated with implementing parallel computing for time series forecasting are explored, including the need for algorithm optimization and ensuring scalability of solutions within a cloud environment. The study outlines prospects for further software enhancements, such as integrating adaptive algorithms and expanding their application to fields like cybersecurity, financial analytics, infrastructure monitoring, and forecasting in economics and industry. The results of extensive computational experiments confirm the effectiveness of the developed algorithms in improving forecast accuracy and reducing data processing time. These findings lay the foundation for future research aimed at creating comprehensive time series analysis systems that account for the specific needs of various industries.

Keywords

паралельні обчислення, Apache Spark, AWS EMR, parallel computing, кластер, хмарні технології, ARIMA, time series, cluster, cloud technologies, часовий ряд

Impact byBIP!

	selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	0
	popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.	Average
	influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	Average
	impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.	Average

Found an issue? Give us feedback

Average

gold