
Ð’ работе раÑÑматриваютÑÑ Ð¼ÐµÑ‚Ð¾Ð´Ñ‹ поиÑка выброÑов в многомерных данных. ОÑновное внимание уделÑетÑÑ Ð°Ð»Ð³Ð¾Ñ€Ð¸Ñ‚Ð¼Ð°Ð¼, оÑнованным на SV-подходе – SVC и OneClass SVM. ПриводитÑÑ Ñравнение результатов работы Ñтих алгоритмов Ñ Ñ€ÐµÐ·ÑƒÐ»ÑŒÑ‚Ð°Ñ‚Ð°Ð¼Ð¸ метода, оÑнованного на раÑÑтоÑнии МахаланобиÑа. Задачи, которые решалиÑÑŒ в ходе иÑÑледованиÑ: 1. Изучение отобранных алгоритмов поиÑка выброÑов и их реализациÑ. 2. ТеÑтирование реализации на модельных данных и их Ð°Ð¿Ñ€Ð¾Ð±Ð°Ñ†Ð¸Ñ Ð½Ð° реальных данных двух типов. 3. Ðнализ результатов. Ð’ процеÑÑе работы были проведены чиÑленные ÑкÑперименты, показывающие наглÑдно, каким образом параметры алгоритмов влиÑÑŽÑ‚ на ÑффективноÑть выÑÐ²Ð»ÐµÐ½Ð¸Ñ Ð²Ñ‹Ð±Ñ€Ð¾Ñов. Оригинальные коды, реализующие алгоритмы, были разработаны в Ñреде Google Colab Ñ Ð¸Ñпользованием Ñзыка Ð¿Ñ€Ð¾Ð³Ñ€Ð°Ð¼Ð¼Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Python. Реальные наборы данных были взÑты из открытых иÑточников. Был проведен Ñравнительный анализ работы трех алгоритмов Ð¾Ð±Ð½Ð°Ñ€ÑƒÐ¶ÐµÐ½Ð¸Ñ Ð²Ñ‹Ð±Ñ€Ð¾Ñов, оÑнованный на результатах, полученных при проведении чиÑленных ÑкÑпериментов. Разработаны методологичеÑкие рекомендации по иÑпользованию алгоритмов Ð´Ð»Ñ Ð²Ñ‹ÑÐ²Ð»ÐµÐ½Ð¸Ñ Ð²Ñ‹Ð±Ñ€Ð¾Ñов в многомерных данных. Ðа оÑновании проведенных иÑÑледований на реальных данных были Ñделаны выводы о возможноÑти Ñффективного Ð¿Ñ€Ð¸Ð¼ÐµÐ½ÐµÐ½Ð¸Ñ 5 алгоритмов при анализе многомерных данных различного типа. ИÑÑледованиÑ, проведенные на реальных данных Ñ Ð¿Ñ€Ð¸Ð¼ÐµÐ½ÐµÐ½Ð¸ÐµÐ¼ SV-алгоритмов, продемонÑтрировали возможноÑть поÑÑ‚Ñ€Ð¾ÐµÐ½Ð¸Ñ Ñффективной SV-машины Ð´Ð»Ñ Ð¾Ð±Ð½Ð°Ñ€ÑƒÐ¶ÐµÐ½Ð¸Ñ Ð²Ñ‹Ð±Ñ€Ð¾Ñов по тренировочным данным Ñ Ð¿Ð¾Ñледующим применением ее Ð´Ð»Ñ Ð¾Ð±Ð½Ð°Ñ€ÑƒÐ¶ÐµÐ½Ð¸Ñ Ð²Ñ‹Ð±Ñ€Ð¾Ñов в новых данных той же природы.
This work examines methods for detecting outliers in multidimensional data. The main focus is on algorithms based on the SV approach – SVC and OneClass SVM. A comparison of the performance of these algorithms with the results of the method based on the Mahalanobis distance is presented. The tasks addressed during the research are: 1. Study of the selected outlier detection algorithms and their implementation. 2. Testing the implementation on model data and its validation on two types of real data. 3. Analysis of the results. Experiments were conducted in the paper to visually demonstrate how the parameters of the algorithms affect the efficiency of outlier detection. The analysis of the methods was carried out using software equipped with the necessary statistical functions and methods. The original codes implementing the algorithms were developed in the Google Colab environment using the Python programming language. Real datasets were sourced from open access. A comparative analysis of the performance of the three outlier detection algorithms was carried out based on the results obtained from numerical experiments. Methodological recommendations for using the algorithms to detect outliers in multidimensional data were developed. Based on the research conducted on real data, conclusions were drawn about the possibility of effectively applying the algorithms when analyzing multidimensional data of various natures.
test set, ÑаÑÑÑоÑние ÐÐ°Ñ Ð°Ð»Ð°Ð½Ð¾Ð±Ð¸Ñа, SVC, outliers, опоÑнÑе векÑоÑÑ, вÑбÑоÑÑ Ð² многомеÑнÑÑ Ð´Ð°Ð½Ð½ÑÑ, ÑеÑÑÐ¾Ð²Ð°Ñ Ð²ÑбоÑка, Mahalanobis distance, training set, OneClass SVM, ÑÑениÑовоÑÐ½Ð°Ñ Ð²ÑбоÑка
test set, ÑаÑÑÑоÑние ÐÐ°Ñ Ð°Ð»Ð°Ð½Ð¾Ð±Ð¸Ñа, SVC, outliers, опоÑнÑе векÑоÑÑ, вÑбÑоÑÑ Ð² многомеÑнÑÑ Ð´Ð°Ð½Ð½ÑÑ, ÑеÑÑÐ¾Ð²Ð°Ñ Ð²ÑбоÑка, Mahalanobis distance, training set, OneClass SVM, ÑÑениÑовоÑÐ½Ð°Ñ Ð²ÑбоÑка
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
