
Context. The task of clustering – classification without a teacher of data arrays occupies a rather important place in Data Mining. To solve this problem, many approaches have been proposed at the moment, differing from each other in a priori assumptions in the studied and analyzed arrays, in the mathematical apparatus that is the basis of certain methods. The solution of clustering problems is complicated by the large dimension of the vectors of the analyzed observations, their distortion of various types. Objective. The purpose of the work is to introduce a fuzzy clustering procedure that combines the advantages of methods based on the analysis of data distribution densities and their peaks, which are characterized by high speed and can work effectively in conditions of classes that overlapping. Method. The method of fuzzy clustering of data arrays, based on the ideas of analyzing the distribution densities of these data, their peaks, and a confidence fuzzy approach has been introduced. The advantage of the proposed approach is to reduce the time for solving optimization problems related to finding attractors of density functions, since the number of calls to the optimization block is determined not by the volume of the analyzed array, but by the number of density peaks of the same array. Results. The method is quite simple in numerical implementation and is not critical to the choice of the optimization procedure. The experimental results confirm the effectiveness of the proposed approach in clustering problems under the condition of cluster intersection and allow us to recommend the proposed method for practical use in solving problems of automatic clustering of large data volumes. Conclusions. The method is quite simple in numerical implementation and is not critical to the choice of the optimization procedure. The advantage of the proposed approach is to reduce the time for solving optimization problems related to finding attractors of density functions, since the number of calls to the optimization block is determined not by the volume of the analyzed array, but by the number of density peaks of the same array. The method is quite simple in numerical implementation and is not critical to the choice of the optimization procedure. The experimental results confirm the effectiveness of the proposed approach in clustering problems under conditions of overlapping clusters.
Актуальность. Задача кластеризации – классификации без учителя массивов данных занимает достаточно важное место в интеллектуальном анализе данных. Для решения этой задачи на данный момент предложено множество подходов, отличающихся друг от друга априорными предположениями в исследуемых и анализируемых массивах, а так же математическим аппаратом, заключающимся в основе тех или иных методов, однако решение задач кластеризации усложняет большая размерность векторов анализируемых наблюдений, их искаженность разного типа. Цель. Цель работы заключается во внедрении процедуры нечеткой кластеризации, объединяющей преимущества методов, основанных на анализе плотностей распределения данных и их пиков, которые характеризуются высоким быстродействием и может эффективно работать в условиях классов, которые пересекаются. Метод. Введен метод нечеткой кластеризации массивов данных, основанный на идеях анализа плотностей распределения этих данных, их пиков и доверительного нечеткого подхода. Преимуществом предлагаемого подхода является сокращение времени решения оптимизационных задач, связанных с отысканием аттракторов функций плотностей, поскольку количество обращений в блок оптимизации определяется не объемом анализируемого массива, а количеством пиков плотностей этого же массива. Результаты. Метод достаточно прост в численной реализации и не критичен к выбору оптимизационной процедуры. Результаты экспериментов подтверждают эффективность предлагаемого подхода в задачах кластеризации при условии пересечения кластеров и позволяют рекомендовать предложенный метод для использования на практике для решения проблем автоматической кластеризации больших объемов данных. Выводы. Введен метод нечеткой кластеризации массивов данных, основанный на идеях анализа плотностей распределения этих данных, их пиков и доверительного нечеткого подхода. Преимуществом предлагаемого подхода является сокращение времени решения оптимизационных задач, связанных с отысканием аттракторов функций плотностей, поскольку количество обращений в блок оптимизации определяется не объемом анализируемого массива, а количеством пиков плотностей этого же массива. Метод достаточно прост в численной реализации и не критичен к выбору оптимизационной процедуры. Результаты экспериментов подтверждают эффективность предлагаемого подхода в задачах кластеризации в условиях пересекающихся кластеров.
Актуальність. Задача кластеризації – класифікації без вчителя масивів даних займає важливе місце в інтелектуальному аналізі даних. Для вирішення цієї задачі на цей час запропоновано безліч підходів, що відрізняються між собою як апріорними припущеннями що до характеру даних у масивах, що досліджуються та аналізуються, так і математичним апаратом, що полягає в основі тих або інших методів, однак вирішення задач кластеризації ускладнюють велика розмірність векторів спостережень, що аналізуються, їх збуреність та забрудненість різного типу завадами та пропусками, можливою складною формою кластерів, тощо. Мета. Мета роботи полягає у запровадженні процедури нечіткої кластеризації, що об’єднує в собі переваги методів, заснованих на аналізі щільностей розподілу даних та їх піків, характеризуються високою швидкодією та може ефективно працювати за умов перетинних класів. Метод. Введено метод нечіткої кластеризації масивів даних, що базується на ідеях аналізу щільностей розподілу цих даних, їх піків та довірчого нечіткого підходу. Перевагою запропонованого підходу є скорочення часу вирішення оптимізаційних задач, пов’язаних з відшуканням атракторів функцій щільностей, оскільки кількість звернень до блоку оптимізації визначається не обсягом аналізованого масиву, а кількістю піків щільностей цього ж масиву. Результати. Метод є досить простим у чисельній реалізації і не критичним до вибору оптимізаційної процедури. Результати експериментів підтверджують ефективність пропонованого підходу в задачах кластеризації за умов перетинних кластерів та дозволяють рекомендувати запропонований метод для використання на практиці для вирішення проблем автоматичної кластеризації великих даних. Висновки. Введено метод нечіткої кластеризації масивів даних, що базується на ідеях аналізу щільностей розподілу цих даних, їх піків та довірчого нечіткого підходу. Перевагою запропонованого підходу є скорочення часу вирішення оптимізаційних задач, пов’язаних з відшуканням атракторів функцій щільностей, оскільки кількість звернень до блоку оптимізації визначається не обсягом аналізованого масива, а кількістю піків щільностей цього ж масиву. Метод є досить простим у чисельній реалізації і не критичним до вибору оптимізаційної процедури. Результати експериментів підтверджують ефективність запропонованого підходу в задачах кластеризації за умов перетинних кластерів.
нечітка кластеризація, правдоподібна кластеризація, піки щільності розподілу даних., fuzzy clustering, credibilistic clustering, density peak of dataset., нечеткая кластеризация, правдоподобная кластеризация, пики плотности распределения данных.
нечітка кластеризація, правдоподібна кластеризація, піки щільності розподілу даних., fuzzy clustering, credibilistic clustering, density peak of dataset., нечеткая кластеризация, правдоподобная кластеризация, пики плотности распределения данных.
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
