
El agrupamiento de datos con programas automáticos como k-means ha sido una técnica popular ampliamente utilizada en muchas aplicaciones generales. En este documento se estudian dos subactividad interesantes del proceso de agrupación, la selección del número de grupos y el análisis del resultado de la agrupación de datos. Esta investigación tiene como objetivo estudiar la validación del agrupamiento para encontrar el número apropiado de agrupamientos para el método k-means. Las características de los datos experimentales tienen 3 formas y cada forma tiene 4 conjuntos de datos (100 ítems), cuya difusión se logra aplicando una distribución gaussiana (distribución normal). Esta investigación utilizó dos técnicas para la validación del agrupamiento: Silueta y Suma de Errores al Cuadrado (SSE). La investigación muestra resultados comparativos sobre la configuración de agrupamiento de datos k de 2 a 10. Los resultados tanto de Silhouette como de SSE son consistentes en el sentido de que Silhouette y SSE presentan un número apropiado de grupos en el mismo valor k (valor de Silhouette: promedio máximo, valor de SSE: punto de rodilla).
Le clustering de données avec un programme automatique tel que k-means a été une technique populaire largement utilisée dans de nombreuses applications générales. Deux sous-activités intéressantes du processus de clustering sont étudiées dans cet article, la sélection du nombre de clusters et l'analyse du résultat du clustering des données. Cette recherche vise à étudier la validation du clustering pour trouver le nombre approprié de clusters pour la méthode des k-means. Les caractéristiques des données expérimentales ont 3 formes et chaque forme a 4 ensembles de données (100 éléments), dont la diffusion est obtenue en appliquant une distribution gaussienne (distribution normale). Cette recherche a utilisé deux techniques de validation de clustering : la Silhouette et la Somme des Erreurs Carrées (SSE). La recherche montre des résultats comparatifs sur la configuration de regroupement de données k de 2 à 10. Les résultats de Silhouette et de SSE sont cohérents en ce sens que Silhouette et SSE présentent un nombre approprié de grappes à la même valeur k (valeur de Silhouette : moyenne maximale, valeur de SSE : point de genou).
The data clustering with automatic program such as k-means has been a popular technique widely used in many general applications. Two interesting sub-activity of clustering process are studied in this paper, selection the number of clusters and analysis the result of data clustering. This research aims at studying the clustering validation to find appropriate number of clusters for k-means method. The characteristics of experimental data have 3 shapes and each shape have 4 datasets (100 items), which diffusion is achieved by applying a Gaussian distributed (normal distribution). This research used two techniques for clustering validation: Silhouette and Sum of Squared Errors (SSE). The research shows comparative results on data clustering configuration k from 2 to 10. The results of both Silhouette and SSE are consistent in the sense that Silhouette and SSE present appropriate number of clusters at the same k-value (Silhouette value: maximum average, SSE-value: knee point).
كان تجميع البيانات مع البرنامج التلقائي مثل k - means تقنية شائعة الاستخدام على نطاق واسع في العديد من التطبيقات العامة. تمت دراسة نشاطين فرعيين مثيرين للاهتمام لعملية التجميع في هذه الورقة، واختيار عدد المجموعات وتحليل نتيجة تجميع البيانات. يهدف هذا البحث إلى دراسة التحقق من صحة التجميع العنقودي للعثور على العدد المناسب من المجموعات لطريقة k - means. تحتوي خصائص البيانات التجريبية على 3 أشكال ولكل شكل 4 مجموعات بيانات (100 عنصر)، ويتحقق الانتشار من خلال تطبيق توزيع غاوسي (التوزيع الطبيعي). استخدم هذا البحث تقنيتين لتجميع التحقق من الصحة: الصورة الظلية ومجموع الأخطاء المربعة (SSE). يُظهر البحث نتائج مقارنة حول تكوين تجميع البيانات k من 2 إلى 10. نتائج كل من Silhouette و SSE متسقة بمعنى أن Silhouette و SSE يقدمان عددًا مناسبًا من المجموعات بنفس قيمة k (قيمة Silhouette: الحد الأقصى للمتوسط، قيمة SSE: نقطة الركبة).
FOS: Computer and information sciences, Cluster Validation, Artificial intelligence, Pattern recognition (psychology), Quantum mechanics, Clustering Methods, Cluster analysis, Artificial Intelligence, Data Mining Techniques and Applications, FOS: Mathematics, CURE data clustering algorithm, Data mining, Data Clustering Techniques and Algorithms, Mixture model, Single-linkage clustering, Physics, K-Means Clustering, Correlation clustering, Semi-supervised Clustering, Computer science, Silhouette, Computer Science, Physical Sciences, Gaussian, Determining the number of clusters in a data set, Data Mining in Various Applications, Stream Data Clustering, Mathematics, Information Systems
FOS: Computer and information sciences, Cluster Validation, Artificial intelligence, Pattern recognition (psychology), Quantum mechanics, Clustering Methods, Cluster analysis, Artificial Intelligence, Data Mining Techniques and Applications, FOS: Mathematics, CURE data clustering algorithm, Data mining, Data Clustering Techniques and Algorithms, Mixture model, Single-linkage clustering, Physics, K-Means Clustering, Correlation clustering, Semi-supervised Clustering, Computer science, Silhouette, Computer Science, Physical Sciences, Gaussian, Determining the number of clusters in a data set, Data Mining in Various Applications, Stream Data Clustering, Mathematics, Information Systems
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 91 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 1% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Top 10% | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
