
handle: 10784/28656
Le clustering est un défi de recherche axé sur la découverte de connaissances à partir d'échantillons de données dont le but est de construire des partitions de bonne qualité. Dans cet article, il est proposé une approche basée sur LAMDA (Learning Algorithm for Multivariable Data Analysis), dont les caractéristiques les plus importantes sont : a) c'est un algorithme flou non itératif qui peut fonctionner avec des flux de données en ligne, b) il ne nécessite pas le nombre de clusters, c) il peut générer de nouvelles partitions avec des objets qui n'ont pas assez de similitude avec les clusters préexistants (incrémental-learning). Cependant, dans certaines applications, le nombre de partitions créées ne correspond pas au nombre de clusters souhaités, ce qui peut être excessif ou peu pratique pour l'expert. Par conséquent, notre contribution est la formalisation d'une technique de fusion automatique pour mettre à jour la partition de cluster effectuée par LAMDA afin d'améliorer la qualité des clusters, et une nouvelle méthodologie pour calculer le degré d'adéquation marginale qui améliore l'affectation individuelle des clusters. La proposition, appelée LAMDA-RD, est appliquée à plusieurs benchmarks, en comparant les résultats par rapport au LAMDA original et à d'autres algorithmes de clustering, pour évaluer les performances en fonction de différentes métriques. Enfin, LAMDA-RD est validé dans une étude de cas réel liée à l'identification des états de production dans un puits de gas-lift, avec flux de données. Les résultats ont montré que LAMDA-RD atteint une performance concurrentielle par rapport aux autres algorithmes bien connus, en particulier dans les benchmarks et benchmarks déséquilibrés avec un chevauchement d'environ 9%. Dans ces cas, notre algorithme est le meilleur, atteignant un indice Rand (RI) >98%. En outre, il est systématiquement parmi les meilleurs pour toutes les métriques considérées (coefficient de silhouette, modification du coefficient de silhouette, indice WB, coefficient de performance, entre autres) dans toutes les études de cas analysées dans cet article. Enfin, dans l'étude de cas réelle, c'est mieux dans toutes les métriques.
La agrupación en clústeres es un desafío de investigación centrado en descubrir conocimientos a partir de muestras de datos cuyo objetivo es construir particiones de buena calidad. En este trabajo se propone un enfoque basado en LAMDA (Learning Algorithm for Multivariable Data Analysis), cuyas características más importantes son: a) es un algoritmo fuzzy no iterativo que puede trabajar con flujos de datos online, b) no requiere el número de clusters, c) puede generar nuevas particiones con objetos que no tienen suficiente similitud con los clusters preexistentes (incremental-learning). Sin embargo, en algunas aplicaciones, el número de particiones creadas no se corresponde con el número de clústeres deseados, lo que puede ser excesivo o poco práctico para el experto. Por lo tanto, nuestra contribución es la formalización de una técnica de fusión automática para actualizar la partición de clústeres realizada por LAMDA para mejorar la calidad de los clústeres, y una nueva metodología para calcular el Grado de Adecuación Marginal que mejora la asignación de clústeres individuales. La propuesta, llamada LAMDA-RD, se aplica a varios puntos de referencia, comparando los resultados con el LAMDA original y otros algoritmos de agrupamiento, para evaluar el rendimiento en función de diferentes métricas. Finalmente, LAMDA-RD se valida en un estudio de caso real relacionado con la identificación de estados de producción en un pozo de gas-lift, con flujo de datos. Los resultados han demostrado que LAMDA-RD logra un rendimiento competitivo con respecto a los otros algoritmos conocidos, especialmente en benchmarks desequilibrados y benchmarks con una superposición de alrededor del 9%. En estos casos, nuestro algoritmo es el mejor, alcanzando un Índice Rand (RI) >98%. Además, se encuentra consistentemente entre los mejores para todas las métricas consideradas (coeficiente de silueta, modificación del coeficiente de silueta, índice WB, coeficiente de rendimiento, entre otros) en todos los estudios de caso analizados en este documento. Finalmente, en el estudio de caso real, es mejor en todas las métricas.
Clustering is a research challenge focused on discovering knowledge from data samples whose goal is to build good quality partitions. In this paper is proposed an approach based on LAMDA (Learning Algorithm for Multivariable Data Analysis), whose most important features are: a) it is a non-iterative fuzzy algorithm that can work with online data streams, b) it does not require the number of clusters, c) it can generate new partitions with objects that do not have enough similarity with the preexisting clusters (incremental-learning). However, in some applications, the number of created partitions does not correspond with the number of desired clusters, which can be excessive or impractical for the expert. Therefore, our contribution is the formalization of an automatic merge technique to update the cluster partition performed by LAMDA to improve the quality of the clusters, and a new methodology to compute the Marginal Adequacy Degree that enhances the individual-cluster assignment. The proposal, called LAMDA-RD, is applied to several benchmarks, comparing the results against the original LAMDA and other clustering algorithms, to evaluate the performance based on different metrics. Finally, LAMDA-RD is validated in a real case study related to the identification of production states in a gas-lift well, with data stream. The results have shown that LAMDA-RD achieves a competitive performance with respect to the other well-known algorithms, especially in unbalanced benchmarks and benchmarks with an overlapping of around 9%. In these cases, our algorithm is the best, reaching a Rand Index (RI) >98%. Besides, it is consistently among the best for all metrics considered (Silhouette coefficient, modification of the Silhouette coefficient, WB-index, Performance Coefficient, among others) in all case studies analyzed in this paper. Finally, in the real case study, it is better in all the metrics.
يمثل التجميع العنقودي تحديًا بحثيًا يركز على اكتشاف المعرفة من عينات البيانات التي تهدف إلى بناء أقسام عالية الجودة. يُقترح في هذه الورقة نهج يعتمد على LAMDA (خوارزمية التعلم لتحليل البيانات متعددة المتغيرات)، وأهم ميزاته هي: أ) إنها خوارزمية غامضة غير أصلية يمكن أن تعمل مع تدفقات البيانات عبر الإنترنت، ب) لا تتطلب عدد المجموعات، ج) يمكنها إنشاء أقسام جديدة مع كائنات ليس لها تشابه كافٍ مع المجموعات الموجودة مسبقًا (التعلم التزايدي). ومع ذلك، في بعض التطبيقات، لا يتوافق عدد الأقسام التي تم إنشاؤها مع عدد المجموعات المطلوبة، والتي يمكن أن تكون مفرطة أو غير عملية للخبير. لذلك، فإن مساهمتنا هي إضفاء الطابع الرسمي على تقنية الدمج التلقائي لتحديث قسم الكتلة الذي تقوم به لمضة لتحسين جودة المجموعات، ومنهجية جديدة لحساب درجة الكفاية الحدية التي تعزز تعيين المجموعة الفردية. يتم تطبيق الاقتراح، المسمى LAMDA - RD، على العديد من المعايير، ومقارنة النتائج مع خوارزميات LAMDA الأصلية وخوارزميات التجميع الأخرى، لتقييم الأداء بناءً على مقاييس مختلفة. أخيرًا، يتم التحقق من صحة LAMDA - RD في دراسة حالة حقيقية تتعلق بتحديد حالات الإنتاج في بئر رفع الغاز، مع تدفق البيانات. أظهرت النتائج أن LAMDA - RD تحقق أداءً تنافسيًا فيما يتعلق بالخوارزميات الأخرى المعروفة، خاصة في المعايير والمقاييس غير المتوازنة مع تداخل حوالي 9 ٪. في هذه الحالات، تكون خوارزميتنا هي الأفضل، حيث تصل إلى مؤشر راند (RI) >98 ٪. إلى جانب ذلك، فهي دائمًا من بين الأفضل لجميع المقاييس التي يتم النظر فيها (معامل الصورة الظلية، وتعديل معامل الصورة الظلية، ومؤشر البنك الدولي، ومعامل الأداء، من بين أمور أخرى) في جميع دراسات الحالة التي تم تحليلها في هذه الورقة. أخيرًا، في دراسة الحالة الحقيقية، يكون أفضل في جميع المقاييس.
Cluster Validation, Artificial intelligence, Clustering algorithms, Data analysis, unsupervised learning, Unsupervised learning, Anomaly Detection in High-Dimensional Data, Fuzzy Clustering, Cluster analysis, Artificial Intelligence, Document Clustering, Machine learning, FOS: Mathematics, Proposals, Information retrieval, Adaptation to Concept Drift in Data Streams, Data mining, Data Clustering Techniques and Algorithms, Benchmark testing, Fuzzy clustering, Production, Automatic merging, Partition (number theory), Semi-supervised Clustering, Computer science, Partitioning algorithms, TK1-9971, Fuzzy logic, Combinatorics, Computer Science, Physical Sciences, LAMDA, Merge (version control), Electrical engineering. Electronics. Nuclear engineering, Stream Data Clustering, Mathematics, clustering
Cluster Validation, Artificial intelligence, Clustering algorithms, Data analysis, unsupervised learning, Unsupervised learning, Anomaly Detection in High-Dimensional Data, Fuzzy Clustering, Cluster analysis, Artificial Intelligence, Document Clustering, Machine learning, FOS: Mathematics, Proposals, Information retrieval, Adaptation to Concept Drift in Data Streams, Data mining, Data Clustering Techniques and Algorithms, Benchmark testing, Fuzzy clustering, Production, Automatic merging, Partition (number theory), Semi-supervised Clustering, Computer science, Partitioning algorithms, TK1-9971, Fuzzy logic, Combinatorics, Computer Science, Physical Sciences, LAMDA, Merge (version control), Electrical engineering. Electronics. Nuclear engineering, Stream Data Clustering, Mathematics, clustering
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 13 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 10% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Top 10% | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Top 10% |
