
handle: 10773/43000
Têm sido desenvolvidos vários métodos de agrupamento para dados contínuos multivariados. Contudo, tais métodos são frequentemente aplicados para analisar e agrupar dados ordinais como se estes possuíssem propriedades métricas, ignorando assim a sua natureza ordinal. O presente estudo centra-se em métodos de agrupamento, baseados em modelos de mistura gaussiana finita e parametrizada, que utilizam algoritmos EM (Expectation-Maximization) para identificar os grupos. Utilizando vários conjuntos de dados selecionados, a capacidade de recuperação daqueles métodos de agrupamento é investigada quando a escala dos dados, se não for originalmente ordinal, é alterada da escala quantitativa de razão para uma escala ordinal. A abordagem de verosimilhança dois a dois, desenvolvida por Ranalli e Rocci (2016), foi considerada para estimar os parâmetros do modelo de mistura, no método de agrupamento do algoritmo EM de dados ordinais. Na base deste método consideram-se variáveis respostas subjacentes (tomando assim uma abordagem conhecida por URV, Underlying Response Variable), no sentido que se assume que as variáveis ordinais observadas são geradas por uma discretização de variáveis normais multivariadas latentes. Neste trabalho, foi aplicada uma extensão da abordagem URV para clustering, considerando uma mistura de distribuições normais multivariadas. O algoritmo EM dois a dois foi comparado com um método de agrupamento baseado em modelos (tendo por base o algoritmo EM na sua versão padrão), e implementado na função Mclust do software R. Quando os dados são originalmente ordinais, o modelo probit ordinal foi utilizado para gerar os dados contínuos subjacentes (latentes), que se assumem serem normalmente distribuídos, antes de aplicar o método URV. Foram considerados três conjuntos de dados: O primeiro é o conjunto de dados Iris com 150 observações e 4 variáveis numéricas. O segundo trata-se de um conjunto de dados públicos sobre saúde materna com 1014 observações que inclui 7 variáveis, sendo 6 contínuas e 1 ordinal. O terceiro conjunto de dados é sobre o risco de demência entre doentes com VIH/SIDA, o qual consiste de 255 observações descritas por 4 variáveis ordinais. As variáveis contínuas dos dados da Iris e do risco para a saúde materna foram discretizadas para serem analisadas como dados ordinais. Uma vez que a mistura latente subjacente é conhecida, os limiares utilizados para a discretização das variáveis latentes, no algoritmo EM dois a dois, foram os que conduziam à maximização do índice de Rand ajustado (ARI, Adjusted Rand Index). O método URV estendido para clustering permitiu a cobertura da estrutura de clusters dos dados da Íris e dos dados de saúde materna com um ARI de 0,922 e de 0,3, respetivamente. Aplicando o método Mclust também a estes dados, obteve-se um ARI de 0,90 e de 0,15 para os dados da Íris e da saúde materna, respetivamente. Para os dados relativos à demência, foi selecionado um modelo de 4 componentes como o melhor modelo. O método URV estendido para clustering pode recuperar a estrutura dos grupos nos dados, mesmo quando aplicado a dados que não representam completamente os dados originais (devido à discretização). Efetivamente, as três aplicações analisadas mostram que a alteração das escalas de medição de contínua (dados originais) para ordinal (através da discretização) utilizando o método URV, pode melhorar a capacidade de recuperação de métodos de agrupamento baseados em modelos (os quais usam o algoritmo EM no processo de estimação).
Several clustering methods have been developed for continuous multivariate data. However, these methods are often applied to analyse and cluster ordinal data as if they possess metric properties, thereby overlooking their ordinal nature. This study focuses on model-based clustering methods based on parameterized finite Gaussian mixture modeling, which utilize Expectation-Maximization (EM) algorithms to identify clusters. Using several selected datasets, the recovery ability of these types of clustering methods is investigated when the ratio scale of the data, if not originally ordinal, is changed to an ordinal scale. The EM algorithm clustering method for ordinal data considered was the pairwise likelihood approach developed by Ranalli and Rocci (2016). This EM algorithm approach was used to estimate the parameters of the mixture model. For a standard URV (Underlying Response Variable) approach, it is assumed that the ordinal variables are generated by a discretization of underlying multivariate normal variables. In this work, an extension of the URV approach was applied by taking a mixture of multivariate normal distributions. The pairwise EM algorithm was compared with a model-based clustering (EM algorithm) method, the Mclust function, developed in R. When the data is originally ordinal, the probit ordinal model was used in generating the underlying continuous data, which is assumed to be normally distributed, before applying the URV method. Three datasets were considered: The first dataset is the Iris dataset with 150 observations and 4 numerical variables. The second dataset is a public dataset on maternal health with 1014 observations which includes 7 measurements, 6 continuous and 1 ordinal. The third dataset is on the risk of dementia among patients with HIV/AIDS. Consists of 255 observations with 4 ordinal variables. The continuous variables in the Iris and the maternal health risk data were discretized to analyse them as ordinal data. Since the underlying latent mixture is known, the thresholds used for discretization of the latent variables, in the Pairwise EM algorithm, were those that maximized the adjusted rand index (ARI). The URV extension method recovered the cluster structure of the Iris data with an ARI of 0.922 and that of the maternal data with an ARI of 0.3. Applying Mclust on the datasets ARI of 0.90 and 0.15 were obtained for the Iris and maternal health datasets respectively. For the dementia data, a 4-component model was selected as the best model. The URV extension method can recover the cluster structure of the data even when it is applied to incomplete data and also to data that do not completely represent the original data (due to discretization). The three applications show that changing measurement scales from continuous (original data) to ordinal (via discretization) using the URV method, can enhance the recovery ability of model-based clustering (EM algorithm) methods.
Mestrado em Matemática e Aplicações
URV approach, Ordinal data, EM algorithm, Clustering
URV approach, Ordinal data, EM algorithm, Clustering
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
