
Textos abundantemente inseridos em plataformas digitais atualmente podem apresentar similaridades semânticas cuja detecção automática é essencial para aplicações como identificação de plágio e análise de movimentos sociais. No entanto, a detecção de similaridade semântica entre discursos, que podem transmitir ideias análogas usando diferentes construções léxicas e sintáticas, permanece um desafio pouco explorado. Este trabalho tem como objetivo principal comparar abordagens para medir e classificar a similaridade semântica de discursos em textos curtos. Primeiramente, investiga o uso de embeddings tradicionais e contextualizados de componentes estruturais correspondentes dos discursos. Em seguida, explora o uso de modelos de linguagem para medir e classificar as similaridades diretamente nos textos brutos. A eficácia dessas abordagens foi avaliada em experimentos utilizando 3 corpora distintos. Os resultados experimentais demonstram que o uso adequado de prompts no GPT permite obter um desempenho superior ao uso de embeddings de palavras na comparação de componentes do discurso, estabelecendo assim uma base comparativa para futuros estudos nesta área.
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
