Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Radio Electronics, C...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

NATURAL LANGUAGE PROCESSING OF SOCIAL MEDIA TEXT DATA USING BERT AND XGBOOST

NATURAL LANGUAGE PROCESSING OF SOCIAL MEDIA TEXT DATA USING BERT AND XGBOOST

Abstract

Актуальність. Зростання обсягу текстових даних у соціальних мережах вимагає розробки ефективних методів аналізу настроїв, здатних враховувати як лексичні, так і контекстуальні залежності. Традиційні підходи до обробки тексту мають обмеження у розумінні семантичних зв’язків між словами, що впливає на точність класифікації. Інтеграція глибоких нейронних мереж для векторизації тексту з ансамблевими алгоритмами машинного навчання та методами інтерпретації результатів дозволяє покращити якість аналізу настроїв.Метою дослідження є розробка та оцінка нового підходу до класифікації настроїв текстових повідомлень, що поєднує Sentence-BERT для глибокої семантичної векторизації, XGBoost для високоточної класифікації, SHAP для пояснення внеску ознак, sentence embedding similarity для оцінки семантичної подібності та λ-регуляризацію для покращення узагальнюючої здатності моделі. Дослідження спрямоване на аналіз впливу цих методів на якість класифікації, визначення найбільш значущих ознак та оптимізацію параметрів для забезпечення балансу між точністю та інтерпретованістю моделі.Метод. У дослідженні використовується Sentence-BERT для перетворення текстових даних у векторний простір із глибокими семантичними зв’язками. Для класифікації настроїв застосовується XGBoost, який забезпечує високу точність та стабільність навіть на нерівномірно розподілених наборах даних. Для пояснення внеску ознак використано метод SHAP, що дозволяє визначити, які фактори найбільше впливають на прогноз. Додатково використовується sentence embedding similarity для порівняння текстів за семантичною подібністю, а λ-регуляризація оптимізує баланс між узагальненням та точністю моделі.Результати. Запропонований підхід демонструє високу ефективність у задачах класифікації настроїв. Значення ROCAUC підтверджує здатність моделі точно розрізняти класи емоційного забарвлення тексту. Використання SHAP забезпечує інтерпретованість результатів, дозволяючи пояснити вплив кожної ознаки на класифікацію. Sentence embedding similarity підтверджує ефективність Sentence-BERT у виявленні семантично подібних текстів, а λ-регуляризація покращує узагальнюючу здатність моделі.Висновки. Дослідження демонструє наукову новизну через комплексне поєднання Sentence-BERT, XGBoost, SHAP, sentence embedding similarity та λ-регуляризації для покращення точності та інтерпретованості аналізу настроїв. Отримані результати підтверджують ефективність запропонованого підходу, що робить його перспективним для застосування у моніторингу громадської думки, автоматизованій модерації контенту та персоналізованих рекомендаційних системах. Подальші дослідження можуть бути спрямовані на адаптацію моделі до специфічних доменів, розширення джерел текстових даних та вдосконалення методів інтерпретації для покращення довіри до автоматизованого аналізу настроїв

Context The growth of text data in social networks requires the development of effective methods for sentiment analysis that can take into account both lexical and contextual dependencies. Traditional approaches to text processing have limitations in understanding semantic relationships between words, which affects the accuracy of classification. The integration of deep neural networks for text vectorization with ensemble machine learning algorithms and methods for interpreting results allows improving the quality of sentiment analysis.Objective. The aim of the study is to develop and evaluate a new approach to text message sentiment classification that combines Sentence-BERT for deep semantic vectorization, XGBoost for high-accuracy classification, SHAP for explaining the contribution of features, sentence embedding similarity for assessing semantic similarity, and λ-regularization to improve the generalization ability of the model. The study is aimed at analyzing the impact of these methods on the quality of classification, identifying the most significant features and optimizing parameters.Method. The study uses Sentence-BERT to transform text data into a vector space with deep semantic connections. XGBoost is used for sentiment classification, which provides high accuracy and stability even on unevenly distributed datasets. The SHAP method is used to explain the contribution of features, which allows us to determine which factors have the greatest impact on the prediction. Additionally, sentence embedding similarity is used to compare texts.Results. The proposed approach demonstrates high efficiency in mood classification tasks. The ROC-AUC value confirms the ability of the model to accurately distinguish between classes of emotional coloring of the text. The use of SHAP ensures the interpretability of the results, allowing us to explain the influence of each feature on the classification. Sentence embedding similarity confirms the efficiency of Sentence-BERT in detecting semanticallysimilar texts, and λ-regularization improves the generalization ability of the model.Conclusions. The study demonstrates scientific novelty through a comprehensive combination of Sentence-BERT, XGBoost, SHAP, sentence embedding similarity, and λ-regularization to improve the accuracy and interpretability of sentiment analysis. The results obtained confirm the effectiveness of the proposed approach, which makes it promising for application in public opinion monitoring, automated content moderation, and personalized recommendation systems. Further research can be aimed at adapting the model to specific domains and improving interpretation methods.

Keywords

матриця плутанини, нормалізація ознак, Transformers, confusion matrix, Машинне навчання, Machine learning, класифікація текстових даних, feature normalization, Sentence-BERT, text data classification, трансформери

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
gold