
Σε αυτή την εργασία, γίνεται μια έρευνα στον επιστημονικό χώρο της εξαγωγής συναισθήματος από κοινωνικά δίκτυα μέσω της υλοποίησης του κλασικού αλγορίθμου των Hu & Liu που παρουσιάζεται στο paper “Mining Opinion Features in Customer Reviews”. Συμπεριλαμβανομένου του αλγορίθμου Apriori που είναι ενσωματωμένος ως τμήμα της διαδικασίας, κάθε βήμα του αλγορίθμου αναλύεται λεπτομερώς εστιάζοντας στην λειτουργικότητα του κάθε τμήματος. Όλα τα μέρη της διαδικασίας που αναλύθηκαν σχολιάζονται ξανά, δίνοντας έμφαση στα προβλήματα που παρουσιάστηκαν κατά την υλοποίηση και προτείνοντας λύσεις γι’ αυτά ως μετατροπές και προσθήκες στον αρχικό αλγόριθμο. Επιπλέον δημιουργήθηκε μια διαδικτυακή διεπαφή η οποία επιτρέπει την αλλαγή των τιμών διαφόρων παραμέτρων και βοηθά στην οπτικοποίηση των αποτελεσμάτων και των μετρικών αξιολόγησης. Η αξιολόγηση των αποτελεσμάτων βασιστηκε σε δεδομένα που παρείχαν οι H&L και το SemEval workshop 2014. Εκτός από τις γνωστές μετρικές (recall, precision) που υπολογίστηκαν, προτείνεται και μια νέα μετρική, το Cumulative Distance Discount Gain (CDDG), όπου εκτιμά την ομοιότητα μεταξύ δυο λιστών αποτελεσμάτων σε σειρά κατάταξης. Τέλος γίνεται σχολιασμών των αποτελεσμάτων και των παραμετρικών τιμών, και παρατίθενται σκέψεις για περεταίρω βελτιώσεις και μελλοντική δουλειά.
In this work, an investigation to the aspect based sentiment analysis is performed with the implementation of the classical algorithm of Hu & Liu that’s presented in their paper “Mining Opinion Features in Customer Reviews”. Along with the related Apriori algorithm that’s embedded in the process, each step of the algorithm is explained in detail highlighting on the functionality of each part. Every phase of the process that was earlier explained is discussed again, commenting on the encountered problems and proposing solutions as additions and modifications to the original algorithm. Furthermore a web user interface was developed that allows the customization of several parameters and helps in the visualization of the results and evaluation measures. The evaluation phase is based on the datasets provided by H&L and datasets from the SemEval workshop 2014. Apart the common metrics (recall, precision) used, a new metric was introduced, namely the Cumulative Distance Discount Gain (CDDG) a metric that, measures the similarity between two ranked lists of results. Finally the evaluation results and the preferred configuration parameters are discussed, commenting on various observations and proposing some thoughts for future work.
Sentiment analysis, Algorithm of Hu & Liu, Metrics, Cumulative Distance Discount Gain (CDDG)
Sentiment analysis, Algorithm of Hu & Liu, Metrics, Cumulative Distance Discount Gain (CDDG)
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
