
handle: 11499/1229
Bu tez çalışması kapsamında günümüzde çok önemli bir konu haline gelenbüyük verinin işlenmesi incelenmiştir. Büyük veriden anlamlı bilgiler çıkarmakgünümüz hem özel sektör hem de kamu alanı için önemli bir konudur. Bu nedenlebirçok kuruluş bu alan için ciddi yatırımlar yapmaktadır. Büyük veri genellikleyapısal olmayan verilerden oluşmaktadır. Yapısal olmayan verilerden anlamlıbilgiler elde etmekte doğal dil işleme yöntemleri kullanılmaktadır. Doğal dil işlemeyöntemlerini kullanarak duygu analizi yapmak birçok alanda önemli avantajlarsağlamaktadır. Bu tez çalışması kapsamında büyük veri işleme araçlarından olanHadoop üzerinde veri madenciliği yöntemleriyle duygu analizi yapılmasıhedeflenmiştir.Veri madenciliği kapsamında metin madenciliği kullanılmıştır. Hadoopüzerinde veri madenciliği yapmak için özelleştirilmiş olan Mahout aracıkullanılmıştır. Mahout makine öğrenmesi algoritmalarının map-reduce formatındayazılmış hallerini içeren bir kütüphanedir. Metin madenciliğinde kullanılan verikümesi için Türkiye'deki 15 günlük gazetenin Twitter 'da paylaşmış olduklarıhaber başlıkları kullanılmıştır. Bu haber başlıkları Türkçe doğal dil işleme içingeliştirilen Zemberek kütüphanesi yardımıyla ön işlemlerden geçirilmiştir. Buhaber başlıkları olumlu veya olumsuz olarak sınıflandırılmıştır. Sınıflandırmaişlemi için Mahout aracıyla birlikte Naive Bayes istatistik tabanlı sınıflandırmaalgoritması kullanılmıştır. Sınıflandırma işleminden önce Naive Bayes algoritmasıiçin eğitim verisi oluşturulmuştur. Eğitim verisi için yaklaşık 105.000 haber başlığı,yazılan bir uygulama yardımıyla kullanıcı tarafından olumlu, olumsuz veya belirsizolarak işaretlenmiştir.Eğitim verisinin bir kısmı algoritmanın eğitilmesi, bir kısmı ise algoritmanıntesti için kullanılmıştır. Naive bayes algoritmasının çalıştırılması için iki farklıHadoop ortamı oluşturulmuş. Bu ortamlar tek node'luk Hadoop sistemi ve 4node'luk Hadoop sistemi şeklindedir. Sınıflandırma işlemi her iki ortamdagerçekleştirilmiştir. Sınıflandırma işleminde %80'e yakın başarı elde edilmiştir.
This thesis has investigated the big data which has become very populartopic in recent days. Drawing meaningful information from big data is an importanttopic for both private and public sectors. Thus, many companies have made seriousinvestments. The big data is made of unstructured data. The natural languageprocess methods have been used to obtain meaningful information fromunstructured data. Using the natural language process methods to analyze emotionis bringing important advantages to many fields. His study aimed to analyzeemotion with data mining method by using Hadoop which is a tool for big dataprocessing.The text mining is used within data mining process. The Mahout tool whichis specialized to do data mining on Hadoop is used. Mahout is a library that containsmachine learning algorithms its map-reduce formats. The data set used for the textmining has been drawn from the headlines of 15 Turkish daily newspapers Twitterposts. This headlines has been filtered with Zemberek library developed for naturallanguage process of Turkish. These headlines were classified as positive andnegative. Mahout and Naive Bayes statistical based classification algorithms toolsare used for the classification. The learning data is prepared for the Naive Bayesalgorithm prior to the classification process. More than 105 thousands headlines aredrawn from twitter with a developed software for the learning data and this data ismarked as positive, negative, and uncertain.The part of the learning data has been used for the learning algorithm andthe other part has been used for the testing of the algorithm. The type of Hadoopenvironment was developed in order to run the Naive Bayes algorithm. Theseenvironments were single node Hadoop system and 4-node Hadoop system. Theclassification process has been carried out in the both systems. In the classification,success was achieved close to 80%.
102
Veri Madenciliği, Big Data, Hadoop, Mahout, Sentiment Analysis, Data Mining, Büyük Veri, Duygu Analizi, Computer Engineering and Computer Science and Control, 004, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Veri Madenciliği, Big Data, Hadoop, Mahout, Sentiment Analysis, Data Mining, Büyük Veri, Duygu Analizi, Computer Engineering and Computer Science and Control, 004, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
