
Web Sayfalarının Sınıflandırılması, her geçen gün daha da önem kazanan bir makine öğrenmesi problemidir. Web sayfalarının kategorize edilmesi, verimli İnternet kullanımı, spam filtreleme ve daha birçok uygulama alanı için faydalı bilgiler sağlamaktadır. Milyonlarca web sitesi arasından kullanıcının aradığı konuyla ilgili sonuçların hızlı bir şekilde bulunması, arama motorları için çözülmesi gereken bir problemdir. Web sayfası sınıflandırma, zararlı içeriğe sahip web sayfalarının kullanıcı tarafından görüntülenmeden önce engellenmesi ile siber güvenlik uygulamaları tarafından da kullanılabilmektedir. Web sayfası sınıflandırması, birçok farklı uygulama alanı için temel oluşturabilecek faydalı bilgiler sağlayan bir Bilgi Çıkarımı (Information Extraction) uygulamasıdır. Bir diğer uygulama alanına ise ağda anomali tespiti için kullanıcının internet kullanım profilinin oluşturulması örnek olarak verilebilir.Bu çalışmada, web sayfalarının sınıflandırılmasına yönelik bir sistem geliştirilmiştir. Geliştirilen sistemde derin öğrenme tabanlı yaklaşımlar test edilmiş ve kullanılmıştır. Web sayfalarının sınıflandırılabilmesi için bir web sayfasının içeriğinde yer alan meta etiketler adı verilen başlık (title), açıklama (description) ve anahtar kelimeler (keywords) gibi metinsel bilgiler kullanılmıştır.Yapılan çalışmanın testleri sırasında Yinelemeli Sinir Ağı (YiSA, Recurrent Neural Networks) tabanlı derin öğrenme mimarisi kullanılmıştır. Bu derin öğrenme mimarisi üzerinde bazı hiperparametre ayarlamaları gerçekleştirilerek performans analizi de yapılmıştır. Ayrıca, geliştirilen sistemde Öğrenme Transferi denenmiştir. Öğrenme Transferi, bir problemi çözmek için önceden eğitilmiş parametreler kullanılarak bir makine öğrenmesi modeli oluşturma yaklaşımına verilen isimdir. Elde edilen sonuçlara göre, Web sayfası sınıflandırma sisteminin başarı oranı yaklaşık %85 olarak elde edilmiştir. Gerçekleştirilen testler, CPU ve GPU üzerinde çalıştırılmış olup, bu iki farklı donanım üzerinde elde edilen çalışma sürelerine ilişkin performans karşılaştırması da ayrıca yapılmıştır.
Classification of Web Pages is a machine learning problem which gets more and more important every day. Categorizing web pages provides useful information for efficient internet use, spam filtering and many other application areas. Finding results quickly from the millions of websites users are looking for is a problem that must be solved for search engines. Web page classification can also be used by cyber security applications by blocking web pages with malicious content before they are displayed by the user.Web page classification is an Information Retrieval application that provides useful information that can be a basis for many different application domains. Another example of application is the creation of an internet usage profile of a user for network anomaly detection.In this study, a system for classifying web pages was developed. Deep learning-based approaches have been tested and used in the developed system. Textual information in the content of the web page is used to classify web pages. For the classification mechanism, the meta tags contained in the web page are used. The meta tags used for classification are title, description, keywords. During the tests, a deep learning architecture based on Recursive Neural Networks (RNN) was used. Performance analysis has been performed by performing some hyperparameter tuning on this deep learning architecture. In addition, Transfer Learning has been tested in the developed system. Transfer Learning is the name given to the approach of building a machine learning model using pre-trained parameters to solve a problem.According to the results obtained, the success rate of the web page classification system is about 85%. The tests were run on the CPU and GPU, and the performance comparison of the run times obtained on this two different hardware was made.
130
Computer Engineering and Computer Science and Control, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Computer Engineering and Computer Science and Control, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
