
handle: 11693/32157
Yapay öğrenme metodlarının gerçek hayattaki birçok uygulamasında bol miktarda etiketlenmemiş veri bulunmasına karşılık etiketlenmiş veriler pahalı ve/veya sınırlı sayıdadır. Bir etkin öğrenici, etiketleme için yararlı örnekler seçerek mümkün olduğunca az etiketli örnek kullanımı ile yüksek doğrulukta bir model elde etmeyi amaçlamaktadır. Bu tezde havuz tabanlı etkin öğrenme kurgusu için iki yeni metot önerilmektedir: Her adımda bir tane etiketlenmemiş örneği seçerek etiketini sorgulayan (tek-seçimli) ALEVS metodu ve her adımda bir grup etiketlenmemiş örneği seçerek etiketlerini sorgulayan (grup-seçimli) DBALEVS metodu. ALEVS ve DBALEVS metodları örneklerin istatistiksel kaldıraç değerlerini kullanarak en etkili örneği/örnekleri seçer. n x n boyutlu bir K çekirdek matrisinin i-inci satırına ait k-kerte istatistiksel kaldıraç değerleri, kolonları K matrisinin üst-k özdeğer vektörlerinden oluşan U matrisinin i-inci satır düzgesinin karesidir. İstatistiksel kaldıraç değerlerinin etkili satırları seçerek düşük-kerte matris yaklaşıklama algoritmalarında yararlı oldukları gösterilmiştir. ALEVS ve DBALEVS metodları örneklerin önemini ölçmek için havuzdaki örnekler kullanılarak hesaplanmış çekirdek matrisinin istatistiksel kaldıraç değerlerini kullanır. Bunlara ek olarak, DBALEVS her adımda bir altmodüler küme fonksiyonunu maksimize ederek etkili, ama etiketlenmiş örneklere ve birbirlerine benzemeyen örnekleri seçmeye çalışır. Farklı verisetleri üzerinde yapılan deneylerle, ALEVS ve DBALEVS metodlarının karşılaştırılan diğer tek-seçimli ve grup-seçimli metodlara kıyasla data etkili yöntemler olduğu gösterilmiştir.
In many real-world machine learning applications, unlabeled data are abundant whereas the class labels are expensive and/or scarce. An active learner aims to obtain a model with high accuracy with as few labeled instances as possible by effectively selecting useful examples for labeling. We propose two novel active learning approaches for pool-based active learning setting: ALEVS for querying single example at each iteration and DBALEVS for querying a batch of examples. ALEVS and DBALEVS select the most influential instance(s) based on statistical leverages scores of examples. The rank-k statistical leverage score of i-th row of an n x n kernel matrix K is the squared norm of the i-th row of the matrix U whose columns are the top-k eigenvectors of K. Statistical leverage scores are shown to be useful in matrix approximation algorithms in finding influential rows of a matrix. ALEVS and DBALEVS assess the influence of the examples by the statistical leverage scores of kernel matrix computed on the examples of the pool. Additionally, through maximizing a submodular set function at each iteration DBALEVS selects a diverse a set of examples that are highly influential but are dissimilar to selected labeled set. Extensive experiments on diverse datasets show that the proposed methods, ALEVS and DBALEVS offer more effective strategies in comparison to other single and batch mode active learning approaches, respectively.
76
Machine Learning, Kernel Methods, Statistical Leverage Scores, Active Learning, Binary Classification, Computer Engineering and Computer Science and Control, 004, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Machine Learning, Kernel Methods, Statistical Leverage Scores, Active Learning, Binary Classification, Computer Engineering and Computer Science and Control, 004, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
