
В настоящей статье приводится описание алгоритма распознавания веб-страницы, оценивающего когерентность размещенного на ней текста. В статье обосновывается актуальность разработки такого алгоритма, раскрывается содержание основных процедур, приводятся практические результаты распознавания веб-страниц тестовой выборки. Работа алгоритма строится на представлении объекта распознавания его математической моделью: в виде набора параметров текста веб-страницы, статистический анализ которых позволяет количественно оценить свойство когерентности текста и определить классовую принадлежность рассматриваемой веб-страницы. Алгоритм предполагает последовательную реализацию двух этапов: этапа обучения классификаторов и этапа распознавания веб-страницы с помощью обученных классификаторов. В целях диверсификации риска ошибочного принятия решения в результате распознавания веб-страницы только одним обученным классификатором, классификация объекта распознавания в предлагаемом алгоритме осуществляется тремя классификаторами разного типа. Итоговое решение о классовой принадлежности объекта выносится на основе частных решений классификаторов по мажоритарному способу. Основываясь на практических результатах исследования и наборе достоинств, которыми обладает алгоритм, авторы делают вывод о его пригодности для решения задач, связанных с разработкой эффективных систем автоматического поиска сетевой информации, способных устойчиво работать в условиях изменения элементов оформления текста на веб-страницах информационных порталов.
This paper describes web-page recognition algorithm estimating text coherence. It grounds actuality of algorithm design, describes main procedures and shows test results of web-page recognition. The algorithm uses mathematical model of the object recognition. The mathematical model of the object recognition is a set of web-page text parameters used for the text coherence estimating and web-page classification. The algorithm is made up of two consecutive stages. The first stage is the training classifiers. The second one is the web-page recognition by means of trained classifiers. The algorithm uses three different classifiers for risk diversification of wrong make-decision. The final decision is adopted by majority voted system. With the results of survey the authors draw a conclusion that the described algorithm may be implemented in the up-to-date systems aimed at gathering text information in Internet. It is noted that the described algorithm keeps its workability even through changing of web-page design.
ВЕБ-СТРАНИЦА, РАСПОЗНАВАНИЕ, МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ, ПАРАМЕТРЫ ТЕКСТА, КОГЕРЕНТНОСТЬ, МАЖОРИТАРНЫЙ СПОСОБ ПРИНЯТИЯ РЕШЕНИЯ, ДИВЕРСИФИКАЦИЯ РИСКА
ВЕБ-СТРАНИЦА, РАСПОЗНАВАНИЕ, МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ, ПАРАМЕТРЫ ТЕКСТА, КОГЕРЕНТНОСТЬ, МАЖОРИТАРНЫЙ СПОСОБ ПРИНЯТИЯ РЕШЕНИЯ, ДИВЕРСИФИКАЦИЯ РИСКА
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
