Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Интернет-журнал Наук...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Алгоритм распознавания веб-страницы, оценивающий когерентность размещенного на ней текста

Алгоритм распознавания веб-страницы, оценивающий когерентность размещенного на ней текста

Abstract

В настоящей статье приводится описание алгоритма распознавания веб-страницы, оценивающего когерентность размещенного на ней текста. В статье обосновывается актуальность разработки такого алгоритма, раскрывается содержание основных процедур, приводятся практические результаты распознавания веб-страниц тестовой выборки. Работа алгоритма строится на представлении объекта распознавания его математической моделью: в виде набора параметров текста веб-страницы, статистический анализ которых позволяет количественно оценить свойство когерентности текста и определить классовую принадлежность рассматриваемой веб-страницы. Алгоритм предполагает последовательную реализацию двух этапов: этапа обучения классификаторов и этапа распознавания веб-страницы с помощью обученных классификаторов. В целях диверсификации риска ошибочного принятия решения в результате распознавания веб-страницы только одним обученным классификатором, классификация объекта распознавания в предлагаемом алгоритме осуществляется тремя классификаторами разного типа. Итоговое решение о классовой принадлежности объекта выносится на основе частных решений классификаторов по мажоритарному способу. Основываясь на практических результатах исследования и наборе достоинств, которыми обладает алгоритм, авторы делают вывод о его пригодности для решения задач, связанных с разработкой эффективных систем автоматического поиска сетевой информации, способных устойчиво работать в условиях изменения элементов оформления текста на веб-страницах информационных порталов.

This paper describes web-page recognition algorithm estimating text coherence. It grounds actuality of algorithm design, describes main procedures and shows test results of web-page recognition. The algorithm uses mathematical model of the object recognition. The mathematical model of the object recognition is a set of web-page text parameters used for the text coherence estimating and web-page classification. The algorithm is made up of two consecutive stages. The first stage is the training classifiers. The second one is the web-page recognition by means of trained classifiers. The algorithm uses three different classifiers for risk diversification of wrong make-decision. The final decision is adopted by majority voted system. With the results of survey the authors draw a conclusion that the described algorithm may be implemented in the up-to-date systems aimed at gathering text information in Internet. It is noted that the described algorithm keeps its workability even through changing of web-page design.

Keywords

ВЕБ-СТРАНИЦА, РАСПОЗНАВАНИЕ, МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ, ПАРАМЕТРЫ ТЕКСТА, КОГЕРЕНТНОСТЬ, МАЖОРИТАРНЫЙ СПОСОБ ПРИНЯТИЯ РЕШЕНИЯ, ДИВЕРСИФИКАЦИЯ РИСКА

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
gold