Powered by OpenAIRE graph
Found an issue? Give us feedback
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Оценка качества Ñ‚ÐµÑ Ð½Ð¸Ñ‡ÐµÑÐºÐ¾Ð¹ документации с помощью машинного обучения

выпускная квалификационная работа магистра

Оценка качества Ñ‚ÐµÑ Ð½Ð¸Ñ‡ÐµÑÐºÐ¾Ð¹ документации с помощью машинного обучения

Abstract

условиях растущего сетевого мира доступность высококачественных переводов имеет решающее значение для успеха в условиях растущей международной конкуренции. Массовые компании по всему миру, а также компании среднего размера обязаны предоставлять своим клиентам качественную техническую документацию с хорошим переводом не только для того, чтобы добиться успеха на рынке, но и для соблюдения правовых норм и избежания судебных исков. Таким образом, этот тезис посвящен оценке качества перевода, в частности технической документации, и отвечает на два основных вопроса: Как рассчитать качество перевода технических документов, если имеется оригинальный документ? Как можно оценить качество перевода технических документов, если исходный документ недоступен? Для ответа на эти вопросы используются самые современные алгоритмы машинного обучения и метрики оценки перевода в контексте процесса обнаружения знаний. Оценки выполняются на уровне предложений и рекомбинируются на уровне документов путем двоичной классификации предложений как компьютерного перевода и специализированного перевода. Исследование основано на базе данных, включающей 22 327 предложений и 32 атрибута оценки перевода, которые используются для оптимизации пяти различных подходов машинного обучения. Метод оптимизации, состоящий из 795 000 оценок, показывает точность расчета до 72,24% для двоичной классификации. На основе установленных систем классификации на основе предложений документы классифицируются с использованием рекомбинации связанных предложений, и устанавливается фон для оценки качества документов. Следовательно, принятый подход абсолютно создает подход категоризации и оценки.

In the context of an increasingly networked world, the availability of highquality translations is critical for success in the context of the growing international competition. Massive worldwide companies as well as medium sized companies are required to provide well translated, high quality technical documentation for their customers not only to be successful in the market but also to meet legal regulations and to avoid lawsuits. Therefore, this thesis focuses on the evaluation of translation quality, specifically regarding technical documents, and answers two central questions: How can the translation quality of technical documents be calculated, given the original document is available? How can the translation quality of technical documents be assessed, given the original document is not available? These questions are answered using state-of-the-art machine learning algorithms and translation evaluation metrics in the context of a knowledge discovery process. The evaluations are done on a sentence level and recombined on a document level by binarily categorizing sentences as computerized translation and specialized translation. The research is based on a database including 22,327 sentences and 32 translation evaluation attributes, which are used for optimizations of five different machine learning approaches. An optimization method consisting of 795,000 evaluations shows a calculation accuracy of up to 72.24% for the binary classification. Based on the established sentence-based classification systems, documents are classified using recombination of the affiliated sentences and a background for rating document quality is established. Therefore, the taken approach absolutely creates a сategorization and assessment approach.

Keywords

word error rates, машинный перевод, извлечение данныÑ, коэффициент ошибок в словаÑ, RapidMiner, data mining, искусственная нейронная сеть, artificial neural network, machine translation

  • BIP!
    Impact byBIP!
    citations
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
citations
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Upload OA version
Are you the author of this publication? Upload your Open Access version to Zenodo!
It’s fast and easy, just two clicks!