Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Сучасний стан науков...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями

Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями

Abstract

Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання.

Keywords

Engineering economy, TA177.4-185, мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
gold