
Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання.
Engineering economy, TA177.4-185, мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.
Engineering economy, TA177.4-185, мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
