Powered by OpenAIRE graph
Found an issue? Give us feedback
addClaim

Bridging the visual semantic gap in VLN via semantically richer instructions

Authors: Ossandón Stanke, Joaquín;

Bridging the visual semantic gap in VLN via semantically richer instructions

Abstract

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2022 ; La tarea de Visual-and-Language Navigation (VLN) requiere entender complejas instrucciones de texto en lenguaje natural y navegar en un ambiente natural interior usando únicamente información visual. Mientras es una tarea trivial para el humano, sigue siendo un problema abierto para los modelos de inteligencia artificial. En este trabajo, planteamos como hipótesis que el mal uso de la información visual disponible es la razón principal del bajo rendimiento de los modelos actuales. Para apoyar esta hipótesis, presentamos evidencia experimental mostrando que modelos del estado del arte no son totalmente afectados cuando reciben limitada o incluso nula información visual, indicando un fuerte overfitting al texto de las instrucciones. Para fomentar un uso más adecuado de la información visual, proponemos un nuevo método de aumento de datos que fomenta la inclusión de información visual más explícita en la generación de instrucciones de navegación textuales. Nuestra intuición principal es que los conjuntos de datos actuales incluyen instrucciones textuales que tienen como objetivo informar a un navegante experto, como un ser humano, pero no a un agente de navegación visual principiante, como un modelo de deep learning inicializado aleatoriamente. Específicamente, para cerrar la brecha semántica visual de los conjuntos de datos actuales, aprovechamos los metadatos disponibles para el conjunto de datos Matterport3D que, entre otros, incluye información sobre etiquetas de objetos que están presentes en las escenas. Entrenando un modelo actual con el nuevo conjunto de instrucciones generado aumenta su rendimiento en un 8% en cuanto a tasa de éxito en entornos desconocidos, mientras que probar estas nuevas instrucciones en humanos supera a las instrucciones sintéticas disponibles, lo que demuestra las ventajas de la propuesta de aumento de datos.

Country
Chile
Keywords

09 Industry, Vision, 09 Industria, VLN, Procesamiento de imagen, Robótica cognitiva, innovación e infraestructura, Inteligencia artificial, 004, Navegación, Lenguaje, Ciencias de la computación, Aprendizaje de máquina, 006.3, innovation and infrastructure

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Related to Research communities
Upload OA version
Are you the author of this publication? Upload your Open Access version to Zenodo!
It’s fast and easy, just two clicks!