
handle: 11285/568007
Debido la necesidad de manejar las grandes cantidades de información que se generan día con día, la Extracción de Información se ha convertido en un área de la computación que ha tomado gran relevancia en los últimos años. En particular, dentro del ámbito de las Bibliotecas Digitales existe información acerca de un documento que es muy importante para la Clasificación, Indexamiento y Búsqueda de Información dentro de éstos; ésta información recibe el nombre de "Metadatos" y permite al usuario de la información obtener rápidamente una idea clara de su contenido. Actualmente existen diferentes esfuerzos para obtener información de documentos digitales, pero son pocos los esfuerzos dirigidos a la extracción de información de documentos en idioma Español, y específicamente sobre los metadatos. El presente trabajo se centra en el diseño y evaluación de heurísticas de Extracción de Información para documentos en Español. Los algoritmos fueron diseñados para la extracción de cuatro metadatos de importancia de un documento digital de tipo investigación: Fecha de creación, Autor, Extracción de palabras clave del Tema y Título del documento. Estos algoritmos utilizan técnicas y herramientas de extracción no muy complicadas que no utilizan técnicas de Inteligencia Artificial y que presentan resultados confiables para su aplicación en el ambiente de producción de bibliotecas digitales. Durante las pruebas de evaluación de desempeño de las heurísticas diseñadas sobre una muestra de documentos en Español e Inglés, se pudo apreciar un rendimiento arriba del 80 % de efectividad y en algunas de ellas alrededor del 90 %. Se pudo observar que las heurísticas se aplican de igual forma a documentos en idioma Inglés con resultados de efectividad muy similares.
Maestro en Ciencias con Especialidad en Tecnología Informática
Area::INGENIERÍA Y TECNOLOGÍA::CIENCIAS TECNOLÓGICAS::TECNOLOGÍA DE LOS ORDENADORES::INFORMÁTICA, Extracción de información, Heurísticas para la extracción de metadatos, Metadatos
Area::INGENIERÍA Y TECNOLOGÍA::CIENCIAS TECNOLÓGICAS::TECNOLOGÍA DE LOS ORDENADORES::INFORMÁTICA, Extracción de información, Heurísticas para la extracción de metadatos, Metadatos
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
