Procedimientos de explotación de información para la identificación de datos faltantes, con ruido e inconsistentes

Doctoral thesis Spanish; Castilian OPEN
Kuna, Horacio Daniel (2014)
  • Publisher: Universidad de Málaga, Servicio de Publicaciones y Divulgación Científica
  • Subject: Outliers | Minería de datos - Tesis doctorales | Auditoría de sistemas

La información es uno de los activos más importantes que tienen las empresas y es necesario garantizar la gobernanza de la tecnología de la información, la calidad de las bases de datos es uno de los elementos fundamentales para lograr esa gobernanza. Un auditor de sistemas dará empleo a muchas técnicas, procesos y herramientas para identificar los datos faltantes, con ruido e inconsistentes en una base de datos, la minería de datos es uno de esos medio a través del cual el auditor puede analizar la información. Dada la enorme cantidad de información que contienen los sistemas software es que los auditores deben emplear procedimientos que automaticen la detección de datos anómalos. Varios algoritmos de minería de datos han sido utilizados en la detección de tuplas consideradas anómalas, el problema es que no se encuentran antecedentes de algoritmos o procedimientos que permitan detectar específicamente dentro de una tupla que campo es el que contiene valores anómalos, siendo esta detección de fundamental importancia en las grandes bases de datos ya que si no es necesario hacer esta tarea en forma manual, requiriendo tiempo y una capacitación especifica por parte del auditor. El objetivo de la tesis es establecer una taxonomía relacionada con los métodos, técnicas y algoritmos de detección de valores anómalos en bases de datos. Y diseñar y validar procedimientos de explotación de información que combinados entre sí permitan detectar los campos que tienen valores atípicos en bases de datos, para mejorar la calidad de los datos. Se detectan tres enfoques diferentes relacionados con la Minería de Datos para detectar datos anómalos, el enfoque no supervisado, el enfoque supervisado y el enfoque semi-supervisado. Esta tesis desarrolla cuatro procedimientos de explotación de información para detectar en forma automática que campo específicamente tiene valores que son considerados anómalos utilizando una metodología hibrida que combina algoritmos de distintos enfoques para realizar la tarea, estos cuatro procedimientos se relacionan con bases de datos numéricas con o sin atributos Target, bases de datos alfanuméricas sin atributo target y bases de datos alfanuméricas con atributos target. Se realizaron pruebas experimentales para validar los resultados utilizando bases de datos de laboratorio y bases de datos reales, demostrándose la eficacia de los procedimientos propuestos. La integración de distintos algoritmos no solo permiten detectar los campos considerados faltantes, con ruido e inconsistentes, sino que minimiza los posibles errores que pueda tener un algoritmo ante tan diversos e inciertos escenarios a los que debe enfrentarse la tarea de un auditor.
Share - Bookmark