Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Recolector de Cienci...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
versions View all 2 versions
addClaim

Procesamiento del lenguaje natural: Desarrollo de aplicaciones para inteligencia competitiva

Authors: Ortuño Lorente, José Manuel;

Procesamiento del lenguaje natural: Desarrollo de aplicaciones para inteligencia competitiva

Abstract

La combinación entre el crecimiento que ha experimentado la red durante los últimos años y los avances en la capacidad de computación de los ordenadores han desembocado en una nueva revolución de la información. Cada día en la red se generan volúmenes enormes de datos de toda clase. La mayor parte de ellos son desaprovechados y almacenados en grandes servidores en espera de la aparición de una forma de aprovecharlos y explotarlos. Dentro de estos datos, encontramos que muchos de ellos son textos con información que podría ser valiosa para multitud de usos, esa es la razón por la cual cada día surgen nuevos métodos para analizar y procesarlos. Al análisis y procesamiento de texto se le conoce como análisis de texto. Una de las tareas que se desarrollan en el análisis de texto es la organización y clasificación de textos. Existen diversas herramientas y técnicas para abordar esta cuestión como las redes neuronales o los árboles de decisión, entre otros, pero en el presente trabajo nos centraremos en una herramienta conocida como clasificador Naïve Bayes. Esta herramienta destaca por su sencillez y los buenos resultados frente a otras técnicas como las mencionadas anteriormente. El objetivo de este trabajo es doble: por una parte, nos centraremos en el desarrollo de una aplicación que nos permita clasificar cualquier tipo de texto del que desconozcamos su categoría en otras categorías conocidas mediante la aplicación del clasificador Naïve Bayes; y por otra parte, iremos más allá desarrollando un crawler que, a partir de una serie de enlaces aportados por el usuario, identifique las URLs que contiene las mismas creando copias del texto plano de las sucesivas páginas para posteriormente clasificarlas. A lo largo del presente trabajo se expondrá todo el marco teórico que envuelve a dichas herramientas con el objetivo de comprender tanto la capacidad que tienen dichas técnicas como las limitaciones que presentan las mismas. Además, exploraremos sus aplicaciones prácticas. Las aplicaciones desarrolladas serán mostradas en profundidad, con una explicación sobre sus características, estructura y código, para posteriormente 5 someterla a pruebas con datos reales, clasificando noticias, la detección de Spam en mensajes de SMS y la obtención de un listado de webs que traten una categoría dada. El objeto de estas pruebas no será otro que el de estudiar el rendimiento de las aplicaciones y su capacidad para hacer clasificaciones correctas.

Keywords

CDU::3 - Ciencias sociales::31 - Demografía. Sociología. Estadística, CDU::6 - Ciencias aplicadas::65 - Gestión y organización. Administración y dirección de empresas. Publicidad. Relaciones públicas. Medios de comunicación de masas, :6 - Ciencias aplicadas::65 - Gestión y organización. Administración y dirección de empresas. Publicidad. Relaciones públicas. Medios de comunicación de masas [CDU], :3 - Ciencias sociales::31 - Demografía. Sociología. Estadística [CDU], crawler, procesamiento de lenguaje natural, clasificación de textos, clasificador Naïve Bayes, Python, scraping

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Green