Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ UPCommons. Portal de...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
versions View all 3 versions
addClaim

Aplicación de técnicas de data science para la detección de ofertas de empleo falsas en Internet

Authors: Mendoza Blanco, Alberto;

Aplicación de técnicas de data science para la detección de ofertas de empleo falsas en Internet

Abstract

En la actualidad, una de las herramientas más utilizadas por las empresas son los softwares ATS. Estos softwares facilitan la implementación de tareas monótonas o con gran posibilidad de error humano. Aun así, estos softwares están en el punto de mira de muchos estafadores que publican ofertas de trabajo fraudulentas para sus propios beneficios. Para intentar solucionar el problema, en este proyecto se plantea crear un modelo predictivo que permita detectar anuncios de trabajo fraudulentos en internet. Para ello, se seguirá la metodología CRISP-DM, la cual proporciona una descripción del ciclo de vida de este tipo de proyectos. Durante el proyecto, se seguirán cada una de las fases de la metodología CRISP-DM. En primer lugar, se entenderá el conjunto de datos utilizados, analizando cada una de las variables tanto individualmente como en conjunto. En esta fase se observan los diferentes tipos de variables presentes, las variables textuales y no textuales. Una vez entendidos los datos, se ha realizado el procesado para que el conjunto de datos pueda ser utilizado por el modelo de regresión logística. Para obtener un modelo capaz de realizar buenas predicciones, se han realizado una serie de pruebas. En primer lugar, con el fin de buscar que combinación de variables ofrecía mejores resultados, se han realizado pruebas con los diferentes tipos de variables del conjunto de datos original, obteniendo unas mejores predicciones con un conjunto de datos con todos los tipos de variables. En segundo lugar, al trabajar con un conjunto de datos desequilibrados, se ha planteado probar si aplicar oversampling ofrecía una mejora en los resultados, donde los resultados obtenidos favorecían al conjunto de datos equilibrado. En tercer lugar, para encontrar la proporción de oversampling que obtiene mejores resultados, se ha analizado como se comportaba el modelo para diferentes proporciones y diferentes tamaños máximos de vocabulario, obteniendo muy buenos resultados con proporciones que favorecían la clase mayoritaria y tamaños máximos de vocabulario elevados. Para acabar, se ha analizado el conjunto de datos escogido durante las pruebas para obtener los mejores resultados de este. Durante este análisis se ha visto como el modelo varía sus resultados al cambiar el valor de confianza utilizado por el modelo. Por otra parte, con el fin de reducir variables y que el modelo sea más eficiente, se han estudiado los resultados del modelo eliminando los coeficientes con valores prácticamente nulos

Country
Spain
Keywords

Ocupació, Àrees temàtiques de la UPC::Economia i organització d'empreses::Gestió i direcció::Recursos humans, Ocupació, Cerca d' -- Aplicacions web -- Aspectes ètics i morals, Enganys, :Economia i organització d'empreses::Gestió i direcció::Recursos humans [Àrees temàtiques de la UPC], Labor market -- Web applications -- Evaluation -- Mathematical models, Mercat de treball -- Aplicacions web -- Avaluació -- Models matemàtics, Job hunting -- Web applications -- -- Moral and Ethical Aspects, Hoaxes, Cerca d' -- Aplicacions web -- Aspectes ètics i morals

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
    OpenAIRE UsageCounts
    Usage byUsageCounts
    visibility views 48
    download downloads 64
  • 48
    views
    64
    downloads
    Powered byOpenAIRE UsageCounts
Powered by OpenAIRE graph
Found an issue? Give us feedback
visibility
download
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
views
OpenAIRE UsageCountsViews provided by UsageCounts
downloads
OpenAIRE UsageCountsDownloads provided by UsageCounts
0
Average
Average
Average
48
64
Green