Aplicación de técnicas de data science para la detección de ofertas de empleo falsas en Internet

En la actualidad, una de las herramientas más utilizadas por las empresas son los softwares ATS. Estos softwares facilitan la implementación de tareas monótonas o con gran posibilidad de error humano. Aun así, estos softwares están en el punto de mira de muchos estafadores que publican ofertas de trabajo fraudulentas para sus propios beneficios. Para intentar solucionar el problema, en este proyecto se plantea crear un modelo predictivo que permita detectar anuncios de trabajo fraudulentos en internet. Para ello, se seguirá la metodología CRISP-DM, la cual proporciona una descripción del ciclo de vida de este tipo de proyectos. Durante el proyecto, se seguirán cada una de las fases de la metodología CRISP-DM. En primer lugar, se entenderá el conjunto de datos utilizados, analizando cada una de las variables tanto individualmente como en conjunto. En esta fase se observan los diferentes tipos de variables presentes, las variables textuales y no textuales. Una vez entendidos los datos, se ha realizado el procesado para que el conjunto de datos pueda ser utilizado por el modelo de regresión logística. Para obtener un modelo capaz de realizar buenas predicciones, se han realizado una serie de pruebas. En primer lugar, con el fin de buscar que combinación de variables ofrecía mejores resultados, se han realizado pruebas con los diferentes tipos de variables del conjunto de datos original, obteniendo unas mejores predicciones con un conjunto de datos con todos los tipos de variables. En segundo lugar, al trabajar con un conjunto de datos desequilibrados, se ha planteado probar si aplicar oversampling ofrecía una mejora en los resultados, donde los resultados obtenidos favorecían al conjunto de datos equilibrado. En tercer lugar, para encontrar la proporción de oversampling que obtiene mejores resultados, se ha analizado como se comportaba el modelo para diferentes proporciones y diferentes tamaños máximos de vocabulario, obteniendo muy buenos resultados con proporciones que favorecían la clase mayoritaria y tamaños máximos de vocabulario elevados. Para acabar, se ha analizado el conjunto de datos escogido durante las pruebas para obtener los mejores resultados de este. Durante este análisis se ha visto como el modelo varía sus resultados al cambiar el valor de confianza utilizado por el modelo. Por otra parte, con el fin de reducir variables y que el modelo sea más eficiente, se han estudiado los resultados del modelo eliminando los coeficientes con valores prácticamente nulos

Country

Spain

Related Organizations

Keywords

Ocupació, Àrees temàtiques de la UPC::Economia i organització d'empreses::Gestió i direcció::Recursos humans, Ocupació, Cerca d' -- Aplicacions web -- Aspectes ètics i morals, Enganys, :Economia i organització d'empreses::Gestió i direcció::Recursos humans [Àrees temàtiques de la UPC], Labor market -- Web applications -- Evaluation -- Mathematical models, Mercat de treball -- Aplicacions web -- Avaluació -- Models matemàtics, Job hunting -- Web applications -- -- Moral and Ethical Aspects, Hoaxes, Cerca d' -- Aplicacions web -- Aspectes ètics i morals

Impact byBIP!

	selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	0
	popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.	Average
	influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	Average
	impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.	Average