Herramienta para la generación inteligente de diccionarios de contraseñas

Este trabajo se centra en el diseño e implementación de una herramienta que aprovecha modelos de lenguaje de gran escala (LLM) para generar diccionarios de contraseñas personalizados. La motivación principal surge del hecho ampliamente documentado de que la mayoría de los usuarios reutiliza datos personales en sus contraseñas —como nombres, fechas o lugares significativos—, lo que las vuelve predecibles y vulnerables ante ataques automatizados. A partir de un conjunto heterogéneo de archivos reales (documentos, imágenes, audios, etc.), el sistema desarrollado extrae automáticamente información sensible mediante técnicas de OCR, transcripción de voz, análisis semántico y filtrado por metadatos. Posteriormente, se aplican estrategias de generación guiada con LLM para producir múltiples variantes plausibles de contraseñas relacionadas con el usuario. Las pruebas se realizaron sobre tres escenarios de complejidad creciente, midiendo tanto la precisión de las respuestas como el rendimiento del sistema. Los resultados confirman que, con prompting adecuado y un tratamiento robusto de los documentos, es posible generar diccionarios de alta calidad que simulan los patrones reales de creación de contraseñas. Esta herramienta puede tener aplicación en auditorías de seguridad, recuperación forense y tareas de concienciación sobre la debilidad de contraseñas personales.

This work presents the design and implementation of a tool that leverages large language models (LLMs) to generate personalized password dictionaries. The motivation stems from the well-documented fact that most users incorporate personal information —such as names, birthdates or places— into their passwords, making them predictable and vulnerable to automated attacks. Using a heterogeneous set of real-world files (documents, images, audio recordings, etc.), the developed system automatically extracts sensitive user information through OCR, speech transcription, semantic analysis and metadata filtering. Guided LLM-based generation strategies are then applied to produce multiple plausible password variants associated with the user. Testing was conducted across three scenarios of increasing complexity, evaluating both system performance and response accuracy. The results confirm that, with proper prompting and robust document processing, it is possible to generate high-quality dictionaries that reflect realistic password creation patterns. This tool may be used in security audits, forensic recovery, and user awareness regarding the risks of predictable passwords.

Grado en Ingeniería de Computadores

Country

Spain

Related Organizations

University of Alcalá
Spain

Keywords

Ciberseguridad, Intelligent dictionary, Informática, Diccionario inteligente, Cybersecurity, Procesamiento de lenguaje natural, Natural language processing, Informática forense, Contraseñas, Passwords, Computer science, Forensic computing

Impact byBIP!

	selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	0
	popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.	Average
	influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	Average
	impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.	Average

Found an issue? Give us feedback

0

Average

Green

Related to Research communities

Digital Humanities and Cultural Heritage