A Novel Machine Learning Approach for Android Malware Detection Based on the Co-Existence of Features

descriptionPublicationkeyboard_double_arrow_right Article , Other literature type 01 Jan 2023Publisher:Institute of Electrical and Electronics Engineers (IEEE)Journal:IEEE Access, volume 11, pages 15,471-15,484 (eissn: 2169-3536,

Copyright policy )

Authors: Esraa Odat; Qussai Yaseen;

doi: 10.1109/access.2023.3244656 , 10.60692/qnef0-mxy44 , 10.60692/b0mmm-02h88

A Novel Machine Learning Approach for Android Malware Detection Based on the Co-Existence of Features

- Summary
- Subjects
- Metrics

Abstract

Cet article propose un modèle d'apprentissage automatique basé sur la coexistence de fonctionnalités statiques pour la détection de logiciels malveillants Android. Le modèle proposé suppose que les logiciels malveillants Android demandent un ensemble anormal d'autorisations et d'API coexistantes en comparaison avec ceux demandés par des applications bénignes. Pour prouver cette hypothèse, le document a créé un nouvel ensemble de données d'autorisations et d'appels d'API coexistants à différents niveaux de combinaisons, qui sont le deuxième niveau, le troisième niveau, le quatrième niveau et le cinquième niveau. Les ensembles de données extraits de fonctionnalités coexistantes à différents niveaux ont été appliqués sur les autorisations uniquement, les API uniquement, les autorisations et les API, et les fréquences des API et des API. Pour extraire les caractéristiques coexistantes les plus pertinentes, l'algorithme de croissance fréquente des modèles (FP-growth), qui est une technique d'extraction de règles d'association, a été utilisé. Les nouveaux ensembles de données ont été extraits à l'aide d'échantillons Android APK des ensembles de données Drebin, Malgenome et MalDroid2020. Pour évaluer le modèle proposé, plusieurs algorithmes conventionnels d'apprentissage automatique ont été utilisés. Les résultats montrent que le modèle peut classer avec succès les logiciels malveillants Android avec une grande précision en utilisant des algorithmes d'apprentissage automatique et la coexistence de fonctionnalités. De plus, les résultats montrent que la précision de classification obtenue dépend du classificateur et du type de caractéristiques coexistantes. La précision maximale, qui est de 98 %, a été obtenue à l'aide de l'algorithme Random Forest et de la coexistence de fonctionnalités d'autorisations au deuxième niveau de combinaison. De plus, les résultats montrent que l'approche proposée surpasse le modèle de pointe. En utilisant l'ensemble de données Malgenome, l'approche proposée a atteint une précision d'environ 98 %, tandis que l'état de l'art a atteint une précision d'environ 87 %. En outre, les expériences montrent qu'en utilisant l'ensemble de données Drebin, l'approche proposée a atteint une précision d'environ 95 %, tandis que l'état de l'art a atteint une précision d'environ 93 %.

Este documento propone un modelo de aprendizaje automático basado en la coexistencia de características estáticas para la detección de malware en Android. El modelo propuesto asume que el malware de Android solicita un conjunto anormal de permisos y API coexistentes en comparación con los solicitados por las aplicaciones benignas. Para demostrar esta suposición, el documento creó un nuevo conjunto de datos de permisos coexistentes y llamadas a la API en diferentes niveles de combinaciones, que son el segundo nivel, el tercer nivel, el cuarto nivel y el quinto nivel. Los conjuntos de datos extraídos de características coexistentes en diferentes niveles se aplicaron solo en permisos, solo en API, permisos y API, y API y frecuencias de API. Para extraer las características coexistentes más relevantes, se utilizó el algoritmo de crecimiento de patrones frecuentes (FP-growth), que es una técnica de minería de reglas de asociación. Los nuevos conjuntos de datos se extrajeron utilizando muestras de APK de Android de los conjuntos de datos Drebin, Malgenome y MalDroid2020. Para evaluar el modelo propuesto, se utilizaron varios algoritmos de aprendizaje automático convencionales. Los resultados muestran que el modelo puede clasificar con éxito el malware de Android con una alta precisión utilizando algoritmos de aprendizaje automático y la coexistencia de características. Además, los resultados muestran que la precisión de clasificación alcanzada depende del clasificador y del tipo de características coexistentes. La precisión máxima, que es del 98%, se logró utilizando el algoritmo Random Forest y la coexistencia de funciones de permisos en el segundo nivel de combinación. Además, los resultados muestran que el enfoque propuesto supera al modelo de vanguardia. Utilizando el conjunto de datos del malgenoma, el enfoque propuesto logró una precisión de aproximadamente el 98%, mientras que el estado de la técnica logró una precisión de aproximadamente el 87%. Además, los experimentos muestran que utilizando el conjunto de datos de Drebin, el enfoque propuesto logró una precisión de aproximadamente el 95%, mientras que el estado de la técnica logró una precisión de aproximadamente el 93%.

This paper proposes a machine learning model based on the co-existence of static features for Android malware detection. The proposed model assumes that Android malware requests an abnormal set of co-existed permissions and APIs in comparing to those requested by benign applications. To prove this assumption, the paper created a new dataset of co-existed permissions and API calls at different levels of combinations, which are the second level, the third level, the fourth level and the fifth level. The extracted datasets of co-existed features at different levels were applied on permissions only, APIs only, permissions and APIs, and APIs and APIs frequencies. To extract the most relevant co-existed features, the frequent pattern growth (FP-growth) algorithm, which is an association rule mining technique, was used. The new datasets were extracted using Android APK samples from the Drebin, Malgenome and MalDroid2020 datasets. To evaluate the proposed model, several conventional machine learning algorithms were used. The results show that the model can successfully classify Android malware with a high accuracy using machine learning algorithms and the co-existence of features. Moreover, the results show that the achieved classification accuracy depends on the classifier and the type of co-existed features. The maximum accuracy, which is 98%, was achieved using the Random Forest algorithm and the co-existence of permissions features at the second combination level. Furthermore, the results show that the proposed approach outperforms the state-of-the-art model. Using Malgenome dataset, the proposed approach achieved an accuracy of about 98%, while the state-of-the-art achieved an accuracy of about 87%. In addition, the experiments show that using the Drebin dataset, the proposed approach achieved an accuracy of about 95%, while the state-of-the-art achieved an accuracy of about 93%.

تقترح هذه الورقة نموذجًا للتعلم الآلي يعتمد على الوجود المشترك للميزات الثابتة للكشف عن البرامج الضارة لنظام أندرويد. يفترض النموذج المقترح أن برامج أندرويد الضارة تطلب مجموعة غير طبيعية من الأذونات وواجهات برمجة التطبيقات المتعايشة في المقارنة مع تلك التي تطلبها التطبيقات الحميدة. لإثبات هذا الافتراض، أنشأت الورقة مجموعة بيانات جديدة من الأذونات المتعايشة واستدعاءات واجهة برمجة التطبيقات على مستويات مختلفة من المجموعات، وهي المستوى الثاني والمستوى الثالث والمستوى الرابع والمستوى الخامس. تم تطبيق مجموعات البيانات المستخرجة من الميزات المتعايشة على مستويات مختلفة على الأذونات فقط، وواجهات برمجة التطبيقات فقط، والأذونات وواجهات برمجة التطبيقات، وترددات واجهات برمجة التطبيقات وواجهات برمجة التطبيقات. لاستخراج السمات الأكثر صلة بالتعايش، تم استخدام خوارزمية نمو النمط المتكرر (FP - growth)، وهي تقنية تعدين لقاعدة الارتباط. تم استخراج مجموعات البيانات الجديدة باستخدام عينات Android APK من مجموعات بيانات Drebin و Malgenome و MalDroid2020. لتقييم النموذج المقترح، تم استخدام العديد من خوارزميات التعلم الآلي التقليدية. وتظهر النتائج أن النموذج يمكن أن يصنف بنجاح البرمجيات الخبيثة التي تعمل بنظام أندرويد بدقة عالية باستخدام خوارزميات التعلم الآلي والتعايش بين الميزات. علاوة على ذلك، تظهر النتائج أن دقة التصنيف المحققة تعتمد على المصنف ونوع الميزات المتعايشة. تم تحقيق أقصى قدر من الدقة، وهو 98 ٪، باستخدام خوارزمية الغابة العشوائية والتعايش بين ميزات الأذونات على مستوى المجموعة الثانية. علاوة على ذلك، تظهر النتائج أن النهج المقترح يتفوق على النموذج الحديث. باستخدام مجموعة بيانات مالجينوم، حقق النهج المقترح دقة تبلغ حوالي 98 ٪، بينما حقق أحدث التقنيات دقة تبلغ حوالي 87 ٪. بالإضافة إلى ذلك، أظهرت التجارب أنه باستخدام مجموعة بيانات دريبين، حقق النهج المقترح دقة تبلغ حوالي 95 ٪، بينما حقق أحدث التقنيات دقة تبلغ حوالي 93 ٪.

Related Organizations

Jordan University of Science and Technology
Jordan
Ajman University of Science and Technology
United Arab Emirates

Keywords

Artificial intelligence, Computer Networks and Communications, Android malware, co-existence, Malware, Characterization and Detection of Android Malware, Android, Android (operating system), Machine learning, Data mining, Automated Software Testing Techniques, malware, Android Malware, Computer science, TK1-9971, Intrusion Detection, Detection, Operating system, machine learning, Permission Analysis, Signal Processing, Computer Science, Physical Sciences, Network Intrusion Detection and Defense Mechanisms, Electrical engineering. Electronics. Nuclear engineering, Botnet Detection, Classifier (UML), Software, FP-growth, Random forest

Impact byBIP!

	selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	25
	popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.	Top 10%
	influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	Top 10%
	impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.	Top 10%