Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ IEEE Accessarrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article . 2023 . Peer-reviewed
License: CC BY
Data sources: Crossref
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article . 2023
Data sources: DOAJ
https://dx.doi.org/10.60692/qm...
Other literature type . 2023
Data sources: Datacite
https://dx.doi.org/10.60692/0m...
Other literature type . 2023
Data sources: Datacite
versions View all 4 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Toward Learning Human-Like, Safe and Comfortable Car-Following Policies With a Novel Deep Reinforcement Learning Approach

نحو تعلم سياسات شبيهة بالإنسان وآمنة ومريحة تتبع السيارات مع نهج تعليمي جديد للتعزيز العميق
Authors: M. Ugur Yavas; Tufan Kumbasar; Nazım Kemal Üre;

Toward Learning Human-Like, Safe and Comfortable Car-Following Policies With a Novel Deep Reinforcement Learning Approach

Abstract

Dans cet article, nous présentons un concept avancé de régulateur de vitesse adaptatif (ACC) alimenté par Deep Reinforcement Learning (DRL) qui génère des politiques de suivi de voiture sûres, humaines et confortables. Contrairement à la tendance actuelle dans le développement de systèmes ACC basés sur DRL, nous proposons de définir l'espace d'action de l'agent DRL avec des actions discrètes plutôt que continues, car les conducteurs humains ne définissent jamais le niveau de pédale d'accélérateur/frein à actionner, mais plutôt le changement requis des niveaux de pédale actuels. À travers cette représentation de manipulation de l'accélérateur/frein humaine, nous définissons également explicitement actions de maintien (maintien de la dernière action) et de conduite en roue libre (aucune action), qui sont généralement omises en tant qu'actions dans les systèmes ACC. De plus, sur la base de l'enquête d'un ensemble de données de conduite réelles, nous lançons une nouvelle fonction de récompense facile à interpréter et personnalisée. La récompense proposée oblige l'agent à apprendre des actions stables et sûres, tout en encourageant les actions de maintien et de conduite en roue libre, tout comme le ferait un conducteur humain. L'agent DRL d'action discrète proposé est formé avec le masquage d'action, et les termes de récompense sont complètement dérivés de l'ensemble de données du monde réel recueillis auprès d'un conducteur humain. Nous présentons des résultats comparatifs exhaustifs pour montrer les avantages de l'approche DRL proposée à la fois dans la simulation et dans les scénarios extraits de la conduite réelle. Nous montrons clairement que la politique proposée imite nettement mieux la conduite humaine et gère implicitement des situations de conduite complexes, telles que les coupures et les découpes, par rapport à un agent DRL formé avec une fonction de récompense largement utilisée proposée pour l'ACC, une structure de contrôle prédictif modèle et des approches traditionnelles de suivi de voiture.

En este documento, presentamos un concepto avanzado de control de crucero adaptativo (ACC) impulsado por Deep Reinforcement Learning (DRL) que genera políticas de seguimiento de automóviles seguras, similares a las humanas y cómodas. A diferencia de la tendencia actual en el desarrollo de sistemas ACC basados en DRL, proponemos definir el espacio de acción del agente DRL con acciones discretas en lugar de continuas, ya que los conductores humanos nunca configuran el nivel del pedal del acelerador/freno para ser accionado, sino el cambio requerido de los niveles actuales del pedal. A través de esta representación de manipulación del acelerador-freno similar a la humana, también definimos explícitamente acciones para retener (mantener la última acción) y desconectar (ninguna acción), que generalmente se omiten como acciones en los sistemas ACC. Además, en base a la investigación de un conjunto de datos de conducción del mundo real, lanzamos una nueva función de recompensa que es fácil de interpretar y personalizar. La recompensa propuesta hace que el agente aprenda acciones estables y seguras, al tiempo que fomenta las acciones de retención y desconexión, como lo haría un conductor humano. El agente DRL de acción discreta propuesto está entrenado con enmascaramiento de acción, y los términos de recompensa se derivan completamente del conjunto de datos del mundo real recopilados de un conductor humano. Presentamos resultados comparativos exhaustivos para mostrar las ventajas del enfoque DRL propuesto tanto en la simulación como en los escenarios extraídos de la conducción en el mundo real. Mostramos claramente que la política propuesta imita la conducción humana significativamente mejor y maneja situaciones de conducción complejas, como cortes y cortes, implícitamente, en comparación con un agente DRL entrenado con una función de recompensa ampliamente utilizada propuesta para ACC, una estructura de control predictivo modelo y enfoques tradicionales de seguimiento de automóviles.

In this paper, we present an advanced adaptive cruise control (ACC) concept powered by Deep Reinforcement Learning (DRL) that generates safe, human-like, and comfortable car-following policies.Unlike the current trend in developing DRL-based ACC systems, we propose defining the action space of the DRL agent with discrete actions rather than continuous ones, since human drivers never set the throttle/brake pedal level to be actuated, but rather the required change of the current pedal levels.Through this human-like throttle-brake manipulation representation, we also define explicit actions for holding (keeping the last action) and coasting (no action), which are usually omitted as actions in ACC systems.Moreover, based on the investigation of a real-world driving dataset , we cast a novel reward function that is easy to interpret and personalized.The proposed reward enforces the agent to learn stable and safe actions, while also encouraging the holding and coasting actions, just like a human driver would.The proposed discrete action DRL agent is trained with action masking, and the reward terms are completely derived from the real-world dataset collected from a human driver.We present exhaustive comparative results to show the advantages of the proposed DRL approach in both simulation and scenarios extracted from real-world driving.We clearly show that the proposed policy imitates human driving significantly better and handles complex driving situations, such as cut-ins and cut-outs, implicitly, in comparison with a DRL agent trained with a widely-used reward function proposed for ACC, a model predictive control structure, and traditional car-following approaches.

في هذه الورقة، نقدم مفهومًا متقدمًا للتحكم التكيفي في السرعة (ACC) مدعومًا بتعلم التعزيز العميق (DRL) الذي يولد سياسات آمنة وشبيهة بالإنسان ومريحة لمتابعة السيارة. على عكس الاتجاه الحالي في تطوير أنظمة التحكم التكيفي في السرعة المستندة إلى DRL، نقترح تحديد مساحة عمل وكيل التحكم التكيفي في السرعة (DRL) بإجراءات منفصلة بدلاً من الإجراءات المستمرة، لأن السائقين البشريين لم يضبطوا أبدًا مستوى دواسة الخانق/الفرامل ليتم تشغيله، بل التغيير المطلوب لمستويات الدواسة الحالية. من خلال تمثيل التلاعب بفرامل الخانق هذا الذي يشبه الإنسان، نحدد أيضًا إجراءات لعقد (الحفاظ على الإجراء الأخير) والسير (بدون إجراء)، والتي عادة ما يتم حذفها كإجراءات في أنظمة التحكم في السرعة. علاوة على ذلك، استنادًا إلى التحقيق في مجموعة بيانات القيادة في العالم الحقيقي، قمنا بإضافة وظيفة مكافأة جديدة يسهل تفسيرها وتخصيصها. تفرض المكافأة المقترحة على الوكيل تعلم إجراءات مستقرة وآمنة، مع تشجيع إجراءات الحجز والسير، تمامًا كما يفعل السائق البشري. يتم تدريب وكيل DRL للعمل المنفصل المقترح على إخفاء الحركة، ويتم اشتقاق شروط المكافأة بالكامل من مجموعة بيانات العالم الحقيقي تم جمعها من سائق بشري. نقدم نتائج مقارنة شاملة لإظهار مزايا نهج القيادة في حالات الكوارث المقترح في كل من المحاكاة والسيناريوهات المستخرجة من القيادة في العالم الحقيقي. نظهر بوضوح أن السياسة المقترحة تقلد القيادة البشرية بشكل أفضل بكثير وتعالج مواقف القيادة المعقدة، مثل القواطع والقواطع، ضمنيًا، بالمقارنة مع وكيل القيادة في حالات الكوارث المدرب مع وظيفة المكافأة المستخدمة على نطاق واسع المقترحة لـ ACC، وهيكل التحكم التنبئي النموذجي، ونهج اتباع السيارات التقليدية.

Related Organizations
Keywords

reinforcement learning, Artificial intelligence, Social Psychology, FOS: Mechanical engineering, Social Sciences, Driver Assistance Systems, Engineering, Human Interaction with Automation Systems, Reinforcement learning, Psychology, Cooperative Adaptive Cruise Control, Driver Behavior, Human–computer interaction, deep learning, Driver Distraction, Reinforcement Learning, Computer science, advanced driving assistance systems, TK1-9971, Adaptive cruise control, FOS: Psychology, naturalistic driving, Control and Systems Engineering, Physical Sciences, Automotive Engineering, Electrical engineering. Electronics. Nuclear engineering, Autonomous Vehicle Technology and Safety Systems, Modeling and Control of Traffic Flow Systems

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    8
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Top 10%
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Top 10%
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
8
Top 10%
Average
Top 10%
gold