Author: Joonhee Lim
Date: 2022/12/28
출처: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9551598
A Deep Reinforcement Learning Approach for Long-term Short-term Planning on Frenet Frame
Tactical decision-making and strategic motion planning for autonomous highway driving are challenging due to predicting other road users' behaviors, diversity of environments, and complexity of the traffic interactions. This paper presents a novel end-to-e
ieeexplore.ieee.org
0. Abstract
해당 논문에서는 자율주행 차량의 의사결정 및 경로 계획을 위한 End-to-End continuous DRL을 소개한다. Frenet Frame에서 State와 Action space를 가져감으로써 driver behavior가 도로 곡률에 덜 영향을 받게 하였다. (내생각: 곡선 도로에서의 성능을 위해)State로써 시계열 데이터를 받아 사용하였으며 해당 알고리즘은 continuous spatioemtoral 경로를 Frenet Frame에서 생성한다. 기존의 Baseline보다 좋은 성능을 내는 것을 CARLA 시뮬레이션에서 확인하였다.
1. Introduction
고속도로에서의 운전은 장기목표를 위한 의사 결정과 안전하게 의사결정을 실행하기 위한 신중한 단기 궤적 계획이 필요하다.
최근 RL은 최적의 차선 변경에 대한 적절한 대체자로써 사용되어지고 있다.
각각의 기존 알고리즘들 (Samplng points, connected cells, lattice)은 장단점을 가지고 있지만 그 중에서도 lattice 접근법은 운동학적 제약과 기본적인 경로계획의 요소들을 고려하며 동적 장애물을 기반으로 예측 계획이 가능하게 한다.
이 논문에서는 Frenet Frame의 lattice를 활용하여 최적의 경로를 생성한다.
몇몇 연구들은 raw data를 통해 steering, throttle값을 도출하는 방식의 RL을 사용하였는데 이러한 연구들은 시뮬레이션 환경에서는 성능이 좋을지 몰라도 현실에서는 (혹은 고성능 시뮬레이터 CARLA) 안정성의 문제를 겪는다.
하지만 복잡한 환경의 의사결정에서 RL이 좋은 결과를 내고 있는 것은 사실이며 End-to-End 방식이 아닌 다른 방식이 필요함
해당 연구는 End-to-End RL과 decision-making과의 간격을 매꿔준다.
기여점:
1. 기존의 End-to-End RL (Steering, Throttle 도출)보다 안전성과 안정성을 향상시킨 End-to-End continuous RL 경로 계획 알고리즘 개발
2. 우리가 아는 한 RL에서 State를 Frenet Frame에서 표현한 첫 번째 논문이다.
3. 다항식 궤적을 통해 연속적인 경로를 생성한다. (End-to-End처럼 이산적이지 않다.)
2. Planning on Frenet Space
MOBIL과 IDM을 사용한 알고리즘을 Baseline으로써 사용하였다. Behavior Planner (BP)는 MOBIL과 IDM으로 구성되어 있고 2D/3D 환경 모델을 활용하여 적절한 횡방향 위치와 속도를 명령한다.
Local Planner (LP)는 BP의 Long-term (target lane and speed)결정을 최적의 경로로 변환한다.
Motion Planner (MP)는 5차 다항식 경로 후보들을 lattices로 생성한다.
lattice는 terminal state들 ($v_f, d_f, t_f$)을 offset에 따라 변경해가며 생성하며 후보들 중 hard constraints (최소/최대 속도, 가속도, 충돌)를 어기는 경로들은 모두 제거하고 soft constraints (lateral offset, speed error, acceleration, jerk, yaw rate)를 어기는 경로들은 Objective Function을 통해 가장 낮은 cost를 가진 경로를 도출한다.
최종적으로 도출된 경로는 Tracking Controller에게 Cartesian 좌표로 바뀌어 전송된다.
3. Discrete RL for Decision Making
기존의 Baseline의 MOBIL을 Discrete RL로 대체하여 RL이 1) 좌측 차선 변경 2) 우측 차선 변경 3) 차선 유지 결정을 내리게 한다.
사용된 Observation Space와 네트워크는 End-to-End RL 아키텍쳐와 동일하다. (알고리즘은 DDQN)
4. End-to-End Continuous RL for Decision making and Motion Planning
해당 논문에서 이야기하는 End-to-End는 Raw input을 받아 Action이 Sterring, Throttle인 것을 의미하지 않는다. 연속적인 궤적을 End-to-End로 생성한다는 의미이다.
RL의 출력으로써 $v_f, d_f, t_f$을 사용하여 terminal state의 값들을 채우고 이를 통해 5차 다항식의 계수를 추출한다. 이러한 값들은 -1, 1로 정규화되어 출력된다.
State로써 ego x 위치, y 위치, 주변 차량 14대의 상대 x, y위치를 사용하여 30가지의 state를 활용하고 이전의 history state 또한 30 time steps 사용하기 때문에 최종적으로 30 x 30 state가 형성된다. 학습을 위해 -1, 1로 정규화하여 사용한다.
알고리즘은 PPO, TRPO, DDPG, A2C 4가지를 비교하였다.
5. Experiments
Discrete RL과 Continuous RL과 Baseline들을 비교한다. Baseline은 파라미터가 다르게 설정된 IDM+MOBIL으로 구성된다.
TRPO가 가장 좋은 성능을 보였다.
6. Conclusions
Long-term 판단: 차선 변경에 대한 판단
short-term planning: 5차 다항식 기반 Planning의 terminal state 결정
기존의 Baseline들보단 연산량이 많았지만 다른 경쟁 알고리즘들이 훨씬 더 많은 연산량을 요구함