자율주행 논문 리뷰: Autonomous Vehicle Cut-In Algorithm for Lane-Merging Scenarios via Policy-Based Reinforcement Learning Nested Within Finite-State Machine

논문 리뷰

자율주행 논문 리뷰: Autonomous Vehicle Cut-In Algorithm for Lane-Merging Scenarios via Policy-Based Reinforcement Learning Nested Within Finite-State Machine

진정한남자준희 2022. 7. 20. 17:16

Author: Joonhee Lim
Date: 2022/07/19

논문 원문: https://ieeexplore.ieee.org/document/9729796

0. Abstract

차선 병합은 자율주행 차량에게 매우 어려운 과제이며 안정성과 효율성 사이에서 각각의 Trade-Off 를 겪는다.

본 연구에서는 RL 기반의 의사 결정 FSM(Finite State Machine)을 이용하여 안정성을 하락시키지 않으면서도 높은 수준의 Cut-in을 할 수 있는 1) 전략적이고 조정가능한 2) 안전하고 최적의 3) 강인하고 지속가능한 알고리즘을 제안한다.

Decision Making 알고리즘은 Target 차량과 관련된 충돌 위험을 계산하여 1) 준비 2) 접근 3) 협상 4) 차선 변경 단계 간의 전환을 처리한다.

차선 변경 단계에서 최적의 성능을 얻기 위해 SAC(Soft Actor-Critic)을 사용한다.

-> 시뮬레이션 결과, 제안된 알고리즘이 안전성을 낮추지 않고 지속적으로 높은 컷인 성공률을 달성한다는 것을 보여준다. 특히 트래픽이 증가할수록 기존의 최적화된 규칙 기반 컷인 알고리즘과 종단 간 RL 알고리즘보다 컷인 성공률 및 안전성이 크게 향상된다.

1. Introduction

차선 병합 문제를 해결하기 위해 Rule-based 알고리즘(MPC) 등이 사용되었으나 해당 알고리즘은 도로 환경 제약을 고려하지 않고 주변 차량만을 고려하며 알고리즘의 성능은 드라이버 모델의 정확도에 크게 의존한다. 또한 주변 차량의 의도와 행동은 매우 다양하기 때문에 MPC 알고리즘은 해당 Task에 적합하지 않다.(연산량도 많기에 Real time에도 적합하지 않음) 이와 같은 Rule 및 Model 기반 방식은 조정 가능하고 강인하지만 다양한 시나리오를 처리할 때 제한된 성능을 보이는 경향이 있다.

-> 따라서 다양한 시나리오를 처리하기 위해서 학습 기반 방식이 제안되었다.

이후, RL을 이용한 End-to-End 방식이 제안되었으나 안정성을 보장 X

이후, DQN을 사용한 계층식 Lane merge가 있었으나 Discrete Action Space를 가지기에 적합하지 않았음

이후, SAC 등 다양한 model-free 알고리즘을 사용하였으나 경험하지 못한 상황에 대한 신뢰도 및 안정성 부족

차선 병합 Task는 안정성과 효율성 모두를 챙겨야 하기에 단순하게 RL을 적용하는 것은 적합하지 않았고

5가지의 State를 움직이는 FSM 모델 또한 안정성에 Focus를 맞췄기에 효율성이 좋지 않았음

-> 이를 해결하기 위해 Rule-based 방식(FSM)과 RL 방식(SAC)을 합쳤음

준비, 접근 및 협상 단계의 경우 모델 기반 모션 계획 접근법이 사용된다.

차선 변경 단계의 경우 최적의 성능을 얻기 위해 정책 기반 강화 학습 접근 방식을 사용한다.

2. Overview of The Cut-In Algorithm

FSM은 가까운 차량의 Safe gap 선택과 차선 변경을 위해 자율주행 차량의 Phase를 선택한다. 근처에 Safe Gap이 없을 경우, 알고리즘이 인근 차량과 협상하여 갭을 만든 다음 차선 변경을 한다. 차선 변경 단계에서 정책 기반 RL 알고리즘은 차량의 가속 및 steering를 제어하여 차선 변경 동작을 실행한다.

High-level decision algorithm showing the state-transition diagram for a cut-in maneuver(출처: 논문 본문)

Low-level decision algorithm illustrating SAC-based reinforcement learning. (출처: 논문 원문)

A. High-level decision process: FSM

각 단계는 차선 변경을 위한 전략적 단계를 수행하도록 설계되었다.

1) 준비: 차선변경을 위한 Gap을 찾고 차선변경 명령을 기다린다.

2) 접근: 차량이 목표 Gap에 접근하여 차선 변경을 준비한다.

3) 차선변경: 목표 간격의 안전성이 보장되면, 상태는 차선 변경 단계로 전환되고 강화 학습을 기반으로 경로를 생성한다.

4) 협상: 목표 간격의 안전성이 보장되지 않으면, 협상 단계로 전환되고 차량의 안전성을 확보하려고 시도한다.

컷인 시나리오 동안 위험성 평가는 모든 단계에서 안전하고 신뢰할 수 있는 전환을 수행하기 위해 백그라운드에서 지속적으로 실행된다.

제안된 FSM은 각 단계의 전환 조건과 제어기를 모두 조정하여 다양한 컷인 주행 경향을 가능하게 한다. 이러한 조정 가능성은 알고리듬의 최적화와 전 세계 다른 지역의 다양한 주행 스타일 처리를 가능하게 한다.

B. Low-Level Lane-Change Planner: Policy-Based Reinforcement Learning

차선변경을 위한 RL모델은 FSM의 차선 변경 단계에서 가속 및 조향 각도에 대한 Output을 생성하여 차선 변경을 실행한다.

강화학습 기반 알고리즘은 다양한 학습을 통해 모델 의존성을 줄이고 다양한 주행 환경에 유연하게 대처할 수 있다.

학습 기반 알고리즘을 독점적으로 사용하는 것은 안전을 보장하지 못한다는 단점이 있지만 FSM을 통해 안전을 보장하고 차선 변경 단계에만 RL을 사용함으로써 성능을 극대화하였다.

SAC 네트워크 모델은 다양한 실제 교통 시나리오를 생성하는 트래픽 시뮬레이터에서 훈련된다.

3. High-Level Cut-In Decision Maker

제안된 FSM은 4가지 단계와 Rule-Based transition으로 구성된다.

A. Elements of the Finite-State Machine

1) 준비: 자율주행 시스템으로부터 차선변경 명령을 기다리는 동안 동일 차선에서 선두 차량과의 거리를 유지한다. 차량 간 Gap 선택 알고리즘의 목적은 다양한 Gap 후보 중 차선변경을 위한 최적의 갭을 선택하는 것이다.

Gap 선택 알고리즘은 다음과 같이 2가지 하위 시스템으로 구성된다.

- 도달 가능성 분석 시스템

- Gap 위험 평가 시스템

다음과 같은 수식을 통해 선두 차량 및 뒤쪽 차량과의 Safe distance를 구한다. 또한 주변 차량에 대한 각각의 Gap을 예측하고 가속 한계를 고려하여 (-2m/s~+1m/s) 차량들의 도달 가능 위치 집합을 확인한다.

1) 도달 가능한 Gap은 차선변경 거리 제한과 시간 제한을 모두 고려하여 선택한다.

2) 선택한 후 각 도달 가능한 Gap의 안전성을 평가한다.

3) 안전한 Gap이란 2초 이상 진입할 수 있는 최소 안전거리를 확보하는 간격을 뜻한다.

4) 여러개가 있는 경우 가장 넓은 Gap을 가진 녀석을 선택한다.

5) Gap을 선택한 뒤에도 매 time step마다 목표 갭의 도달 가능성과 안전성을 평가하며 주변 환경이 바뀌어 도달가능성 및 안전성이 보장되지 않으면 Gap을 다시 선택한다.

6) 선두 차량이나 뒤쪽 차량이 차선 변경을 하거나 다른 차량이 Target 라인으로 차선변경을 할 경우 주변 차량을 기반으로 다시 업데이트한다.

2) 접근: 자율주행 차량이 목표 Gap에 접근하기 위해 종방향 위치를 조정한다.

Appraoch Acc = Avg(Dist Acc, Speed Acc)

가속도의 상한과 하한은 승객의 편안함과 차량 가속 성능을 고려하여 결정하고 거리 및 속도 인식 가속도를 계산하기 위해, 각 함수는 각 함수에 대해 경험적으로 결정된 전이 거리를 기반으로 전체 방정식의 연속성을 고려하여 결정된다.

30과 5.6은 각각의 기능 전환 조건

x는 Longitudinal position

v는 Longitudinal Speed

3) 협상: 선택한 Gap이 충분한 공간이 확보되지 않았을 때 공간을 넓히기 위해 후방 차량과 협상을 시도한다.

접근 단계와 같이 Target Gap쪽으로 세로로 이동한다. 접근 단계와 다른 점은 차선을 변경하고 싶다는 의도를 알리면서 차선을 넘지 않는 정도로 목표 차선에 접근한다. 협상 단계의 목적은 후방 차량이 양보하도록 유도하여 Gap을 넓히는 것이다.

4) 차선변경: RL 알고리즘을 이용하여 안전하고 성공적으로 차선을 변경한다.

B. Phase-Transition Conditions

1) 준비 -> 접근

1. 차선변경 Trigger를 킨다.

2. Gap-selection 알고리즘을 이용하여 cut-in gap을 선택한다. 만약 2초 안에 도달가능한 Gap이 없다면 시스템은 준비 단계에 머문다.

2) 접근 -> 준비/협상/차선변경

1. 만약 2초 안에 도달가능한 Gap이 없다면 시스템은 준비 단계로 돌아가 다시 Target gap을 선택한다.

2. 만약 도달가능한 Gap이 있다면 협상 단계 or 차선변경으로 접어든다.

3. gap-risk 평가 시스템을 통해 risky -> 협상, safety -> 차선변경

3) 협상 -> 준비/차선변경

1. 협상 단계 이후에 후방 차량이 양보해주지 않으면 준비 단계로 돌아간다.

2. 양보해주면 차선변경 단계로 들어간다.

4) 차선변경 -> 준비/종료

1. 차선변경이 모두 완료되면 종료 단계로 접어든다.

2. 차선변경 도중 위험하다고 판단되면 준비 단계로 돌아간다.

차량에 대한 위험은 충돌 시간(TTC)의 역수로 정의된다. 자율주행 차량과 주변 차량(TTC veh) 및 가드레일(TTC guard) 사이의 충돌 시간으로 구성된다. TTC는 일정한 가속도를 가정하여 계산된다.

4. Low-Level Lane-Change Planner

차선 변경 단계에서 자율주행 차량은 RL 알고리즘을 기반으로 차선 변경 실행을 수행한다. 이 알고리즘은 차량의 가속 및 스티어링 각도를 계획하여 SAC(Soft Actor-Critic) 알고리즘을 통해 안전성을 확보한다.

A. State/Action Space

1) State Space

안전한 차선변경을 위해 1) Leading 2) Lagging 3) Leading의 전방 4) 전방 차량의 상태에 대한 정보와 자율주행 차량의 정보가 RL의 입력으로 사용된다.

또한, 각 목표 위치에 차량이 없는 경우, 차량은 최대 감지 범위에 위치하여 자율주행 차량과 동일한 속도로 주행하는 것으로 가정하는데, 이는 안전성 확보를 위해 감지 범위를 벗어난 차량이 존재한다고 가정하는 것이 타당하기 때문이다.

2) Action Space

적절한 차선변경 경로를 계획하기 위해서는 Real time, 성능, 승차감, 수렴 용이성 등을 고려할 필요가 있다. 가속 및 스티어링 값이 네트워크의 출력일 경우, 실시간 제어 조건이 충족된다. 그러나 이 방법은 가속도나 조향각의 변화에 제약이 없어 원활한 궤적을 가진 컷인 전략을 학습하는 데 어려움이 있다. 이 문제를 극복하기 위해 가속도의 변화와 스티어링 각도의 증분을 이용해 원활한 주행을 보장한다. 증분을 이용하면 반복이 계속되더라도 연속 출력을 얻을 수 있다. 가속 동작 공간은 [-5, +5] m/s2로 설계되고 조향 각도는 [-45, +45]도로 설계된다. 그리고 초당 최대 가속도 변화는 2m/s2, 최대 조향각 변화는 네트워크의 출력인 20도/s로 성능과 승차감을 동시에 만족시킨다.

B. Policy-Based Reinforcement Learning Network

본 연구에서는 차선변경 알고리즘으로 소프트 액터-크리틱(SAC)을 갖춘 정책 기반 알고리즘이 선택되었다. RL 알고리즘은 정책 기반 알고리즘과 가치 기반 알고리즘으로 구성된다. 차량 시스템의 경우 연속 동작 제어는 승객의 편안함을 고려해야만 하지만 가치 기반 알고리즘은 차원 문제로 인해 연속 동작 제어 시스템에 적합하지 않다. 따라서, 정책 기반 알고리즘이 차선 변경을 계획하는 데 적합하다. 그러나 정책 기반 알고리즘은 정책이 현재 행동 정책 데이터에서 학습되어야 하기 때문에 데이터 효율성이 낮다. 이는 벨만 방정식을 최적화하는 데 필요한 가치 함수를 결정하기 위한 네트워크가 없기 때문이다. 이 문제를 극복하기 위해서 Actor가 자율주행 차량의 정책을 결정하고 Critic가 가치 함수를 결정하는 Actor-Critic 알고리즘을 사용한다. 데이터 효율성을 통해 연속 제어 문제를 해결할 수 있다. Merge 상황과 같은 복잡한 환경에서 에이전트는 최적의 전략을 학습하기 위해 탐색을 활용해야 한다. SAC는 Actor 네트워크의 출력인 정책 확률 분포에 기초한 낮은 확률의 행동에 대해 더 높은 탐색 보상을 받는다. 다시 말해, SAC 알고리즘의 가치 함수의 정의에는 탐색을 장려하는 시스템이 포함되어 있다. 이 과정을 엔트로피 정규화라고 한다. 엔트로피 정규화의 또 다른 효과는 Sub-optimal 솔루션도 네트워크에서 학습할 수 있다는 것인데, 이는 네트워크가 처음 겪는 상황에 직면할 때 거의 최적의 성능을 낼 수 있게 한다.

SAC 네트워크의 전체적인 아키텍처는 다음과 같다. Q-value 네트워크, Value 네트워크 및 Actor 네트워크로 구성된다. 모든 네트워크는 State 인코더를 통해 Environment 정보를 인코딩한다. State 인코더는 FCN를 통해 자율주행 차량 및 4대의 Target 차량의 각 상태를 인코딩한다. 주변 차량의 위치 정보만 0~4초 전 데이터를 사용하는 LSTM 네트워크를 통해 인코딩된다. 각 인코딩 정보는 최종적으로 완전히 연결된 연결 네트워크를 통해 인코딩되며 Actor/Value 네트워크에 사용된다. 동작의 각 단계에 대해 얻은 현재 상태(St), 수행된 동작(at), 동작에 대한 보상(rt), 동작에 따른 다음 상태(St+1) 및 에피소드 완료 지표(dt) 값은 Replay Memory에 저장된다. 각 에피소드가 끝날 때마다 Replay Memory에서 크기 B의 배치가 무작위로 추출하여 Value network, Q-value network, Actor network를 학습한다. Actor 네트워크는 자기 차량, 주변 차량 및 차선 정보에 대한 정보를 입력으로 사용하며, 가속 및 조향 목표 증분의 평균과 표준 편차가 출력이다.

Actor 네트워크의 목적 함수는 다음과 같다. 여기서 a~t는 재생 메모리에서 나오는 것이 아니라 Policy 네트워크에서 나오는 새로운 Action입니다.

Value 네트워크의 경우 차량 상태가 입력, 현재 상태에 대한 전체 예상 보상은 출력이다. 이 네트워크는 차량이 더 나은 값을 가진 상태로 이동한다는 것을 학습한다.

Value 네트워크의 목적 함수는 다음과 같다.

Q-Value 네트워크는 차량 상태 및 Actor 네트워크에서 결정된 행동을 입력으로 사용합니다. 벨만 방정식이 업데이트될 때 Q-Value를 과대평가하는 것을 방지하기 위해 두 개의 네트워크가 사용된다.

Q-값 네트워크는 다음과 같은 목적함수를 이용하여 업데이트된다.

C. Penalty and Reward Function

보상 함수는 안전한 거리와 원활한 주행, 편안한 승차감이 보장되도록 설계했다. 총 보상 함수(Rtotal)는 위험 패널티(Rrisk), 접근 보상(Rapp) 및 승차감 패널티(Rcomfort)로 구성된다.

자율주행 차량으로부터 차선변경 거리 제한까지의 거리가 짧을수록 승차감 페널티 가중치가 낮아진다. 이 가중치 설계를 통해 알고리즘은차량이 차선변경 거리 제한 내에서 성공적으로 차선을 변경하도록 장려한다.

1) 위험 패널티: 위험 패널티는 차량 risk에 기초한 2차 다항식 함수에 의해 주어진다. 주변 차량에 대한 정보 및 거리 제한(예: 그림 6에서 설명한 대로 TTC front, TTC lead, TTC lag, TTC lim)을 사용하여 TTC를 계산한 후 가장 위험한 상황을 나타내는 최소값을 TTC risk로 간주한다.

이 연구에서 TTC 임계값은 4(위험도 = 4)로 설정됩니다. 상수 가속 가정은 TTC를 계산할 때 주변 차량의 동작을 예측하는 데 사용된다.

2) 접근 보상

접근 보상은 세로 보상과 가로 보상으로 구분된다. 최종 접근 보상은 두 값의 평균. 차량이 현재 가속도를 유지한다고 가정하고 TTA는 몇 초 후에 차선에 도착하는지를 계산합니다. 세로 방향 TTA가 임계값 4보다 낮거나 가로 방향 TTA가 임계값 2보다 낮으면 접근 보상은 다음과 같이 계산한다.

3) 승차감 페널티

승차감 페널티는 다음과 같이 jerk와 wheel로 나뉜다. 이 패널티는 차량의 휠 속도(wt)와 저크의 절대값 모두에 대한 1차 다항식 함수를 사용하여 계산된다. 여기서, R comfort a는 가속도가 갑자기 변하면 주는 페널티, Rcomfortw는 각속도가 갑자기 변하면 주는 페널티이다. 이 연구에서는 jerk = 2 및 wheel = θ/2를 사용합니다.

D. Network Training

1) Hyper-Parameter Settings

2) Surrounding-Vehicle Driver-Model Settings

알고리즘을 훈련하고 평가하기 위해서는 위험한 상황을 포함한 다양한 시나리오 시뮬레이션이 필수적이다.

6가지 트래픽 볼륨 레벨은 부드러움(A), 양호함(B), 안정함(C), 안전함(D), 불안정함(E), 혼잡함(F)이었다. 밀도, 평균 진행 경로 및 평균 속도는 트래픽 수준에 따라 결정됩니다.

지능형 운전자 모델(IDM)은 차량 following 모델에 사용된다. IDM 모델은 선행 차량으로부터 다양한 거리를 유지하는 경향이 있다. 특정 IDM 파라미터-값 범위는 다음과 같다.

차선 변경의 경우, 차선 변경에 의해 유도되는 최소화된 전체 제동(MOBIL)이 사용된다. 이 모델은 다음 차선에서 후방 차량과 후방 차량에 대한 정보를 바탕으로 차선을 변경해도 안전한지 여부를 판단한다. MOBIL 매개변수는 공손도 계수, 차선 변경 한계값 및 주변 차량의 최대 허용 감속도로 구성된다. 공손도 계수가 클수록 차량은 주변 차량에 양보하는 반면 차선 변경 기준이 클수록 차선변경이 보수적이다. 각 운전자의 차선 변경 양보 경향은 Target 차량을 선택할 때 IDM이 사용하는 기준에 의해 결정된다. Target 차량의 결정은 자율주행 차량과 주변 차량 사이의 가로 방향 거리와 속도 차이에 기초한다. Target 차량을 설정하는 데 사용되는 거리 임계값과 속도 임계값은 차량마다 다릅니다. 주변 차량이 자율주행 차량 앞에게 끼어들면 운전자마다 IDM 대상 차량을 변경하는 타이밍이 다르다. 이 방법을 사용하여 운전자별로 다양한 차선 변경 양보 경향을 구현했다.

5. Performance Evaluation

A. Baseline Models for Performance Comparison

차선변경 성공률과 충돌 회피율로 평가를 진행하였고 비교 대상은 최적의 Rule-Based 알고리즘과 End-to-End RL이다.

규칙 기반 기준선 알고리즘은 IDM 및 MOBIL 시스템과 접근 Gap 알고리즘이 있는 Expert 시스템으로 구성된 결합 모델이다. RL 기반 기준 알고리즘은 FSM이 없는 엔드 투 엔드 소프트 액터-크리틱(SAC) 알고리즘이다.

1) End-to-End RL:

제안된 방법과 베이스라인 1의 차이점은 후자는 FSM을 포함하지 않으며 5개의 차량을 입력(가장 가까운 4개,

으로 사용한다는 것이다.

2) Rule-Based IDM + MOBIL:

이 차량 모델에서 종방향 제어는 IDM 알고리즘에 의해 결정되며 횡방향 제어는 MOBIL과 2 point visual control 모델에 의해 결정된다. 목표 차선은 MOBIL 모델에 의해 먼저 설정되고, 그 다음 2점 시각적 제어 모델을 사용하여 low-level 차선 변경 실행이 수행된다. 2점 시각제어 모델은 PI 제어를 통해 대상 차선과 차량 사이의 각도가 0으로 수렴되도록 하는 알고리즘이다. 이 알고리즘은 차선 변경을 시작하기 전에 적절한 공간을 수동적으로 기다린다는 단점이 있다.

3) Rule-Based Enhanced IDM + MOBIL:

IDM+MOBIL의 단점을 보완하기 위해 목표 Gap에 대한 자율주행 차량의 세로 위치를 조정하는 접근 알고리즘과 함께 Expert 시스템을 제안한다. Expert 시스템은 목표 공간을 기다리지 않고 가속을 생성하여 목표 간격에 도달합니다. 가속도는 자율주행 차량과 목표 공간 사이의 상대적인 속도 및 위치에 기초하여 계산된다. 차량이 목표 Gap의 안전 공간에 진입하면 알고리듬은 2점 시각적 제어 모델을 사용하여 컷 인을 위한 조향 각도를 제어한다.

B. Performance Metrics for Evaluation

1) Cut-In Success Rate

총 에피소드 수와 차선 병합 시 컷인 거리 제한에 도달하기 전에 충돌 없이 차선 변경에 성공한 에피소드 수를 기준으로 컷인 성공률이 계산된다.

2) Collision-Avoidance Rate

여기서 Nsafe는 컷 인의 성공과 관계없이 충돌 없이 종료된 에피소드의 수를 의미한다.

C. Simulation Results

각 트래픽 레벨에 대한 평가를 위해 1000개의 에피소드가 수행된다. 주변 차량의 운전자 성향을 결정하는 IDM과 MOBIL의 파라미터 값에 대해서는 표의 값을 각 에피소드에 대해 무작위로 선택한다.

1) 차선변경 성공률 및 충돌 회피율의 Trade-Off 분석: 제안된 컷인 알고리듬의 성능을 평가하기 위해 다양한 트래픽 볼륨 및 위험 기준에 대해 컷인 성공률과 충돌 회피율을 측정한다. TTC는 위험 기준으로 사용되며 TTC 값을 0에서 5까지 조절한다. 이러한 트레이드오프 분석 결과는 다음과 같다.

이 그림에서 오른쪽 상단 영역은 더 높은 성능을 나타낸다. 희박한 조건에서는 모든 알고리즘은 약 99%의 컷인 성공률과 충돌 회피율에 도달하였다. 그러나 트래픽이 증가함에 따라 컷인 성공률과 충돌 회피율은 모두 감소한다. 비교한 알고리듬 중에서 제안된 FSM & RL 알고리즘은 그래프의 오른쪽 상단 모서리에서 가장 많은 결과를 가지며, 이는 제안된 모델이 비교한 모델 중 가장 높은 성능을 보인다는 것을 의미한다. 실험 결과는 SAC이 엔트로피 정규화를 통해 교통량이 많은 상황에서 차선 변경과 같은 복잡한 환경에서 최적의 전략을 도출하는 데 적합한 방법론이라는 것을 입증했다.

2) 트래픽 레벨이 컷인 알고리즘 성능에 미치는 영향: 다양한 시나리오에서 컷인 알고리즘의 신뢰성을 분석하기 위해 트래픽 수준이 알고리즘 성능에 미치는 영향도 설명한다. TTC 임계값은 5초로 고정하고 다양한 트래픽 수준에서 제안된 알고리듬을 평가한다.

이 결과는 제안된 알고리듬이 모든 트래픽 시나리오, 특히 밀집된 트래픽에서 신뢰할 수 있는 컷인 성공률과 충돌 회피율을 보인다는 것을 보여준다. 또한 FSM과 RL은 트래픽 레벨 6에서 종단 간 RL 알고리듬보다 0.32% 더 높은 충돌률을 보인다. 이는 차선 변경 단계로의 전환을 결정하기 위해 위험 평가를 사용하는 것이 종단 간 기반 심층 RL 방법에 비해 충돌률을 크게 줄일 수 있음을 보여준다. 요약하면, 규칙 기반 방법은 제안된 RL 방법으로 처리할 수 있는 수많은 상황에 대처하기에 불충분하다. 다시 말해, 제안된 방법은 더 높은 충돌 회피율과 더 높은 컷인 성공률을 보장하면서 수많은 위험한 상황에 더 잘 대처할 수 있다.

6. Conclusion

FSM-RL 하이브리드 접근법은 1) 전략적이고 조정 가능한 2) 최적의 안전 및 성능 3) 강력하고 일관된 알고리즘을 얻기 위해 제안되었다. 시뮬레이션 결과는 제안된 FSM-RL 알고리즘이 안전성을 줄이지 않으면서 지속적으로 높은 성공률을 달성한다는 것을 보여준다. SAC와 같은 딥 러닝 방법론을 적용할 때의 한 가지 단점은 딥러닝 자체의 한계인 해석의 어려움과 랜덤 액션으로 인해 안전성을 확보할 수 없다는 점이었지만 SAC과 FSM을 함께 사용함으로써 안전성이 확보되었다.

저작자표시 (새창열림)