본문 바로가기

논문 리뷰

강화학습 논문 리뷰: Reward is Enough

728x90

[Abstract]

해당 논문에서는 지식, 학습, 지각, 사회 지능, 언어, 일반화, 모방 등 지능과 관련된 능력들이 보상을 극대화하는 것에 종속되어 있다고 주장한다. 따라서 보상을 극대화하는 것만으로도 지능이 필요한 영역에서의 어떠한 행동을 유도하기에 충분하다는 의미에서 논문 제목이 Reward is Enough다. 이러한 측면을 통해 결국 강화학습을 통한 학습 방법이 General한 인공지능에 대한 해답이 될 수 있을 것이라고 논문에서는 주장한다.

 

[Intro]

이 논문에서는 "무엇이 에이전트(인간이든 RL이든)가 다양한 영역에서 현명하게 행동하도록 하나요?" 라는 질문에

 

"각각의 영역에서 그 능력을 이끌어내기 위해서 필요한 목표를 추구하는 것" 에서 발생한다는 것이라고 대답한다.

 

이러한 측면에서 본 논문에서는 보상 극대화라는 일반적인 목표가 자연 지능과 인공 지능에서 연구되는 모든 능력은 아니더라도 대부분을 나타내는 행동을 유도하는 데 충분하다는 가설을 세웠다.

이 그림에서 다람쥐와 로봇이 취하는 행동은 모두 보상을 극대화하기 위한 행동들이다.

 

먼저, 다람쥐는 식량 공급의 최대화를 위해 행동하고 아래 로봇은 집 안의 청결도를 극대화하기 위해 행동하고 있다.

 

이러한 각자의 목표를 달성하기 위해 지능과 관련된 다양하고 복잡한 행동들이 요구되고 발현된다.

 

예들 들면 다람쥐가 많은 식량을 확보하기 위해서 다람쥐는 좋은 견과류를 식별할 수 있는 지각 능력, 다양한 견과류를 이해할 수 있는 지식, 견과를 수집하기 위한 운동 제어, 견과를 저장할 위치를 planning하는 계획 능력이 있어야 한다.

 

로봇의 측면에서 청결도를 극대화하기 위해서는 깨끗한 식기와 더러운 식기를 구별할 수 있는 지각, 도구를 이해하는 지식, 도구를 조작하기 위한 제어, 도구의 위치를 기억하기 위한 기억, 미래에 발생할 일을 예측하기 위한 언어, 이 모든 능력이 청결도를 극대화하기 위한 하나의 목표를 위해서 발휘된다.

 

이러한 이유로 특정 목표가 아닌 단일 목표(좀 글로벌 목표)를 위해 능력을 발휘하는 것은 다양한 능력을 통합하는 방법에 대한 답을 제공할 수 있다는 것이다. (만약에 특정 목표 예를 들면 깨끗한 식기의 구별 능력을 극대화하는 것을 목표로 삼았다면 큰 글로벌 목표를 위해 필요한 다양한 능력을 가질 수 없을 것이다.)

 

개인적인 생각: 이 부분이 Reward Shaping의 측면에서 매우 중요해보임

 

이러한 보상 극대화라는 단일 목표에 대한 해결책으로써 "지능과 관련된 능력의 발휘"를 이해한다면 어떠한 능력이 발생하는 것에 대한 또 다시 더 깊은 이해를 우리는 할 수 있게 된다. (생존에 대한 해결책으로써 악어와 통나무를 구분하고 있구나 라던가)

 

보상을 극대화할 수 있는 방법 중에서 가장 일반적인 접근 방법은 시행착오를 통해 환경과 상호 작용하고 보상을 극대화하는 방법을 배우는 것이다. 이러한 측면을 통해 저자는 RL의 Agent가 보상을 효과적으로 학습시킬 수 있는 풍부한 환경에 놓일 경우, general한 지능의 발현이 가능할 것이라고 추측한다.

 

이에 대한 근거로 바둑에 대한 Agent들을 이야기한다. 이전 바둑을 위한 Agent는 [32] 패턴 인식, 각각의 전략과 같은 특정 능력에 초점을 맞추어 연구되었었지만 최근 AlphaZero [49]는 단일의 목표 그저 승리만을 위해 문제가 규정됐다. (Alphazero의 보상 함수는 승리할 경우 +1, 패배할 경우 -1이다.) 이러한 단일 목표는 새로운 전략 발견, 복잡한 영토 싸움 등 엄청난 효과를 냈다. 이를 통해 이전 방식과 달리 Alphazero는 바둑에 대한 능력을 본직적으로 모두 통합했다고 볼 수 있다. 이러한 측면은 체스 장기 등 다양한 도메인에서도 증명되었다.

 

이러한 측면에서 인간이 실제 세상과 같이 풍부한 정보가 있는 환경에서 단일 보상을 극대화하고자 나아간다면 궁극적으로 지능과 관련된 모든 능력을 얻고 통합할 수 있다는 주장한다.

 

[Reward is Enough]

해당 논문에서는 지식, 학습, 지각, 사회 지능, 언어, 일반화, 모방 등 지능과 관련된 능력들이 보상을 극대화하는 것에 종속되어 있다고 주장한다. 따라서 보상을 극대화하는 것만으로도 지능이 필요한 영역에서의 어떠한 행동을 유도하기에 충분하다는 의미에서 논문 제목이 Reward is Enough다. 이 주장이 사실이라면 단일 목표를 달성하기 위해 보상을 극대화하는 Agent는 지능과 관련된 능력을 모두 발휘할 수 있다는 것을 의미한다. 

 

이 밑에서는 이 가설이 다양한 영역에서 실제로 다양한 영역에 적용될 수 있는 지 확인한다.

 

[Knowledge and Learning]

 

저자는 지식을 agent 내부에 있는 정보라고 정의한다. 예를 들어 지식은 행동을 선택하고, 누적 보상을 예측하거나, 미래 observation의 특징을 예측하기 위한 Agent의 function 내 파라미터 안에 포함될 수 있다. 이러한 지식은 사전에 습득한 것일 수도 있고 학습을 통해 획득된 것일 수도 있다.

 

하지만 환경은 사전에 습득한 지식을 요구한다. 특히 보상을 극대화하기 위해서는 새로운 환경에서 즉시 활용가능한 지식을 갖는 것이 필요할 수 있다. 예를 들어 태어나자마자 가젤은 사자에게서 도망쳐야할 수 있다. 이 경우에는 지식을 배울 기회가 있기도 전에 포식자 회피에 대한 지식이 필요하다. 우리가 고려해야 하는 다른 능력과는 달리 선천적인 지식에 대한 환경적 요구는 규명할 수 없다. 이는 경험보다 먼저 오는 지식이므로 경험으로부터도 획득할 수 없다.

 

환경은 또한 학습된 지식을 요구할 수 있다. 이는 환경의 복잡성과 알려지지 않은 요소 등으로 인해 미래의 경험이 불확실할 때 발생한다. 이러한 불확실성은 미래의 일에 대한 특정 깨달음에 의존하여 Agent가 필요로 하는 잠재적인 지식이 생성된다. 이는 매우 다양한 지식을 포함하는데 예를 들어 북극에서 태어난 agent는 북극곰이나 사자를 상대하는 것에 대한 지식이 생성되며 각각의 다양한 삶에서 agent는 상세하고 전문적인 지식을 습득해야 한다. 그러한 잠재적 지식의 양이 agent의 용량을 초과하는 경우, 지식은 에이전트의 경험에 대한 함수여야하고, 특정 상황에 adapt해야 하므로 learning이 요구된다. 이러한 학습은 파라미터들의 adaption을 통한 예측, 모델, 스킬 등 다양한 형태를 취할 수 있다.

 

요약하자면 환경은 타고난 지식과 학습된 지식을 모두 요구할 수 있다. 보상을 극대화하는 에이전트는 필요할 때마다 전자를 포함하고(인간의 진화 및 인공 agent의 설계를 통해) 후자를 획득한다. 수명이 긴 환경에서는 현재 수요의 균형이 점차 학습된 지식 쪽으로 이동한다.

 

이러한 측면을 통해 보상이 에이전트의 학습과 지식 습득에 충분하다는 것을 표현한다. 이러한 두 종류의 선천적인, 학습을 통한 지식이 결론적으로 모두 보상을 최대화하기 위한 agent의 목표와 관련된다는 의미이다.

 

[Perception]

현실 세상은 보상을 극대화하기 위해 다양한 지각 능력을 요구한다. 예를 들면 절벽에서 떨어지지 않기 위해 이미지 segmentation, 건강에 좋은 음식과 독이든 음식을 구분하는 객체 인식, 아군과 적군을 구분하는 얼굴 인식, 운전 중 상황 분석, 또는 경고 알림을 이해하기 위한 음성 인식 능력 등과 같은 지각 능력이 요구된다. 

 

최근에는 지도 학습 문제에 대한 해결책으로 지각 능력을 통합해오고 있다. 문제는 일반적으로 정답이 레이블링된 훈련 데이터를 통해 테스트 데이터에 대한 분류 오류를 최소화하는 것으로 공식화된다. 이러한 지도 학습의 많은 지각 능력의 통합은 큰 데이터셋을 사용할 수 있는 다양한 응용 분야에서 큰 성공을 가져왔다. 이러한 인지 분야 조차도 결국 가설에 따르면 보상의 극대화에 종속된다고 이해할 수 있다. 예를 들어 앞에서 설명한 지각 능력들은 사고를 피하거나, 통증을 최소화 같은 단일 목적에 대한 보상의 극대화를 수행하면서 발현될 수 있다는 것이다.

 

이러한 측면에서 저자는 지도 학습보다는 보상 극대화의 관점에서 인지 분야를 고려하면 궁극적이고 현실적인 형태의 다양한 지각 능력을 통합할 수 있다고 설명한다.

 

- Action(행동)과 Observation(지각?)은 일반적으로 깊게 얽혀 있다.

- Perception의 유용성은 agent의 행동에 크게 의존한다. 예를 들어 무언가를 잘못 분류하는 것에 대한 Cost가 Agent가 어떻게 행동할 지에 따라 크게 달라지기 때문이다. (예를 들면 악어를 분류하는데 실패한 비용이 싸우는 행동을 하고자 하였는데 분류에 실패한 것과 악어에게서 도망가고 싶은데 분류에 실패한 것이 다르다는 말이다.)

- 정보 획득에는 암묵적인 Cost가 존재할 수 있다. (예: 고개를 돌리고 포식자를 확인하는데는 또 다른 비용이 듦)

- 상황에 따라 필요한 데이터 분포가 다르다. 예를 들어 아프리카에 위치한 Agent는 사자와 사바나를 분류하는 것이 더 중요하고, 북극에 위치한 Agent는 얼음과 북극곰을 분류하는 것이 다른 지각보다 더 중요하기 때문이다. 보유하고 있는 데이터의 양보다 다양한 환경에서 발생할 수 있는 잠재적인 데이터의 양이 훨씬 많을 가능성이 높기 때문에 경험을 통해서 Perception을 학습해야 한다.

- 또한, 많은 인지 분야에서는 labelled된 데이터에 접근할 수 없다.

 

결론적으로 인지 분야에서도 RL 써라

 

내 생각: 지도 학습의 제한된 데이터만으로는 현실에서 발생할 수 있는 다양한 상황에 대한 잠재적인 행동들을 유도해내지 못한다고 말하고 있다. 이러한 측면에서 환경이 Agent에게 제공하는 정보의 풍부함과 복잡함 등 질적으로 매우 우수해야 Agent가 데이터를 통해 학습된 Agent보다 뛰어날 수 있다고 생각한다.

 

[Social Intelligence]

사회 지능은 다른 이를 이해하고 효과적으로 상호작용하는 능력이다. 이는 게임 이론을 통해 equilibrium 솔루션으로 공식화하는 경우가 많은데 eq 솔루션은 큰 편차나 최악의 시나리오에 강건하기 때문에 적절하다.

 

하지만 우리의 가설에 따르면 사회 지능은 다른 에이전트가 포함된 환경에서 한 에이전트의 누적 보상을 최대화하는 것으로 이해할 수 있다. 여기서 한 에이전트는 누적 보상을 최대화하기 위해서 다른 에이전트의 동작과 환경을 관찰한다. 이처럼 다른 에이전트의 행동을 잘 예측하고 다른 에이전트에게 영향을 미칠 수 있는 에이전트는 더 큰 누적 보상을 얻을 수 있다.

 

따라서 환경에 다른 에이전트와 상호작용하기 위한 사회 지능이 필요할 때, 보상 극대화는 사회적 지능을 생성한다. 이러한 방식으로 생성된 사회 지능은 기존 방법론인 eq 솔루션보다 더 나은 솔루션으로 이어질 수 있다. 보상 극대화 방식은 기존 방식과 다르게 최적 또는 최악의 행동을 가정하기보다는 다른 에이전트가 가진 차선책조차도 고려할 수 있기 때문이다. 또한 보상 최대화는 하나의 최적 값을 갖는 반면에 eq 솔루션은 고유한 해를 갖지 않는다.

 

[Language]

Language 지능은 인간 및 인공지능에서 매우 많이 관심 받는 주제이다. 언어는 인간 문화와 상호작용에서 매우 큰 역할을 수행하고 있기 때문에, 지능의 정의 자체가 자연어를 이해하고 사용하는 능력을 전제로 다루어지는 경우가 많다. 

 

최근에는 언어를 단일 목표, 즉 대규모 데이터 코퍼스 내 예측 모델링 최적화로 취급함으로써 상당한 성공을 거두었다. [28,8] 이는 문법, 구문 분석 등과 같은 구문에 대한 문제와 어휘에 대한 의미, 분석을 다루는 의미론적 문제 뿐만 아니라 이를 하나로 묶는 요약, 대화 시스템 등의 언어에 대한 많은 하위 문제를 통해 접근됐다.

 

그럼에도 불구하고 이러한 측면들을 포함하는 언어 지능을 생성하는데는 충분하지 않다고 본다.

- 언어는 환경에서 발생하는 상황에 따라 다르게 인식되는 경우가 있다. 대화의 맥락에 따라 같은 언어가 다른 의미를 지닐 수 있고 몸짓, 얼굴 표정, 목소리의 높낮이 등 다른 행동들과 함께 고려되어야 한다.

- 언어는 일반적으로 다른 agent의 정신 상태에 영향을 미쳐 행하는 행동에 영향을 미친다. 이는 언어가 다양한 목적을 달성하기 위해 사용될 수 있다는 것이다. 예를 들어 판매원은 판매량을 극대화하기 위해 언어 지능이 사용되고, 정치인은 투표량을 극대화하기 위해 언어 지능을 활용한다.

- 언어의 유용성 또한 agent의 상황과 행동에 따라 다르다. 광부에게는 암석에 관련된 언어가 필요한 반면 농부에게는 토양에 관련한 언어가 유용하게 작용한다.

- 이러한 다양한 상황을 처리하기 위해 필요한 언어는 확보하고 있는 데이터셋을 초과할 수 있다. 이러한 경우 새로운 경험을 통해 언어적 문제를 해결해야할 필요가 있다. 예를 들어 새로운 기술을 구축하기 위해 상호작용적으로 가장 효과적인 언어를 개발하는 것이다.

 

역시 가설에 따르면 이러한 언어 능력도 보상 극대화를 위해서 발생한다. 예를 들면 Agent가 "위험" 경고를 이해할 수 있어야 부정적인 보상을 피할 수 있다. 에이전트가 "fetch" 명령을 생성할 수 있다면 주변 환경이 (개) agent에게 물체를 더 가깝게 오게 하게끔 할 수 있다. 또한 무언가를 협상하기 위해 복잡한 대화에 참여하는 등 보상 극대화를 위해서 다양한 복잡한 언어 기술이 발현된다.

 

그래서 결국은 언어 지능의 진화를 위해 RL 써야 된다~

 

[Generalization]

일반화는 한 문제에 대한 해결책을 다른 문제에 대한 해결책으로 전환하는 능력으로 정의된다. 예를 들어 지도 학습에서의 일반화는 사진 데이터셋에서 학습된 솔루션을 그림에 대한 데이터셋에 대한 해결책으로 전환하는데 중점을 준다. 메타 학습의 일반화는 에이전트를 한 환경에서 다른 환경으로 전이하는데에 초점을 두고 있다.

 

우리의 가설에 따르면 일반화는 에이전트와 하나의 복잡한 환경 사이의 지속적인 상호작용 안에서 누적 보상을 극대화하는 것으로 이해할 수 있다. 

 

인간 세계와 같은 환경은 에이전트가 환경의 다양한 측면을 접할 수 있기 때문에 일반화가 필요하다. 예를 들어 과거의 경험을 일반화하여 새로운 상황에 빠르게 적응해야할 필요가 있다. 풍부한 환경은 보상을 효율적으로 축적하기 위해서 과거의 state를 미래의 state로 일반화할 수 있는 능력을 요구한다.

 

[Imitation]

모방은 인간과 동물의 지능과 관련된 중요한 능력으로 언어, 운동과 같은 다른 능력의 빠른 습득을 촉진할 수 있다. 인공지능에서의 모방은 behavior cloning을 통해 학습하는 문제로 공식화되는 경우가 많다. 여기서 목표는 teacher의 observation, 행동, 보상 등 명시적인 데이터를 제공 받아 teacher의 행동을 재현하는 것이다.

 

하지만 자연적으로 이루어지는 관찰을 통한 학습은 teacher의 행동, 관찰, 보상 등 명시적인 데이터에 대한 접근 없이도 가능하다.

 

이러한 내용을 통해 복잡한 환경에서는 Behavior Cloning보다 Observation 학습 능력이 훨씬 넓고 현실적이며 다양한 지능을 효과적으로 개발하는데 기여할 수 있다.

 

우리는 이러한 관찰 학습의 능력이 보상의 극대화에 의해 이끌어내질 수 있다고 기대한다. 

 

[general intelligence]

이 논문에서 생각하는 가장 큰 잠재적 이점을 제공하는 능력이다. 일반적 지능은 다양한 상황에서 다양한 목표를 유연하게 달성할 수 있는 능력으로 정의된다. 이러한 일반 지능조차도 단일 보상을 극대화하는 것으로 이해되고 구현될 수 있다. 현실 세계의 동물들이 번식을 최대화하는데 성공하기 위해서는 광범위한 하위 목표(수렵,싸움,도주 등)를 달성할 수 있는 유연한 능력이 요구된다. 마찬가지로 AI agent도 단일 보상을 극대화하기 위해 똑같이 다양한 하위 목표를 달성할 수 있는 능력들이 요구되고 발현되므로 보상 극 대화는 일반 지능의 증진을 위해 핵심이 된다고 볼 수 있다.

 

[RL Agent]

결론적으로 Agent가 환경과 상호작용하며 지속적인 경험을 통해 보상을 극대화하는 RL Agent가 이 논문에서 주장하는 단일 보상 극대화의 Agent가 되기 적절하다는 것이다.

 

RL agent는 다음과 같은 특징을 가진다.

1. 환경과 상호작용하며 경험을 통해 보상을 극대화한다.

 

알고리즘 designer의 환경에 대한 생각을 통해 행동을 미리 결정하는 것보다 에이전트가 직접 경험하며 자신의 행동을 발견할 수 있는 일반적인 능력을 부여하는 것이 더 자연스럽다. 

 

강화학습은 복잡한 실제 환경에서 보상을 극대화하기 위한 학습 과정을 통해 인식, 언어, 사회 지능 등 지능과 관련된 능력을 얻을 수 있으며 이러한 능력은 지속적으로 증진된다.

 

강화학습 에이전트는 샘플 효율성에 대한 이론적 보장을 제공하지 않는다. 즉 환경이 구리면 (다양한 능력이 발현되기 부족한 환경) 학습의 실패 혹은 많은 시간이 소요될 수 있다. 하지만 역시나 다양한 능력이 발현되기에 충분한 환경에 놓인다면 복잡한 문제를 정교한 행동을 통해 풀어나갈 수 있다.

 

강화학습은 현실의 인간들이 직면한 환경보다는 범위가 훨씬 좁지만 바둑 등 몇몇 응용 분야에서 뛰어난 성과를 보여주었다.

 

 

[Discussion]

 

Which Environment?

 

그래서 어떤 환경이 가장 지능적인 행동을 발현시키는 것인가?

 

이 질문은 지능의 특정 영역에 초점을 맞추어 한 것일 수도 있지만 우리는 어떤 일반적인 목적이 모든 형태의 기능을 발현시킬 수 있는지에 대한 심오한 질문에 집중했다. 

 

다양한 환경에서 다양한 보상을 극대화하면 독특하고 강력한 지능이 발현될 수 있으며, 각 지능은 엄청난 능력을 보여준다. 좋은 보상 에이전트는 환경의 모든 요소를 활용하지만 어떤 형태로든 지능의 출현은 딱히 어떤 사항에 근거되지 않는다.

 

즉 인간이 태어나서 다양한 경험에 노출되면서 다르게 발달은 되긴 하지만 특정 문화나 교육에 관계없이 정교한 능력을 습득하게 되는 것처럼, 뭐 때문이라고 딱히 말하기가 힘들다 이거네요

 

Which reward signal?

 

보상을 정교하게 짜려는 욕구는 상세하게 구성된 보상이 일반적인 지능을 유도할 수 있다는 생각에서 종종 발생한다. 하지만 실제 환경은 너무나도 복잡하기 때문에 아주 간단한 보상에 대해서도 그와 관련된 상당히 다양한 능력이 발현된다. 예를 들어 둥근 조약돌을 주웠을 때 +1을 받게 하였을 때 이를 극대화하기 위해 자갈 분류, 자갈 집기, 자갈이 있는 곳으로의 이동 능력, 자갈 저장 능력, 파도가 자갈 분포에 미치는 영향 분석, 둥근 조약돌을 줍기 위해 주변 agent들을 설득하는 능력이나 자갈을 수집하는 회사를 설립하는 능력이 발현될 수 있다.

 

What else, other than reward maximisation, could be enough for intelligence?

 

비지도 학습이나 prediction 연구들은 경험을 이해하기 위한 효과적인 원칙을 제공할 순  있지만 행동 선택을 위한 원칙을 제공하지 않기 때문에 단독적으로는 어떠한 목표를 달성하는데 충분하지 않다.

 

지도 학습은 충분한 데이터가 주어지면 인간 지능과 관련된 모든 능력을 발현할 수 있다고 생각할 수 있다. 하지만 인간이 만든 데이터로부터의 지도 학습은 인간이 아닌 환경에서 인간이 아닌 목표를 위한 일반 지능에는 충분치 않다. 또한 인간 데이터가 풍부한 경우, 예상치 못한 창의적인 방식으로 문제를 해결하기 보다는 인간이 이미 알고 있는 행동을 통해 문제를 풀어나간다.

 

결론적으로는 강화학습만이 가능하다~

 

Which reward maximisation problem?

 

일반적으로 사용되는 누적 보상 최대화 말고도 다양한 목표(예를 들면 multi-objective learning, risk-sensitive objective, 선형 환경, 결정론적 환경에서의 연구 등이 있다. )들이 존재하는데 이는 특정 분야에 적합한 해답을 제시할 수 있지만 일반화된 해결책을 제공하지는 않는다.

 

Can offline learning from a sufficiently large data-set be enough for intelligence?

 

충분히 큰 데이터 세트를 통한 오프라인 학습만으로도 지능을 얻을 수 있나요?

 

오프라인 학습은 사용 가능한 데이터 내에서 이미 대부분 해결된 문제를 해결하는데에는 충분할 수 있다. 하지만 이러한 학습은 복잡한 환경에서 일반화가 필연적으로 불완전하다. 또한, 에이전트의 현재 문제를 해결하는데 필요한 데이터는 오프라인 데이터에서 발생할 가능성이 거의 없다.

 

RL은 온라인 상호 작용을 통해 에이전트는 현재 직면한 문제를 위해, 지식의 허점을 지속적으로 보완하고 데이터셋에 이미 있는 행동과 새로운 다른 행동을 통해 더 큰 보상을 찾는다.

 

Is the reward signal too impoverished?

 

복잡한 환경에서 보상을 최대화할 수 있는 샘플 효율적인 강화학습 에이전트가 존재하는지 궁금해할 수 있다. Model-Free 강화학습을 포함한 많은 방법은 가치 함수 근사를 통해 미래 보상과 Observation의 특징을 연관시키는 법을 배우며 학습한다. Model-based 애들은 관찰에 대한 예측을 모델을 통해 수행하여 보상 극대화를 촉진한다. 연구자들이 가정을 도입하거나 문제를 단순화하는 것은 복잡한 환경에서 샘플 효율적인 강화학습을 수행하기 위함이다. 하지만 우리는 이를 정면으로 박치기할 예정이다. 그냥 근본적인 보상만 두고 진짜 괴물 RL 만들거다. 너네도 해라

 

 

결론:

 

이러한 측면을 통해 RL은 인공지능의 일반 지능을 이해하고 구축하느데 직접적인 길을 열어준다.

반응형