본문 바로가기

Notice

행복해지고 싶은 사람들의 질주

Link

Calendar

Archives

Visits

Today

Yesterday

전체 글

강화학습 논문 리뷰: Reward is Enough

논문 리뷰 2023. 9. 7. 강화학습 논문 리뷰: Reward is Enough [Abstract]해당 논문에서는 지식, 학습, 지각, 사회 지능, 언어, 일반화, 모방 등 지능과 관련된 능력들이 보상을 극대화하는 것에 종속되어 있다고 주장한다. 따라서 보상을 극대화하는 것만으로도 지능이 필요한 영역에서의 어떠한 행동을 유도하기에 충분하다는 의미에서 논문 제목이 Reward is Enough다. 이러한 측면을 통해 결국 강화학습을 통한 학습 방법이 General한 인공지능에 대한 해답이 될 수 있을 것이라고 논문에서는 주장한다. [Intro]이 논문에서는 "무엇이 에이전트(인간이든 RL이든)가 다양한 영역에서 현명하게 행동하도록 하나요?" 라는 질문에 "각각의 영역에서 그 능력을 이끌어내기 위해서 필요한 목표를 추구하는 것" 에서 발생한다는 것이라고 대답한다. 이러한 측면에서 본 논..

Reinforcement Learning 2023. 4. 12. [RL] Q-Learning and Double Q-Learning Q-Learning: Q-Learning은 1989년 Watkins에 의해 제안된 강화학습 알고리즘이며 optimal action-value function Q(s,a)의 off-policy 학습이다. 이 알고리즘은 Q-value iteration을 mimics하였고 importance sampling을 요구하지않는다는 특징이 있다. 해당 알고리즘과 비슷한 알고리즘으로는 expected SARSA가 있다. Q-Learning은 next state의 Q-value를 추정하는 과정에서 max 연산을 사용한다는 점에서 expected SARSA와 차이가 있다. 또한 off-policy 알고리즘이기 때문에 target policy와 behavior policy가 각기 다르다는 특징 또한 있다. 2013년에는 해..

논문 리뷰 2023. 3. 13. 모델링 논문 리뷰: A Dynamical Explanation of the Falling Cat Phenomenon Author: Joonhee Lim Research Field: Decision & Planning Date: 2023/03/13 Summary 저자는 고양이의 낙하 현상에서 3가지 특성을 발견하였다. 그것은 1) 고양이의 상체는 구부러지지만 비틀리지는 않는 것 2) 떨어지면서 전방으로 구부러진 척추는 옆으로 뒤로 옆으로 마지막으로 다시 앞으로 구부러지면서 초기와 같은 되는 것3) 척추의 후방 구부러짐 정도는 전방 구부러짐 정도보다 훨씬 작다는 것이다. 이 논문에서 저자는 이러한 측면을 고려한 모델을 구축하여 논홀로노믹한 고양이의 낙하 현상을 설명하였다. 연구자들은 고양이의 몸의 앞부분과 뒷부분을 서로 다른 회전축을 가진 두 개의 강체로써 보았다. 이러한 두 강체에 저자가 제안한 제약들을 부여함으로써 어..

논문 리뷰 2023. 3. 13. 모델링 논문 리뷰: The Development of Explanation of Falling Cat Problem and Applications of Falling Cat Phenomenon Author: Joonhee Lim Research Field: Decision & Planning Date: 2023/03/13 0. Abstract 일반적으로 사람들은 떨어지는 동안에 그들의 Orientation을 바꾸기 어렵다. 하지만 고양이들은 떨어지는 동안에 그들의 Orientation을 바꾸고 발로 착지하는데 쉽게 성공한다. 이러한 현상은 Falling Cat Phenomenon이라고 한다. 이 논문의 목적은 Falling Cat 현상이 각운동량 보존 법칙을 위배하는지 분석하는 것이다. 또한 과거에 있었던 관련된 몇 가지 연구들을 소개한다. 결론적으로는 Falling Cat 현상은 각운동량 보존 법칙을 준수하였다. 1. Introduction 많은 연구자들은 고양이는 떨어지면서 어떻게 성공적인..

Reinforcement Learning 2023. 3. 10. [RL] 순차적 의사결정 문제 정의 단계에서의 POMDP와 MDP 차이 Author: Joonhee Lim Research Field: Decision & Planning Date: 2023/03/10 0. POMDP (Partially Observable MDP) vs MDP (Fully Observable MDP) 일반적으로 State $s_t$와 Observation $o_t$가 같고 제공할 수 있는 모든 정보를 Agent에게 제공하는 것을 가정하는 MDP 문제 규정은 현실과 맞지 않는 부분이 있다. 현실에서는 어떤 정보를 관측할 때 불확실성 또는 노이즈가 분명히 존재하기 때문이다. 즉, 자율주행의 제어를 위해 MDP의 State Space를 Ego 차량의 위치, 속도, 가속도라고 규정한다고 해도 현실에서의 Observation은 제공하지 못하는 정보가 있을 수도 있고..

Simple Summary of Mobile Robot Motion Planning Methods

Autonomous Driving 2023. 3. 7. Simple Summary of Mobile Robot Motion Planning Methods Author: KangchanRoh Research Field: Mobile Robot Planning Date: 2023/03/07 Reference Review Paper Reference Link https://github.com/AtsushiSakai/PythonRobotics#a-algorithm GitHub - AtsushiSakai/PythonRobotics: Python sample codes for robotics algorithms. Python sample codes for robotics algorithms. Contribute to AtsushiSakai/PythonRobotics development by creating an account on GitHub. github.com..

[DL] Transfer Learning 맛보기

Deep Learning 2023. 2. 3. [DL] Transfer Learning 맛보기 Author: Dahyeon Lee Research Field: Computer Vision Date: 2023/02/03 전이학습과 관련한 내용들을 찾아보게 되어 간단하게 정리해보고자 합니다. 전이학습이라고는 pre-trained 모델을 불러와 약간의 파라미터만 변경하여 fine-tuning 해 본게 전부인 줄 알고 있었던 터라 layer를 freeze 시켜 전이학습 하는 방법에 대해서 알아볼 필요가 있었습니다. Transfer Learning 간단하게 Transfer Learning (전이학습)이라고 하면, pre-trained model (사전 학습한 모델)을 사용하여 다른 domain(task)에서의 높은 성능을 내고자 하는 학습 방법입니다. source domain에서 학습한 pre-traine..

[3D Reconstruction] NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review 리뷰 (4)

논문 리뷰 2023. 1. 26. [3D Reconstruction] NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review 리뷰 (4) Author: Jihwa Lee Team: Autonomous Driving Team @ CAI Lab Date: 2023/01/26 출처: https://arxiv.org/pdf/2210.00379v1.pdf 3.8 Applications 아래 많은 분야의 모델들 중 관심있는 분야인 Image Processing의 Labeling 부분만 살펴보겠다. 3.8.1 Urban -> pass 3.8.2 Human Body -> pass 3.8.3 Image Processing Semantic-NeRF (March 2021) novel view를 위한 semantic label을 생성할 수 있는 NeRF model이다. 추가적인 indendent MLP를 추가하여 해결하였다. MLP의 input으로는 input..

[3D Reconstruction] NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review 리뷰 (3)

논문 리뷰 2023. 1. 25. [3D Reconstruction] NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review 리뷰 (3) Author: Jihwa Lee Team: Autonomous Driving Team @ CAI Lab Date: 2023/01/25 출처: https://arxiv.org/pdf/2210.00379v1.pdf 3. Neural Radiance Field ( NeRF ) 아래 많은 분야의 모델들 중 관심있는 분야인 Fundamentals와 Pose Estimation 부분만 살펴보겠다. 3.1 Fundamentals Mip-NeRF (March 2021) 기본 모델에 대비하여 저해상도에서 좋은 결과를 나타냈다. standard NeRF의 ray tracing 대신 *cone tracing을 이용 ( *cone tracing: 두께가 없는 광선을 두꺼운 관선으로 대체하는 광선 추적 알고리즘) 이를 위해 *..

이전 1 2 3 4 ··· 8 다음

티스토리툴바