진행중 한글번역

[AI⑤중급]강화 학습

코스/코스구분
AI / 수료
기관
Microsoft
언어/번역
한글/한글번역
학습 기간
중기(6~11주)
수강 신청 기간
2018.01.01 ~ 2030.01.02
강좌 수강 기간
2018.01.01 ~ 2030.01.02

강의소개

이 과정은 인공 지능 분야의 Microsoft 전문 프로그램의 일부입니다.

강화학습 (RL)은 에이전트가 목표를 달성하기 위해 환경과 상호 작용하여 학습하는 기계학습 영역입니다.

이 과정에서는 강화학습의 세계를 소개합니다. 강화학습 문제를 구성하는 방법을 배우고 뉴스 추천, 그리드 세계에서 탐색하는 방법 배우기, 카트 폴 균형 조정과 같은 고전적인 예를 다루기 시작합니다.

다중 슬롯 머신, 동적 프로그래밍, TD (시간차) 학습에서 기본 알고리즘을 탐색하고 특히 딥 러닝을 사용하여 함수 근사를 사용하여 더 큰 상태 공간으로 진행합니다. 또한 정책 경사 및 행위자 비판 방법을 사용하여 최상의 정책을 검색하는데 초점을 맞춘 알고리즘에 대해 배웁니다. 그 과정에서 Minecraft 게임을 기반으로 구축 된 인공 지능 실험 및 연구 플랫폼인 Project Malmo를 소개합니다.

학습목록

강화 학습 문제
Markov 의사 결정 과정
Bandits-적기
동적 프로그래밍
시간차 학습
대략적인 솔루션 방법
정책 경사 및 배우 비평가
작동하는 RL

강사소개

Jonathan Sanito

수석 콘텐츠 개발자
Microsoft

Jonathan은 데이터 및 분석 온라인 교육에 주력하는 Microsoft의 콘텐츠 개발자 및 프로젝트 관리자로 일하고 있습니다. 그는 Microsoft Dynamics NAV에서 Windows Active Directory에 이르기까지 개발자 및 IT 전문가 대상 교육에 참여했습니다.

Microsoft에 오기 전에 Jonathan은 Microsoft 파트너의 컨설턴트로 일하면서 Microsoft Dynamics NAV 솔루션을 구현했습니다.

Roland Fernandez

딥 러닝 테크놀로지 센터 선임 연구원 겸 AI 학교 강사
Microsoft Research AI

Roland는 Microsoft Research AI의 Deep Learning Technology Center에서 연구원 및 AI School 강사로 일하고 있습니다. 그의 관심 분야는 강화 학습, 자율적 멀티 태스킹 학습, 상징적 표현, AI 교육, 정보 시각화 및 HCI입니다. DLTC에 오기전에 Roland는 시각화 및 HCI 프로젝트, 특히 SandDance 프로젝트를 수행하는 MSR의 VIBE 그룹에서 일했습니다. MSR 이전에 Roland는 자연 사용자 인터페이스, 활동 기반 컴퓨팅, 고급 프로토 타이핑, 프로그래머 도구, 운영 체제 및 데이터베이스 영역에서 Microsoft 및 기타 회사에서 근무했습니다.

Adith Swaminathan

연구원
Microsoft Research AI

Adith는 Microsoft Research의 Deep Learning Technology Center 연구원입니다. 그는 기계학습을 사용하여 인간중심시스템을 개선할 수 있는 원리와 알고리즘을 연구합니다. Adith는 2015-16 학년도에 암스테르담 대학의 정보 및 언어처리시스템 그룹을 방문하고 2015년 여름에 Microsoft Research NYC의 기계 학습 그룹인 Computer Human Interactive Learning 그룹 (현재는 Machine Teaching Group이라고 함)에 인턴을했습니다. 2013년 여름에는 Microsoft Research Redmond에서, 2012년 여름에는 Microsoft Research의 Search Labs에서 근무했으며, 2010년 6월부터 2011년 7월까지 14개월 동안 Tower Research Capital에서 전략가로 일했습니다.

Kenneth Tran

책임 연구원
Microsoft Research AI

Kenneth는 딥러닝 기술 센터의 수석 연구원입니다. 그는 최적화 알고리즘에서 분산 시스템에 이르기까지 기계학습에 폭 넓은 관심을 가지고 있습니다. 그의 현재 주요 연구 분야는 정책을 벗어난 학습 및 샘플 효율적인 방법, 안전한 탐색, 역 강화 학습 및 드론 제어, 데이터 센터 에너지 최적화, 실내 농업 최적화 등을 포함한 실제 최적 제어 애플리케이션에 초점을 맞춘 심층 강화 학습입니다.

Katja Hofmann

연구원
Microsoft Research AI

Katja는 Microsoft Research Cambridge의 Machine Intelligence and Perception 그룹 연구원입니다. 그녀는 지능형 기술 개발을 위한 실험 플랫폼으로 인기게임인 Minecraft를 사용하는 Project Malmo의 연구 책임자입니다. 그녀의 장기적인 목표는 사람들과 협력하는 방법을 배우고, 사용자에게 권한을 부여하고, 복잡한 실제 문제를 해결하는데 도움이 되는 AI 시스템을 개발하는 것입니다. Project Malmo 외부에서 Katja는 정보 검색을 위한 온라인평가 및 대화 형 학습 작업을 수행합니다. 이는 기계학습을 인공 지능에 적용하여 보다 지능적인 검색 및 추천 시스템을 개발하는 방법을 이해하는 것을 의미합니다.

Matthew Hausknecht

연구원
Microsoft Research AI

Matthew는 Microsoft Research의 연구원입니다. 그의 관심사는 지능형 에이전트의 기능을 확장하는 것입니다. 그의 주요 연구는 강화 학습과 딥러닝의 교차점입니다. Matthew는 오스틴에있는 텍사스 대학교에서 Peter Stone의 감독하에 박사 학위를 받았습니다.

About this course

This course is part of the Microsoft Professional Program in Artificial Intelligence.

Reinforcement Learning (RL) is an area of machine learning, where an agent learns by interacting with its environment to achieve a goal.

In this course, you will be introduced to the world of reinforcement learning. You will learn how to frame reinforcement learning problems and start tackling classic examples like news recommendation, learning to navigate in a grid-world, and balancing a cart-pole.

You will explore the basic algorithms from multi-armed bandits, dynamic programming, TD (temporal difference) learning, and progress towards larger state space using function approximation, in particular using deep learning. You will also learn about algorithms that focus on searching the best policy with policy gradient and actor critic methods. Along the way, you will get introduced to Project Malmo, a platform for Artificial Intelligence experimentation and research built on top of the Minecraft game.

What you'll learn

Reinforcement Learning Problem
Markov Decision Process
Bandits
Dynamic Programming
Temporal Difference Learning
Approximate Solution Methods
Policy Gradient and Actor Critic
RL that Works