Mastering the game of Go without human knowledge
https://www.nature.com/articles/nature24270
Nature volume 550, pages354–359(2017)Cite this article
-
56k Accesses
-
1014 Citations
-
2588 Altmetric
Abstract
A long-standing goal of artificial intelligence is an algorithm that learns, tabula rasa, superhuman proficiency in challenging domains. Recently, AlphaGo became the first program to defeat a world champion in the game of Go. The tree search in AlphaGo evaluated positions and selected moves using deep neural networks. These neural networks were trained by supervised learning from human expert moves, and by reinforcement learning from self-play.
Here we introduce an algorithm based solely on reinforcement learning, without human data, guidance or domain knowledge beyond game rules. AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games. This neural network improves the strength of the tree search, resulting in higher quality move selection and stronger self-play in the next iteration. Starting tabula rasa, our new program AlphaGo Zero achieved superhuman performance, winning 100–0 against the previously published, champion-defeating AlphaGo.
인공지능의 오랜 목표는 빈석판tabula rasa같은 어려운 영역에서 인간을 뛰어넘는 유능함을 학습하는 알고리즘이다. 최근에 알파고는 바둑대회 세계챔피언을 패배시킨 첫번째 프로그램이 되었다. 알파고의 트리 탐색은 딥러닝(deep neural networks, DNN)을 이용하여 착석위치를 평가하고 착석했다. 인간 전문가의 착석 데이터를 활용하여 이러한 신경망을 관리하고 학습시켰다. 그리고 알파고의 신경망은 스스로 바둑을 두며 강화되었다.
여기 우리는 게임 규칙 너머에 있는 기보(Human data), 지도(Guidance), 영역지식(Domain Knowledge)없이 스스로 강화학습을 하는 새로운 알고리즘을 도입했다. 알파고는 스스로를 가르치는 선생님이 되었다. 신경망은 알파고 스스로의 착석과 게임의 승리자를 예측하게끔 학습되었다. 이 신경망은 트리 탐색의 강도를 증가시키고, 다음 반복절차(iteration)에서 더 나은 착석과 경기진행을 가능하게 했다. 빈 석판(tabula rasa)상태로 시작하여, 우리의 새로운 프로그램인 알파고 제로는 이전에 챔피언을 패배시킨 알파고를 상대로 100-0의 전적을 거두는 초인적인 성능을 가졌다.
과학기술의 발전을 빨라지고 있다.
빈석판 (Tabula rasa)
타불라 라사(Tabula rasa, 라틴어로 "깨끗한 석판")는 인식론에서 어떤 개인인 인간이 태어날 때에는 정신적인 어떠한 기제도 미리 갖추지 않고 마음이 '빈' 백지와도 같은 상태로 태어나며 출생 이후에 외부 세상의 감각적인 지각활동과 경험에 의해 서서히 마음이 형성되어 전체적인 지적 능력이 형성 된다는 개념이다.
이는 '태어나는 것인가? 길러지는 것인가?'에 대한 논쟁에서 어떤 개인의 개성, 사회적 감정적 행동과 지성이 양육되어 형성되는 특질이라는 것을 지지하는 것이다. (WIKI 편집자)
'Future' 카테고리의 다른 글
영국-인도-캐나다의 국내총생산(GDP)비교 (0) | 2020.03.17 |
---|---|
인도의 경제성장 가능성 (인도 경제 2019년 요약 및 2020년 전망) (0) | 2020.03.17 |
수확체증의 법칙(increasing returns to scale) / 규모의 경제 (0) | 2020.03.16 |
수확체감의 법칙(Diminishing returns) (0) | 2020.03.16 |
생산성 패러독스(Productivity paradox) (0) | 2020.03.16 |
댓글