머신러닝을 알린 알파고의 알고리즘 분석

Posted by ironmask84
2017. 7. 12. 12:08 컴퓨터공학/IT 트렌드


(출처 : 소프트웨어 센터 웹진 자료)


머신러닝을 알린 알파고의 알고리즘 분석 



인공지능에 대한 관심은 이전에도 있었지만 최근처럼 뜨거운 열풍을 일으킨 것은 역시 알파고(AlphaGo)다. 알파고는 우리나라 이세돌 9단과 바둑 대결을 한 구글 딥마인드(DeepMind)에서 개발된 인공지능이다. 대결 전에는 이세돌 9단의 우세를 점치는 전문가들이 많았지만 실제 경기에서는 알파고의 승리로 끝났다. 그렇다면, 어떻게 컴퓨터가 사람처럼 바둑을 두는 것인지 자연스러운 의문을 가지게 된다. 이번 회에서는 알파고가 바둑을 두는 알고리즘에 대해 단국대학교 소프트웨어공학연구센터의 김규억 박사를 만나 자세한 사항을 들어본다. 





Q: 본격적인 이야기 전에 머신러닝에 대해 설명을 부탁 드립니다. 

머신러닝(Machine Learning)은 컴퓨터에 답이 정해진 샘플 데이터를 넣으면서 반복적으로 학습을 시킨 후, 새로운 문제가 나타나면 스스로 답을 찾을 수 있도록 하는 것입니다. 말 그대로 컴퓨터한테 공부를 가르쳐서 지식을 얻게 하는 것이지요. 학습 자료를 계속 입력하고, 거기서 일정한 패턴을 찾아낸 후 문제가 입력되면 정답을 제시할 수 있는 모델이 만들어집니다(그림1).  



<그림1> 머신러닝의 학습을 통한 예측 모델 생성 



 이렇게 만들어진 모델로 새로운 문제가 제시되면 정답을 찾아낼 수 있는 것이죠. 사람이 수학 문제를 많이 풀면, 비슷한 유형의 문제가 나오면 풀 수 있는 것처럼 컴퓨터도 학습을 하면 별다른 로직 없이 정답을 알려주는 것입니다. 



<그림2> 머신러닝으로 만들어진 모델로 정답 예측 




Q: 컴퓨터가 스스로 생각한다는 것은 잘 알겠는데 어떤 원리인지는 잘 모르겠습니다. 이 부분을 설명 부탁 드립니다. 

우리가 코딩을 할 때, 가장 많이 사용하는 예약어 중의 하나가 바로 “IF THEN”문입니다. 무슨 얘기냐 하면, 선택이 필요한 경우 어떤 것을 선택했는지에 따라 다양한 로직으로 분기를 하게 됩니다. 예를 들어, 고양이 사진을 보여주고 이 것이 고양이 사진인지 컴퓨터가 판단을 한다면 이전에는 주로 “IF THEN”문으로 했는데 아시는 것처럼 “IF THEN”문은 비교해야 하는 대상을 주어야 분기가 가능하다는 것입니다. 그런데, 고양이 형태가 한둘이 아니기 때문에 이를 모두 “IF THEN”문으로 만들기는 거의 불가능하지요. 

기계학습의 경우는 고양이 사진을 컴퓨터한테 보여주면서 “이것은 고양이 사진이야”라고 알려주게 되는데, 다양한 고양이 사진을 수없이 보여주면 어떠한 패턴이 생겨납니다. 패턴이 만들어지면, 새로운 고양이 사진을 패턴에 대입하고 이것이 고양이 사진인지 아닌지를 판단하는 것이지요. 이러한 것은 다양한 알고리즘에 의해 만들어지는데 자세한 사항은 아래 사이트를 참고하시면 될 것 같습니다. 그림3은 기계학습의 한 종류인 딥러닝을 보여주고 있습니다. 

 


<그림3> 고양이 사진을 판단하는 기계학습의 예 

 


출처: 사이언스 모션 



 <참고사이트>



Q: 사람하고 똑 같은 학습을 한다는 말씀이시지요? 그래서, 알파고가 바둑을 둘 수 있었던 것 같네요. 기계학습을 하기 위해 필요한 것들이 있을 것 같은데 어떤 것이 있을까요? 

기계학습에는 지도 학습, 비지도 학습, 그리고 강화 학습과 같이 크게 3종류로 구분할 수 있습니다. 지도 학습은 앞에서 말한 것처럼 정답을 알려줘서 학습을 하는 것이고, 비지도 학습은 정답은 없고 데이터 요소에 따라 군집화나 밀도를 추론해서 결과값을 예측하게 됩니다. 마지막으로, 강화 학습은 현재 상태에서 최적의 행동은 무엇인지를 학습하는 것입니다. 어떤 행동이냐에 따라 보상이 주어지는데 이 보상이 최대화 되도록 학습을 반복하게 됩니다. 강화 학습의 대표적인 예가 게임 트리 탐색 알고리즘입니다. 알파고를 설명하기 위해 필요한 것이죠. 게임 트리 탐색은 바둑이나 체스처럼 두 명의 플레이어가 번갈아 취하는 행동을 트리 형태로 표현하는 것입니다(그림4).  



<그림4> 게임 트리 탐색 알고리즘의 예 



 출처: LG CNS 



그림4에서 보는 것처럼 체스를 한번씩 둘 때마다 오른쪽과 같이 트리의 노드가 하나씩 늘어나는 것입니다. 이러한 방법은 모든 경우의 수를 탐색할 수 있는데, 어떤 순서로 각 노드에 방문하냐에 따라 탐색 시간이 엄청나게 차이가 날 수 있습니다. 일반적으로 게임 트리 알고리즘에서 많이 사용되는 것이 최소-최대 알고리즘인데, 알파고는 최소-최대 알고리즘을 개선한 몬테카를로 트리 탐색(MCTS; Monte Carlo Tree Search) 알고리즘을 사용한 것입니다. 



Q: 몬테카를로 트리 탐색을 특별히 선택한 이유가 있을 것 같은데요. 

바둑은 다양한 경우의 수를 미리 예측해서 두게 됩니다. 다시 말해, 얼마나 다양한 경우의 수를 미리 예측할 수 있냐에 따라 승패가 갈릴 수는 없겠지만 바둑기사가 최적의 위치에 돌을 두게 할 수 있는 정보이기 때문에 많으면 많을수록 좋을 것입니다. 그런데, 한정된 시간에 항상 모든 경우의 수를 찾을 수는 없을 겁니다. 몬테카를로 트리 탐색 알고리즘은 현재 상태에서 한 단계 예측을 하고, 이 예측에 따른 시뮬레이션 결과에 따라 다음 단계를 예측하는 것입니다. 이 과정을 일정 횟수 반복하게 되는데, 모든 경로를 탐색할 필요가 없다는 장점이 있어 시간이 한정되어 있다면 매우 효율적인 방법입니다(그림5). 

 


<그림5> 몬테카를로 트리 탐색 알고리즘의 구동 방식 


 


출처: http://mcts.ai  



정리를 해보면, 바둑과 같이 턴 형태의 게임은 게임 트리 탐색 알고리즘을 사용하게 되는데 모든 경우의 수를 확인할 수 없으니 몬테카를로 트리 탐색 알고리즘으로 탐색 횟수를 줄이는 것이라고 생각하면 됩니다. 



Q: 학교 다닐 때 배웠던 기억이 날 정도로 보통의 이론으로 들리는데, 정말 이 것으로 알파고가 이세돌 9단을 이긴 것입니까? 

그 질문이 나올 줄 알았습니다. 많은 분들이 기계학습, 딥러닝과 같은 얘기를 들으면 마치 새로운 기술로 생각하시는데, 이 이론은 이미 오래 전부터 뉴럴 네트워크(Neural Network) 등으로 알려져 있던 이론입니다. 마치, 사람의 뇌와 같이 컴퓨터가 생각하도록 하자는 것이었죠.



Q: 그럼, 그렇게 오래된 이론이 왜 이제서야 주목을 받게 된 것인가요? 

기계학습의 핵심은 학습입니다. 얼마나 많은 학습을 시키냐에 따라 컴퓨터의 똑똑함이 결정되는 것이죠. 이 때, 가장 중요한 요소가 학습 데이터와 컴퓨터의 처리 속도입니다. 그림6을 보시면, 왼쪽 그림처럼 15개의 학습 데이터로 일정 패턴이 나타난 것을 맞는 것이다라고 할 수 있겠지만 신뢰도는 다소 떨어지겠지요. 오른쪽 그림을 보시면, 100개의 학습 데이터로 패턴이 만들어졌습니다. 15개일 때보다 신뢰도가 많이 올라갈 겁니다. 

 


<그림6> 학습 데이터 수에 따른 비교 

 


출처: Pattern Recognition and Machine Learning 



15개일 때와 100개일 때 만들어진 두 개의 패턴이 있다고 가정할 때, 새로운 데이터를 예측해야 한다면 100개로 만들어진 패턴이 더 정확하게 나타날 것입니다. 학습 데이터가 천개, 만개로 늘어난다면 정확도는 더 올라갈 수 있겠지요. 과거에는 학습 데이터를 만들기가 너무 어려웠습니다. 지금도 어렵기는 마찬가지이지만 IoT나 빅데이터와 같은 것을 통해 많은 학습 데이터를 확보할 수 있게 되었지요. 

또 하나의 요소인 학습 속도에 대해 알아보죠. 학습 속도는 말 그대로 컴퓨터의 처리 속도에 비례합니다. 학습 데이터를 많이 학습을 하기 위해서는 오랜 시간이 필요한데 처리 속도가 빠르다면 짧은 시간에도 많은 학습을 할 수 있는 것이지요. 최근에는 기술 발달로 인해 컴퓨터의 처리속도가 많이 빨라져 기계학습의 발전을 도와주고 있습니다. 






Q: 그럼 다시 알파고 얘기로 돌아가 보겠습니다. 알파고 승리의 원동력은 무엇입니까? 

알파고는 1202개의 CPU와 176개의 GPU가 사용되었다고 합니다. 어마어마한 수치이죠. 아마도 구글이 아니면 해내기 어려울 정도의 하드웨어가 사용되면서 처리 속도를 높였죠. 이러한 처리 속도는 학습 속도와 이세돌 9단과 바둑을 두는 속도에도 엄청난 영향을 주게 됩니다.

자 그럼, 이제 알파고의 트레이닝 과정을 살펴보겠습니다. 단순합니다. 알파고 한테 바둑 기사들이 두었던 이전의 기보를 계속 학습시키는 것입니다(그림7). 알파고는 학습한 기보의 내용을 모두 기억하는 것이 아니라 패턴으로 기억하는 것이라고 생각하는 것이 이해하기가 쉽습니다. 

 


<그림7> 알파고가 학습한 경우의 수 


 


출처: Google  



이렇게 기억한 것을 기초로, 실제 바둑 기사와 바둑을 두게 됩니다. 바둑 기사가 착수하는 점을 입력 받아 많은 패턴 중에서 최적의 대응을 하게 되는 것이지요. 기억하실 것은 알파고니까 가능한 겁니다. 



Q: 알파고 말고는 불가능 하다는 말씀인가요? 

무슨 얘기냐 하면, 아까 얘기한 것처럼 1202개의 CPU와 176개의 GPU이기 때문에 이세돌 9단과 대적을 했다는 것입니다. 이 정도의 하드웨어가 아니었다면 한정된 시간에서 많은 오류를 범했을 겁니다. 고성능의 처리 속도로 많은 경우의 수를 예측했기 때문에 이길 수 있었다는 얘기지요. 그만큼, 기계학습의 가장 중요한 성공 포인트는 많은 학습 데이터와 빠른 처리 속도입니다. 물론, 이 외에도 예측을 위해서 더 세밀한 부분들이 있지만 이번 시간에는 기본적인 부분만 다뤄야 할 것 같습니다. 



Q: 왜 구글이나 IBM이 인공지능의 선두 주자인지 알 것 같습니다. 알파고가 이세돌 9단을 이기고 세계랭킹 4위에 올랐습니다. 향후 알파고의 랭킹을 예측해 보신다면요? 

재미있는 질문입니다. 제가 확실하게 얘기하고 싶은 것은 알파고는 시간이 갈수록 기하급수적으로 더 강해진다는 것입니다. 왜냐하면, 계속 기존의 바둑 기보를 학습할 것이기 때문입니다. 


 

<그림8> 알파고의 세계랭킹 


 



출처: 인사이트  



알파고가 이세돌 9단과의 대전을 준비할 때는 이세돌 9단의 이전 공식 기보는 통째로 학습 했을 것이고, 세계적인 기사들의 기보도 학습했을 겁니다. 새로운 도전자가 나타난다면, 순식간에 도전자의 바둑 방식을 파악해서 패턴화할 것입니다. 이세돌 9단과의 대전에서 나타난 수준을 생각하면서 도전했다가는 아마 큰 낭패를 볼 수 있을 겁니다. 



Q: 스타크레프트와 같은 진짜 게임에 도전하겠다는 의사도 밝혔는데 어떤 결과가 올지 기대가 됩니다. 오늘 말씀을 정리해 주시죠. 

IoT가 발전하면서 빅데이터의 활용도와 중요성이 점점 커지고 있고, 빅데이터로 인해 기계학습의 활용도도 더 확대될 것으로 예상됩니다. 많은 산업들이 사람들에 의해 의사결정이나 관리가 이루어졌던 것이 현실이었습니다. 하지만, 기계학습을 활용한다면 사람보다 더 세밀하고 정확한 예측과 대응책을 제시해 줄 것으로 기대됩니다. 앞으로 많은 분야에서 기계학습에 대한 관심이 필요한 시점인 것 같습니다.  

출처 : 
http://www.sw-eng.kr/member/customer/Webzine/BoardView.do?boardId=00000000000000045466&currPage=1&searchPrefaceId=&titOrder=&writeOrder=&regDtOrder=&searchCondition=TOT&searchKeyword=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D