딥마인드는 크게 두가지의 방향성을 가지고 있습니다.

  1. Intelligence 통해 해결하라.
  2. 그 Intelligence 를 이용하여 나머지 모든 것을 해결하라.


인공지능(AI, Aritificial Intelligence)는 기계를 더 똑똑하게 만드는 것을 목표로 하는 일종의 컴퓨터기반 과학/공학입니다. 하지만 그동안의 인공지능은 사람이 프로그래밍한 것으로써 모든 상황에 대한 해결책이 기계에 수작업으로 입력되는 방식이었습니다. 한가지 목적만을 해결할 수 밖에 없기에당연히 활용범위가 좁을 수 밖에 없었습니다. 예상치 못한 상황이 발생하면 그냥 고장나기 마련이죠. 이들에게는 '프로그램되어 있지 않은' 상황에 대처할 능력이 전혀 없기 때문입니다.


아마 지금까지 알려진 가장 유명한 인공지능은 IBM의 DeepBlue일 것입니다. 그는 1997년에 세계 체스 챔피언인 가리 카스파로프(Га́рри Ки́мович Каспа́ров)를 이겼습니다.

Deep Blue vs. Garry Kasparov (1997)Deep Blue vs. Garry Kasparov (1997)
Deep Blue vs. Garry Kasparov (1997)

데미스 하사비스는 이 경기가 열리던 1997년에 캠브리지에서 공부하고 있었다고 합니다. 그는 체스에도 꽤 능통했기 때문에, 이 게임을 유심히 관찰하였다고 합니다. 그가 발견한 딥블루의 문제점은 체스 외에는 아무것도 하지 못한다는 것입니다. 딥블루에 내장된 시스템과 프로그램은 오직 체스를 두기 위한 용도로만 작동하기 때문에, 오히려 그보다 더 쉬운 카드 게임이나 가위바위보 등은 전혀 하지 못한다는 사실입니다. 딥블루는 체스를 마스터했지만 그 지식을 가지고는 체스 외의 다른 어떤 분야에도 활용이 불가능했습니다. 반면에 개리 카스파로프는 '인간'으로써 기계만큼 체스를 잘 두었지만, 체스외에도 많은 것을 할수 있다는 사실이 데미스 하사비스에게 영감을 주었습니다. "사람처럼 생각하는 기계를 만들수 없을까?"


딥블루는 인공지능 역사에 있어서 엄청난 업적이긴했지만, 데미스는 더 큰 꿈을 갖습니다. 그것을 넘어서는 것이죠. 이는 결국 General AI(범용적인 인공지능)을 만들수는 없는가?에 대한 질문으로 귀결됩니다. 이러한 범용 학습이 가능한 예시는 바로 

우리의 머리 속에 들어있는 녀석이죠. 이 뇌가 유일한 예입니다. 딥마인드는 이것을 가능케 하는 것을 목표로 하고 있습니다. 구체적으로 다음을 목표로 하는 범용 학습 알고리즘(General-Purpose Learning Algorithms)을 딥마인드에서 개발하고 있습니다. 

  • Learn automatically from raw inputs- not pre-programmed : 이는 사전에 어떠한 수작업이나 프로그래밍 작업 없이, 순수하게 input값(기초데이터와 경험)만을 가지고서 스스로 학습하는 방식입니다. 
  • General - same system can operate across a wide range of tasks : 이는 하나의 시스템으로 다양한 환경을 넘나들며 실행해도 아무런 지장이 없는 '범용적인' 시스템에 관심이 있습니다.

 이것을 일명 Artificial 'General' Intelligence(AGI)로 지칭하겠습니다. 이는 범용적 인공지능으로써 Flexible하고 adaptive, inventive한 발상입니다. 일반적인 프로그램과는 다르게, 예상밖의 상황에 적절하게 대응할 수 있게되는 것입니다. 이를 구현하기 위해서 딥마인드는 다음의 두가지 방법을 채택하였습니다.


1. 강화학습(Reinforcement Learning Framework)

Agent는 어떠한 특수한 환경(Environment)에 속해 있습니다. 이 에이전트는 환경과 소통할 때 관찰과 행동이라는 두가지 방법을 사용합니다. 관찰은 감각기관을 통해 환경을 살펴보는 것입니다. 현재는 대부분 시각을 사용하지만, 앞으로는 그외의 다른 감각양식으로 확대될 것입니다. 이 시스템에서 중요한 점은 관찰내용에 불필요한 잡음(Noise)가 포함되어있어서 해석이 간단하지는 않다는 것입니다. 에이전트는 불완전한 관찰내용을 토대로 환경을 학습해야 합니다. 환경에 대한 모델이 만들어지면, 이를 이용해 현재 상황에서 가능한 다양한 방법 중에서 목표에 최대한 근접한 최적화된 행동을 선택해야 합니다. 무엇을 할지가 정해지면 그것을 실행에 옮기고 그 이후의 변화를 다시 관찰하는 작업을 실시간으로 반복합니다.


이 그림은 아주 단순해 보이지만, 이를 구현하기 위해서는 상당히 복잡한 기술이 필요합니다. 이대로만 실현할 수 있다면 인간과 같은 범용적 지능을 완성할 수 있을 것입니다. 이렇게 확신할 수 있는 이유는 이것이 실제로 생명체가 학습하는 방법이기 때문입니다. 동물들도 강화학습을 통해서 배우고, 인간의 뇌도 강화학습을 학습 방법 중 하나로 사용하고 있습니다.


이것을 증명하는 것이 90년대에 나온 원숭이를 통한 유명한 실험 결과입니다. (링크

단일 신경세포의 신경 활성 패턴을 측정하는 실험으로부터, 도파민 신경세포가 예측오류정보(예측이 얼마나 틀렸는지를 나타내는 정보)를 처리하고 있음을 밝혀냈습니다. 이 말은 우리의 뇌 속의뉴런에 TD학습(Temporal difference learning:예측오류정보에 기반한 학습 알고리즘)이라 불리는 일종의 강화학습이 구현되어 있다는 것입니다.


2. 체화된 인지(Grounded Cognition)

딥 마인드에서 가지고 있는 두번째 방법은 체화된 인지라고도 불리는 그라운디드 코그니션입니다. 이 원칙은 실제의 생각하는 기계는 감각운동의 사실성에 기반을 두고 있어야 하며 이것이 현실에 기반을 둔 진짜 생각을 만들 수 있는 유일한 방법이라는 것입니다.


이렇게 위에서 명시한 방법들을 구현하기 위해 대부분의 학자들은 인공지능 로봇을 만듭니다. 실제 현실의 정보에 기반한 생명체를 흉내내기 위함이죠. 마치 터미네이터와 같은.

하지만, 로봇 제작은 굉장히 어렵습니다. 재료가 비싸고, 그 하드웨어를 컨트롤하는 것이 쉽지 않기 때문입니다. 엔진을 고치고, 그에 맞는 팔다리가 제대로 작동하도록 만드는데에만 상당히 많은 시간을 소비하게 됩니다. 하사비스는 '로봇'을 만든다기보다, '지능 소프트웨어'를 만드는데 목적이 있었기에 하드웨어보다는 알고리즘 구현에 더 집중하고자 했습니다.(회사 설립 초기의 재정적 한계도 있었겠죠)


그래서 그는 비디오 게임을 통해 인공지능 알고리즘을 테스트해보면 좋겠다는 생각을 하게됩니다. 게임이 가장 완벽한 플랫폼 역할이 될 것이라는데에는 몇가지 이유가 있습니다. 단지 게임을 오랫동안 플레이하도록 시킴으로써 거의 무한대에 가까운 연습 데이터를 손쉽게 만들수 있다는 것이고, 검증 오류도 적기 때문입니다. 과거에 인공지능을 만들 때 알고리즘을 만든 사람이 검증까지도 함께 해야하는 문제점이 있었습니다. 아무리 객관적으로 평가하려고 해도 무의식적으로 자신의 알고리즘에 어울리는 편파적인 검증방법을 채택하게 된다는 것입니다. 하지만 '게임'을 통해 검증한다면, 게임 개발자들이 이미 만들어놓은 룰이 있고, 점수(Score)를 통해 에이전트가 게임을 학습하면서 점점 똑똑해지고 실력이 늘고 있는지를 객관적이면서도 한눈에 파악할 수 있습니다. 이 때문에 딥마인드는 게임을 검증 플랫폼으로 사용하였습니다.


이와 관련하여 하사비스는 다양한 시청각 자료를 준비하였는데, 그와 동일한 자료를 찾아서 다음번 포스팅때 이어서 업로드하도록 하겠습니다.


출처 :

Youtube - Demis Hassabis, CEO, DeepMind Technologies - The Theory of Everything


CPUU님의 창작활동을 응원하고 싶으세요?