반응형

 

[출처] http://www.aitimes.com/news/articleView.html?idxno=129355

 

인공지능이 타협도 한다고?...딥마인드, 승부 넘어 윈윈하는 AI 교육 - AI타임스

딥마인드가 인공지능(AI)에게 협력과 타협을 교육시켜 여러 이익관계자들의 선호사항을 최대한 반영한 결과를 도출시키고 있다.

www.aitimes.com

 

벤처비트(https://venturebeat.com)는 10일(현지시각) 구글 알파벳 자회사인 딥마인드가 ‘디플로머시(Diplomacy)’라는 보드게임으로 AI를 훈련시킴으로써 승패가 갈리는 기존 게임에서 벗어나 AI가 한 단계 더 나아간 타협과 협력을 학습하도록 하고 있다며 이를 소개했다.

 

[영어 기사] https://venturebeat.com/2020/06/10/deepmind-hopes-to-teach-ai-to-cooperate-by-playing-diplomacy/

딥마인드가 AI로 하여금 공동이익 추론에 기반한 조정·협력·타협이라는 윈윈 방식을 도출하도록 학습시키기 위해 만든 ‘디플로머시’ 보드게임. 이를 바탕으로 훈련된 AI는 계약 협상·도시계획·물류 교통 등에 활용될 수 있을 것으로 기대를 모은다. (사진=딥마인드)

 

 

타협과 협상을 학습시키기 위한 AI 교육용 게임 ‘디플로머시(Diplomacy)’는 윈윈을 꾀하도록 고안된 말 그대로 ‘외교’ 게임인 셈이다.   

 

이들은 프리프린트 서버인 아카이브(Arxiv.org)에 게재된 논문에서 ‘디플로머시(Diplomacy)’ 게임 결과 ‘지속적인 개선’을 보이며 높은 점수를 얻은 AI 시스템에 대해 설명했다.

 

딥마인드의 기존 AI 시스템은 헥스(Hex) 게임, 장기, 포커와 같은 대규모의 복잡한 게임에서 강력하고 경쟁력 있는 플레이를 했지만 이 중 대부분은 다른 플레이어의 패배해야 승리할 수 있는 2인용 제로섬 게임이다.

 

그러나 안타깝게도 이러한 빼어난 성과를 보여주는 AI이지만 모든 것이 제로섬 게임이 아닌 인간의 현실 세계에 적용하기엔 부족한 점이 있다.

 

예를 들면 혼잡한 도로를 둘러싼 교통 노선 계획, 계약 협상, 그리고 고객과의 상호 작용과 같은 업무들을 처리하는 일은 제로섬 게임이 될 수 없다. 이 문제들을 해결하기 위해서는 모든 관련 당사자들의 선호가 어떻게 일치하고 충돌하는지에 대한 타협과 고려를 포함시킬 수밖에 없다.

 

AI 소프트웨어 에이전트들이 이기적일 때에도 조정과 협력을 통해 공동의 이익을 얻을 수 있기 때문에 다양한 그룹 간 상호 작용은 타인의 목표와 동기 부여에 대한 복잡한 추론을 필요로 한다. (에이전트는 최대한의 보상을 얻기 위해 시행착오를 거치며 여러 번의 반복으로 가장 효율적인 길을 스스로 탐색하는 시스템을 말한다.)

 

이를 훈련시키기 위해 고안된 딥마인드의 ‘디플로머시(Diplomacy)’ 게임은 7명의 플레이어가 유럽의 주(Province) 단위 지도 상에서 여러 단위부대(유닛)들을 제어토록 함으로써 AI가 이러한 상호작용을 하도록 한다.

 

디플로머시 게임에서 ‘주’는 보급센터다. ‘유닛’들은 주를 점령함으로써 보급센터를 확보한다. 보급 센터를 더 많이 소유한 플레이어는 더 많은 유닛을 만들 수 있고, 보급센터 대부분을 소유하는 플레이어가 게임에서 승리한다.

 

매 게임마다 모든 플레이어들은 자신의 모든 부대를 동시에 34개 지역 중 한 곳으로 이동시켜야 하며, 하나의 유닛은 같은 플레이어나 다른 플레이어 소유의 다른 유닛을 지원함으로써 또 다른 유닛의 저항을 극복하게 만들 수 있다. (대체로, 힘이 같은 유닛은 한 지방을 지탱하거나 인접한 공간으로 이동할 수 있다.)

 

유닛 간의 상호 의존성 때문에 플레이어들은 자신의 유닛 움직임에 대해 다른 플레이어들과 협상해야 한다. 그들은 다른 선수들의 움직임과 그들의 움직임을 조정함으로써 이익을 얻기 위해 대기하며, 다른 선수들이 어떻게 행동할지 예측하고 그들의 행동에 이러한 예상을 반영해야 한다.

 

저자들은 “우리는속임수 행동의 등장과 발견을 연구하고...실제 세상에서 어떻게 그러한 행동을 완화시킬 수 있는지알고 있다는 것을 확실히 하기 위해 디플로머시 같은  게임을 사용할 것을 제안한다"라고 썼다. 이들은 “디플로머시에 관한 연구는신뢰와 동맹을 수립하고 유지하는 것을 둘러싸고 발생하는 어려운 문제 해결을 포함하는,타인과 성공적으로 협력할 수 있는 인공 에이전트를 만드는 길을 열어주게 될 것이다“라고 덧붙였다.

 

딥마인드는 어떤 노골적 소통도 허용되지 않는 ‘언론 없는’ 디플로머시 변종에 초점을 맞췄다.

 

이 AI는SBR(Sampled Best Response)라는 접근법으로정책 반복 기법을 사용해 일부 보상을 극대화해 주며 강화 학습 에이전트들을 훈련시켰다. SBR는 가상 플레이는 물론 플레이어 액션에 대한 거의 최고 수준의 반응에 근접하는 정책 반복 기술을 가지고 많은 수의 액션(10⁶⁴)을 보여주는 플레이어들이 디플로머시를 받아들이도록 했다. 

 

딥마인드의 시스템은 이를 반복할 때마다 게임 데이터 세트를 생성하는데, 개선 운영자(improvement operator)로 불리는 모듈이 선택한 동작으로 이전 전략(정책)과 가치 함수를 사용해 이전 정책을 무너뜨리는 정책을 찾아낸다. 그런 다음, 게임 결과뿐만 아니라 개선 운영자가 선택할 행동을 예측하는 정책 및 가치 함수(기능)를 훈련한다.(It then trains the policy and value functions to predict the actions the improvement operator will choose as well as the game results.)

 

앞서의 SBR은 반대자의 정책에 대항해 플레이어 시스템 에이전트의 예상 반응을 극대화해 줄  정책을 알아낸다. SBR는 다수 플레이어의 게임에서 SBR을 사용하도록 맞춤화된 알고리즘 제품군인BRPI(Best Response Policy Iteration)와 결합돼 있다. 이 중 최고급의 것은 최신 BR만 예측하도록 정책을 훈련시키고, 현재의 경험적 전략을 제공하기 위해 역사적 체크포인트를 명시적으로 평균화해 제시한다.

 

딥마인드는 이 시스템의 성능을 평가하기 위해 서로 다른 알고리즘의 6개 에이전트와 참조 코퍼스(말뭉치)에서 독립적으로 추출한 6명의 플레이어 간에 이뤄진 정면 대결 승률을 측정했다. 이 시스템의 승률은 특별히 높지 않았다. 각 게임의 평균 5개의 시드를 기록했는데 12.7~ 32.5%였다. 그러나 딥마인드는 이 시드들이 지도학습으로 훈련된 에이전트들에 비해 크게 향상됐다고 말한다.

 

딥마인드의 시스템에 의해 6개 에이전트가 제어되는 6 대 1의 게임에서 특히 딥넷(Dip Net)이라는 알고리즘에 대한 딥마인드 에이전트들의 승률은 훈련을 통해 꾸준히 향상됐다.

시간에 따른 1 대 6, 또는 6 대 1 디플로머시 게임에서의 딥마인드 시스템의 딥넷 알고리즘에 대한 승률과 기준선 비교. 자료=딥마인드

 

향후 연구에서 연구자들은 에이전트 악용 가능성(exploitability)을 줄이고, 잠재적으로커뮤니케이션을 통해 다른 사람들의 인센티브(동기)에 대해 추론하는 에이전트 구축 방법을 찾아 나설 계획이다.

 

저자들은 이 게임에서 플레이를 향상시키는 것은외교이며 게임의 복잡하게 혼합된동기여러 플레이어의 상황을 조사하기 위한 필수 조건이라고 하며…디플로머시에 적용된 방법은 외교에 대한 직접적 영향을 넘어 비즈니스, 경제, 물류 영역 등에 적용될 수 있다고 한다…

 

디플로머시나 유사한 게임에 사용될 외교 훈련 능력을 갖춘전술적 기본(베이스) 에이전트를 제공함으로써 이 연구결과는-그것이 다른 기계와 함께든 인간과 함께든 간에-동맹을 결성할 능력이 있고 보다 진보된 커뮤니케이션 능력을 이용하는 에이전트 연구를 위한 길을 열었다고 말했다.

 

출처 : AI타임스(http://www.aitimes.com)

 


 

[논문] https://arxiv.org/pdf/2006.04635.pdf

 

This example highlights elements that make Diplomacy unique and challenging. Due to simultaneous move resolution, players must anticipate how others will act and reflect these expectations in their own actions. Players must also use a stochastic policy (mixed strategy), as otherwise opponents could exploit their determinism. Finally, cooperation is essential: Germany would not have been able to prevent France from moving to BUR without Italy’s help.

Diplomacy is specifically designed so that no player can win on their own without help from other players, so players must form alliances to achieve their ultimate goal. In the No-Press variant, this causes pairwise interactions that differ substantially from zero-sum, so difficulties associated with mixed-motive games arise in practice.

Evaluation Methods

- Head-to-head comparision(일대일 비교)

- Winrate Against a Population(인구 대비 승리)

- Policy Transitivity(정책 전이)

- Exploitability(악용 가능성)

 



 

 

반응형

+ Recent posts