반응형

 

[출처] http://www.aitimes.com/news/articleView.html?idxno=129355

 

인공지능이 타협도 한다고?...딥마인드, 승부 넘어 윈윈하는 AI 교육 - AI타임스

딥마인드가 인공지능(AI)에게 협력과 타협을 교육시켜 여러 이익관계자들의 선호사항을 최대한 반영한 결과를 도출시키고 있다.

www.aitimes.com

 

벤처비트(https://venturebeat.com)는 10일(현지시각) 구글 알파벳 자회사인 딥마인드가 ‘디플로머시(Diplomacy)’라는 보드게임으로 AI를 훈련시킴으로써 승패가 갈리는 기존 게임에서 벗어나 AI가 한 단계 더 나아간 타협과 협력을 학습하도록 하고 있다며 이를 소개했다.

 

[영어 기사] https://venturebeat.com/2020/06/10/deepmind-hopes-to-teach-ai-to-cooperate-by-playing-diplomacy/

딥마인드가 AI로 하여금 공동이익 추론에 기반한 조정·협력·타협이라는 윈윈 방식을 도출하도록 학습시키기 위해 만든 ‘디플로머시’ 보드게임. 이를 바탕으로 훈련된 AI는 계약 협상·도시계획·물류 교통 등에 활용될 수 있을 것으로 기대를 모은다. (사진=딥마인드)

 

 

타협과 협상을 학습시키기 위한 AI 교육용 게임 ‘디플로머시(Diplomacy)’는 윈윈을 꾀하도록 고안된 말 그대로 ‘외교’ 게임인 셈이다.   

 

이들은 프리프린트 서버인 아카이브(Arxiv.org)에 게재된 논문에서 ‘디플로머시(Diplomacy)’ 게임 결과 ‘지속적인 개선’을 보이며 높은 점수를 얻은 AI 시스템에 대해 설명했다.

 

딥마인드의 기존 AI 시스템은 헥스(Hex) 게임, 장기, 포커와 같은 대규모의 복잡한 게임에서 강력하고 경쟁력 있는 플레이를 했지만 이 중 대부분은 다른 플레이어의 패배해야 승리할 수 있는 2인용 제로섬 게임이다.

 

그러나 안타깝게도 이러한 빼어난 성과를 보여주는 AI이지만 모든 것이 제로섬 게임이 아닌 인간의 현실 세계에 적용하기엔 부족한 점이 있다.

 

예를 들면 혼잡한 도로를 둘러싼 교통 노선 계획, 계약 협상, 그리고 고객과의 상호 작용과 같은 업무들을 처리하는 일은 제로섬 게임이 될 수 없다. 이 문제들을 해결하기 위해서는 모든 관련 당사자들의 선호가 어떻게 일치하고 충돌하는지에 대한 타협과 고려를 포함시킬 수밖에 없다.

 

AI 소프트웨어 에이전트들이 이기적일 때에도 조정과 협력을 통해 공동의 이익을 얻을 수 있기 때문에 다양한 그룹 간 상호 작용은 타인의 목표와 동기 부여에 대한 복잡한 추론을 필요로 한다. (에이전트는 최대한의 보상을 얻기 위해 시행착오를 거치며 여러 번의 반복으로 가장 효율적인 길을 스스로 탐색하는 시스템을 말한다.)

 

이를 훈련시키기 위해 고안된 딥마인드의 ‘디플로머시(Diplomacy)’ 게임은 7명의 플레이어가 유럽의 주(Province) 단위 지도 상에서 여러 단위부대(유닛)들을 제어토록 함으로써 AI가 이러한 상호작용을 하도록 한다.

 

디플로머시 게임에서 ‘주’는 보급센터다. ‘유닛’들은 주를 점령함으로써 보급센터를 확보한다. 보급 센터를 더 많이 소유한 플레이어는 더 많은 유닛을 만들 수 있고, 보급센터 대부분을 소유하는 플레이어가 게임에서 승리한다.

 

매 게임마다 모든 플레이어들은 자신의 모든 부대를 동시에 34개 지역 중 한 곳으로 이동시켜야 하며, 하나의 유닛은 같은 플레이어나 다른 플레이어 소유의 다른 유닛을 지원함으로써 또 다른 유닛의 저항을 극복하게 만들 수 있다. (대체로, 힘이 같은 유닛은 한 지방을 지탱하거나 인접한 공간으로 이동할 수 있다.)

 

유닛 간의 상호 의존성 때문에 플레이어들은 자신의 유닛 움직임에 대해 다른 플레이어들과 협상해야 한다. 그들은 다른 선수들의 움직임과 그들의 움직임을 조정함으로써 이익을 얻기 위해 대기하며, 다른 선수들이 어떻게 행동할지 예측하고 그들의 행동에 이러한 예상을 반영해야 한다.

 

저자들은 “우리는속임수 행동의 등장과 발견을 연구하고...실제 세상에서 어떻게 그러한 행동을 완화시킬 수 있는지알고 있다는 것을 확실히 하기 위해 디플로머시 같은  게임을 사용할 것을 제안한다"라고 썼다. 이들은 “디플로머시에 관한 연구는신뢰와 동맹을 수립하고 유지하는 것을 둘러싸고 발생하는 어려운 문제 해결을 포함하는,타인과 성공적으로 협력할 수 있는 인공 에이전트를 만드는 길을 열어주게 될 것이다“라고 덧붙였다.

 

딥마인드는 어떤 노골적 소통도 허용되지 않는 ‘언론 없는’ 디플로머시 변종에 초점을 맞췄다.

 

이 AI는SBR(Sampled Best Response)라는 접근법으로정책 반복 기법을 사용해 일부 보상을 극대화해 주며 강화 학습 에이전트들을 훈련시켰다. SBR는 가상 플레이는 물론 플레이어 액션에 대한 거의 최고 수준의 반응에 근접하는 정책 반복 기술을 가지고 많은 수의 액션(10⁶⁴)을 보여주는 플레이어들이 디플로머시를 받아들이도록 했다. 

 

딥마인드의 시스템은 이를 반복할 때마다 게임 데이터 세트를 생성하는데, 개선 운영자(improvement operator)로 불리는 모듈이 선택한 동작으로 이전 전략(정책)과 가치 함수를 사용해 이전 정책을 무너뜨리는 정책을 찾아낸다. 그런 다음, 게임 결과뿐만 아니라 개선 운영자가 선택할 행동을 예측하는 정책 및 가치 함수(기능)를 훈련한다.(It then trains the policy and value functions to predict the actions the improvement operator will choose as well as the game results.)

 

앞서의 SBR은 반대자의 정책에 대항해 플레이어 시스템 에이전트의 예상 반응을 극대화해 줄  정책을 알아낸다. SBR는 다수 플레이어의 게임에서 SBR을 사용하도록 맞춤화된 알고리즘 제품군인BRPI(Best Response Policy Iteration)와 결합돼 있다. 이 중 최고급의 것은 최신 BR만 예측하도록 정책을 훈련시키고, 현재의 경험적 전략을 제공하기 위해 역사적 체크포인트를 명시적으로 평균화해 제시한다.

 

딥마인드는 이 시스템의 성능을 평가하기 위해 서로 다른 알고리즘의 6개 에이전트와 참조 코퍼스(말뭉치)에서 독립적으로 추출한 6명의 플레이어 간에 이뤄진 정면 대결 승률을 측정했다. 이 시스템의 승률은 특별히 높지 않았다. 각 게임의 평균 5개의 시드를 기록했는데 12.7~ 32.5%였다. 그러나 딥마인드는 이 시드들이 지도학습으로 훈련된 에이전트들에 비해 크게 향상됐다고 말한다.

 

딥마인드의 시스템에 의해 6개 에이전트가 제어되는 6 대 1의 게임에서 특히 딥넷(Dip Net)이라는 알고리즘에 대한 딥마인드 에이전트들의 승률은 훈련을 통해 꾸준히 향상됐다.

시간에 따른 1 대 6, 또는 6 대 1 디플로머시 게임에서의 딥마인드 시스템의 딥넷 알고리즘에 대한 승률과 기준선 비교. 자료=딥마인드

 

향후 연구에서 연구자들은 에이전트 악용 가능성(exploitability)을 줄이고, 잠재적으로커뮤니케이션을 통해 다른 사람들의 인센티브(동기)에 대해 추론하는 에이전트 구축 방법을 찾아 나설 계획이다.

 

저자들은 이 게임에서 플레이를 향상시키는 것은외교이며 게임의 복잡하게 혼합된동기여러 플레이어의 상황을 조사하기 위한 필수 조건이라고 하며…디플로머시에 적용된 방법은 외교에 대한 직접적 영향을 넘어 비즈니스, 경제, 물류 영역 등에 적용될 수 있다고 한다…

 

디플로머시나 유사한 게임에 사용될 외교 훈련 능력을 갖춘전술적 기본(베이스) 에이전트를 제공함으로써 이 연구결과는-그것이 다른 기계와 함께든 인간과 함께든 간에-동맹을 결성할 능력이 있고 보다 진보된 커뮤니케이션 능력을 이용하는 에이전트 연구를 위한 길을 열었다고 말했다.

 

출처 : AI타임스(http://www.aitimes.com)

 


 

[논문] https://arxiv.org/pdf/2006.04635.pdf

 

This example highlights elements that make Diplomacy unique and challenging. Due to simultaneous move resolution, players must anticipate how others will act and reflect these expectations in their own actions. Players must also use a stochastic policy (mixed strategy), as otherwise opponents could exploit their determinism. Finally, cooperation is essential: Germany would not have been able to prevent France from moving to BUR without Italy’s help.

Diplomacy is specifically designed so that no player can win on their own without help from other players, so players must form alliances to achieve their ultimate goal. In the No-Press variant, this causes pairwise interactions that differ substantially from zero-sum, so difficulties associated with mixed-motive games arise in practice.

Evaluation Methods

- Head-to-head comparision(일대일 비교)

- Winrate Against a Population(인구 대비 승리)

- Policy Transitivity(정책 전이)

- Exploitability(악용 가능성)

 



 

 

반응형
반응형

배울 점이 많은 강의가 있어서 추천드리며, 시리즈로 글을 쓰고자 합니다.

비정형 데이터 분석 1/11 신경망언어모델(NNLM)

youtu.be/myG2BhlVyH8

 

설명 구조

- 비교를 통해서 ~이 등장하게 된 히스토리

- 문제점이 있습니다. 한

- ~의 문제점을 극복하기 위해 등장한 것이 ~입니다.

- 이러한 문제를 해결하기 위해 등장한 개념이 ~입니다.

- 개념

- 구조

 


키워드 및 핵심 내용

출현빈도 기반 언어모델(Count-based Language Models) / 통계적 언어 모델(Statistical Language Model, SLM)

- Bag-of-Words

- Chain Rule

- 문제점 : 학습 데이터에 없는 조건(조합)은 확률을 계산할 수 없음

- N-Gram

- Markov Assumption

- 모든 단어가 출현했다는 가정이 아니라 n개만 출현했을 때의 확률과 같다고 봄(이전에 등장한 모든 단어를 고려하는 것이 아니라 일부 단어만 고려)

- 예) bi-grams (두단어)

- 문제점 : 학습 데이터에 나타나지 않는 단어 조합은 확률이 0

- (n을 크게 선택하면 정확하게 예측할 확률은 높아지지만 실제 훈련 코퍼스에서 해당 n-gram을 카운트할 수 있는 확률은 적어지므로 희소 문제는 점점 심각해집니다. 또한 n이 커질수록 모델 사이즈가 커진다는 문제점도 있습니다.)

신경망 기반 언어모델(Neural Network-based Language Models)

- NNLM

- 신경망을 이용한 첫번째 시도

- 카운트 기반 텍스트 변환(one-hot vector / Sparce representation) -> 분산표상(continuous vector / Dense representation)

- 입력 단어의 다음 단어가 출력될 확률이 높도록 신경망 학습

- 신경망 구조 : 입력층, 은닉층, 출력층

- 입력층 : one-hot vector

- 출력층 : Softmax 함수 적용

- NPLM 구조 : 가중치, 바이어스, parameter 차원수 정의

- NPLM 학습 : 확률적 경사상승법(Stochastic gradient ascent)

- Word2Vec

- GloVe

- Fasttext


 

[언어모델 추가 자료]

translate.google.com/translate?hl=en&sl=en&tl=ko&u=https%3A%2F%2Fwikidocs.net%2F21692&anno=2&prev=search

 

언어 모델(Language Model, LM)이란? 언어라는 현상을 모델링하고자 단어 시퀀스(또는 문장)에 확률을 할당(assign)하는 모델입니다.

자연어 처리에서 단어 시퀀스에 확률을 할당하는 일이 왜 필요할까요? 예를 들어보겠습니다. 여기서 대문자 P는 확률을 의미합니다.

a. 기계 번역(Machine Translation):

P(나는 버스를 탔다) > P(나는 버스를 태운다)P(나는 버스를 탔다) > P(나는 버스를 태운다)

: 언어 모델은 두 문장을 비교하여 좌측의 문장의 확률이 더 높다고 판단합니다.

b. 오타 교정(Spell Correction)

선생님이 교실로 부리나케

P(달려갔다) > P(잘려갔다)P(달려갔다) > P(잘려갔다)

: 언어 모델은 두 문장을 비교하여 좌측의 문장의 확률이 더 높다고 판단합니다.

c. 음성 인식(Speech Recognition)

P(나는 메롱을 먹는다) < P(나는 메론을 먹는다)P(나는 메롱을 먹는다) < P(나는 메론을 먹는다)

: 언어 모델은 두 문장을 비교하여 우측의 문장의 확률이 더 높다고 판단합니다.

언어 모델은 위와 같이 확률을 통해 보다 적절한 문장을 판단합니다.

[NPLM 추가 자료]

https://medium.com/@omicro03/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC-nlp-nplm-f7d0f472ce68


 

[이은아님 강의 모음]

www.youtube.com/playlist?list=PLGAnpwASolI0vViZItiP90nWI_s9m91Av

 

이은아님 머신러닝 자연어처리 - YouTube

 

www.youtube.com


 

 

반응형
반응형

 

Google's latest experiment is Keen, an automated, machine-learning based version of Pinterest

 

[출처] https://techcrunch.com/2020/06/18/googles-latest-experiment-is-keen-an-automated-machine-learning-based-version-of-pinterest/

 

Google의 새로운 아이디어 인큐베이터 Area 120에서 사용자가 관심사를 추적하는 데 도움이 되는 Keen 이라는 새로운 프로젝트를 공개했습니다.

 

[Keen 바로가기] https://staykeen.com/home

 

Keen Expand your interests Explore, curate and share everything you’re passionate about. staykeen.com

 

이 앱은 사용자가 웹에서 특정 콘텐츠를 모니터링할 수 있는 Google 알리미 서비스에 대한 현대적인 생각과 같습니다 .

Google이 관심사에 대한 이메일을 보내는 대신 검색 결과인 Keen은 머신러닝 기술과 휴먼 협업을 활용하여 사용자가 주제를 중심으로 콘텐츠를 관리할 수 ​​있도록 합니다.

 

각 개별 관심 영역을 "Keen(예리한)"이라고 합니다. 즉, 지적 신속성을 가진 사람을 지칭하기 위해 자주 사용되는 단어입니다.

 

공동 창립자인 CJ Adams가 다운 타임을 채우기 위해 피드와 이미지를 무심코 찾아보기 위해 휴대폰에 너무 많은 시간을 소비하고 있음을 알게 된 후 이 프로젝트에 대한 아이디어가 나왔습니다.

그는 관심이 있는 주제에 대해 더 많이 배우는 데 더 많은 시간을 할애할 수 있음을 깨달았습니다.

 

이 아이디어를 탐구하기 위해 Google의 그와 네 명의 동료는 인간 중심의 머신 러닝에 중점을 둔 회사의 PAIR (People and AI Research) 팀과 협력하여 현재 Keen이 된 것을 만들었습니다.

 

관심 주제별 글 관리

 

웹과 Android에서 모두 사용할 수 있는 Keen을 사용하려면 먼저 Google 계정으로 로그인하고 조사하려는 주제를 입력하십시오. 이것은 빵 굽는 법 배우기, 조류 관찰또는 타이포그래피에 대한 학습과 같은 것일 수 있다고 Adams는 새로운 프로젝트에 대한 발표에서 설명했습니다.

 

Keen은 관심사와 관련된 추가 주제를 제안할 수 있습니다. 예를 들어, "개 훈련"을 입력하고 Keen은 "개 훈련 수업", "개 훈련 책", "개 훈련 요령", "개 훈련 비디오"등을 제안할 수 있습니다. 추적하려는 제안을 클릭하면 새로운 컬렉션을 만듭니다.

Keen 상태로 돌아오면 관심 있는 웹 콘텐츠에 링크 된 핀 보드 이미지가 표시됩니다. 개 훈련의 예에서, Keen은 기사 및 YouTube 비디오, 선별된 리소스 목록을 제공하는 블로그 게시물, 개 훈련 간식에 대한 Amazon 링크 등을 발견했습니다.

 

모든 컬렉션에 대해 서비스는 Google 검색 및 기계 학습을 사용하여 주어진 관심사와 관련된 더 많은 콘텐츠를 검색합니다. 

Keen에 추가하고 정리할수록 이러한 권장 사항이 더 좋아집니다.

사실 Pinterest의 자동화 버전과 같습니다.

 

"Keen"이 만들어지면 선택적으로 컬렉션에 추가하고 원하지 않는 항목을 제거하고 다른 사람들과 Keen을 공유하여 콘텐츠를 추가할 수 있습니다. 결과 모음은 공개 또는 비공개 일 수 있습니다. Keen은 또한 새로운 콘텐츠를 이용할 수 있을 때 경고 이메일을 보낼 수 있습니다.

 

Google은 어느 정도는 이미 유사한 기술을 사용하여 Google 앱에서 뉴스 피드를 강화합니다 .이 경우 피드는 Google 검색 기록의 항목과 명시 적으로 따르는 주제를 조합하여 Google 앱의 홈 화면에서 직접 전달할 수 있는 뉴스와 정보를 찾습니다. 그러나 Keen은 검색 기록을 활용하지 않습니다. 직접 입력한 관심사를 기반으로 콘텐츠를 가져옵니다.

 

머신러닝이 제안하는 주제들

 

그리고 뉴스 피드와 달리 Keen은 반드시 최근 항목에만 집중되는 것은 아닙니다.

주제에 대한 모든 정보를 제공하고 유용한 정보를 반환할 수 있습니다. 여기에는 관련 웹 사이트, 이벤트, 비디오 및 제품이 포함될 수 있습니다.

그러나 Google 프로젝트 및 Google 로그인 인증을 요청하는 프로젝트로서 수집한 데이터는 Google과 공유됩니다. Google의 다른 모든 항목과 마찬가지로 Keen은 회사의 개인 정보 취급 방침을 따릅니다.

 

오늘날 Keen은 대기업 내부의 소규모 프로젝트이지만 웹의 지속적인 개인화를 향한 또 다른 단계를 나타냅니다. 오랫동안 기술 회사는 사용자를 관심 있는 콘텐츠로 더 연결하면 해당 서비스에 대한 참여, 세션 길이, 보존 및 긍정적인 감정이 높아진다는 것을 깨달았습니다.

 

그러나 개인화를 선택하지 않으면 사용자의 새로운 정보 노출 또는 반대 의견에 대한 노출이 제한됩니다. 그것은 사람의 세계관을 좁힙니다. 필터 버블 에코 체임버를만듭니다. 알고리즘 기반 권장 사항은 프린지 콘텐츠를 검색하는 사용자에게 위험한 토끼 구멍을 더 아래로 내려가면서 시간이 지남에 따라 급격히악화시킬 수 있습니다.극단적인 경우 급진적인 사람들테러리스트가 됩니다.

 

Keen이 기계 학습과 주제별 전문가를 페어링 하는 경우 더 나은 아이디어가 될 것입니다. 그러나, 원하는 경우 협업을 위해 특별히 초대한 친구 및 가족을 넘어 기술에 인간의 전문 지식을 추가하지는 않습니다. 따라서 시스템은 보다 나은 인간 편집 큐 레이션을 원하고 더 좁은 초점을 시작할 필요가 있습니다.

 


 

평소 Flipboard(https://flipboard.com/) 나 Pinterest(https://www.pinterest.com/) 가 좋은 서비스라고 생각하고 있었는데

구글에서 이와 비슷한 서비스를 제공한다니 기대가 크다.

기존 서비스도 이용자들의 선호도에 머신러닝 기술을 적용했을텐데, 구글은 어떤 새로운 모습을 보여줄지 궁금하다.

 

나도 이와 비슷한 서비스를 만들고 싶은데, 결과물이 나오려면 끈질긴 실행력이 필요한 것 같다.

 


 

 

 

 

반응형

+ Recent posts