배울 점이 많은 강의가 있어서 추천드리며, 시리즈로 글을 쓰고자 합니다.
비정형 데이터 분석 1/11 신경망언어모델(NNLM)
설명 구조
- 비교를 통해서 ~이 등장하게 된 히스토리
- 문제점이 있습니다. 한 예로
- ~의 문제점을 극복하기 위해 등장한 것이 ~입니다.
- 이러한 문제를 해결하기 위해 등장한 개념이 ~입니다.
- 개념
- 구조
키워드 및 핵심 내용
출현빈도 기반 언어모델(Count-based Language Models) / 통계적 언어 모델(Statistical Language Model, SLM)
- Bag-of-Words
- Chain Rule
- 문제점 : 학습 데이터에 없는 조건(조합)은 확률을 계산할 수 없음
- N-Gram
- Markov Assumption
- 모든 단어가 출현했다는 가정이 아니라 n개만 출현했을 때의 확률과 같다고 봄(이전에 등장한 모든 단어를 고려하는 것이 아니라 일부 단어만 고려)
- 예) bi-grams (두단어)
- 문제점 : 학습 데이터에 나타나지 않는 단어 조합은 확률이 0
- (n을 크게 선택하면 정확하게 예측할 확률은 높아지지만 실제 훈련 코퍼스에서 해당 n-gram을 카운트할 수 있는 확률은 적어지므로 희소 문제는 점점 심각해집니다. 또한 n이 커질수록 모델 사이즈가 커진다는 문제점도 있습니다.)
신경망 기반 언어모델(Neural Network-based Language Models)
- NNLM
- 신경망을 이용한 첫번째 시도
- 카운트 기반 텍스트 변환(one-hot vector / Sparce representation) -> 분산표상(continuous vector / Dense representation)
- 입력 단어의 다음 단어가 출력될 확률이 높도록 신경망 학습
- 신경망 구조 : 입력층, 은닉층, 출력층
- 입력층 : one-hot vector
- 출력층 : Softmax 함수 적용
- NPLM 구조 : 가중치, 바이어스, parameter 차원수 정의
- NPLM 학습 : 확률적 경사상승법(Stochastic gradient ascent)
- Word2Vec
- GloVe
- Fasttext
[언어모델 추가 자료]
언어 모델(Language Model, LM)이란? 언어라는 현상을 모델링하고자 단어 시퀀스(또는 문장)에 확률을 할당(assign)하는 모델입니다.
자연어 처리에서 단어 시퀀스에 확률을 할당하는 일이 왜 필요할까요? 예를 들어보겠습니다. 여기서 대문자 P는 확률을 의미합니다.
a. 기계 번역(Machine Translation):
P(나는 버스를 탔다) > P(나는 버스를 태운다)P(나는 버스를 탔다) > P(나는 버스를 태운다)
: 언어 모델은 두 문장을 비교하여 좌측의 문장의 확률이 더 높다고 판단합니다.
b. 오타 교정(Spell Correction)
선생님이 교실로 부리나케
P(달려갔다) > P(잘려갔다)P(달려갔다) > P(잘려갔다)
: 언어 모델은 두 문장을 비교하여 좌측의 문장의 확률이 더 높다고 판단합니다.
c. 음성 인식(Speech Recognition)
P(나는 메롱을 먹는다) < P(나는 메론을 먹는다)P(나는 메롱을 먹는다) < P(나는 메론을 먹는다)
: 언어 모델은 두 문장을 비교하여 우측의 문장의 확률이 더 높다고 판단합니다.
언어 모델은 위와 같이 확률을 통해 보다 적절한 문장을 판단합니다.
[NPLM 추가 자료]
https://medium.com/@omicro03/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC-nlp-nplm-f7d0f472ce68
[이은아님 강의 모음]
www.youtube.com/playlist?list=PLGAnpwASolI0vViZItiP90nWI_s9m91Av
'머신러닝' 카테고리의 다른 글
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 4/11 Feature Selection (0) | 2020.07.08 |
---|---|
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 3/11 문장, 문단, 문서 임베딩 (0) | 2020.07.07 |
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 2/11 Word2Vec (0) | 2020.07.07 |
[인공지능 뉴스] 공동이익 추론 기반 조정, 협력, 타협 학습 (0) | 2020.07.05 |
Google 새로운 서비스 StayKeen / 머신러닝 기술과 휴먼 협업을 통한 주제 중심 콘텐츠 관리 (0) | 2020.06.19 |