반응형

 

배울 점이 많은 강의가 있어서 추천드리며, 시리즈로 글을 쓰고자 합니다.

 

비정형 데이터 분석 3/11 문장, 문단, 문서 임베딩(Embedding)

youtu.be/1tb2njpp8-s

 

설명 구조

 

지난 시간까지 배운 내용돌아보면

가장 고전적방법

가장 보편적방법

예시로 간단히 소개

 


키워드 및 핵심 내용

 

문장, 문단, 문서, Categoly (자연어) 임베딩

 

Doc2Vec

- 문장 분석을 위한 임베딩

- Word2Vec과 유사한 아이디어(CBOW, Skip gram) 활용

 

PV-DM (Paragraph Vector - Distributed Memory model)

- paragraph-id(문서정보) + 단어들 -> 다음 단어 예측

- paragraph-id는 그 문장의 모든 단어들과 학습 -> 그 문장의 주제 정보 함축

- paragraph vector 가 문서의 주제를 저장(Memory) -> PV-DM 명명

 

PV-DBOW (Paragraph Vector - Distributed Bag Of Words)

- skip gram(중심단어로 주변단어 예측) : PV-DBOW(paragraph-ID로 주변단어 예측)

- paragraph vector는 그 문서(문단, 문장)의 모든 정보 함축

 

사례) Wikipedia 문단 벡터의 시각화(t-SNE 차원축소)

- 비슷한 주제끼리 임베딩 됨

 

- 리뷰 데이터의 임베딩

- 평점이 유사한 문단, 단어끼리 임베딩

- 특정 평점과 가까이 있는 문단은 해당 평점을 받을 확률이 높다는 의미

 

 

자연어 이외의 임베딩

 

- 일별 뉴스 임베딩

- 서로 가까이 있는 사건으로 사회, 경제, 정치적 상황의 유사성 예측 가능

 

- 시스템 콜 임베딩

- 시스템 작업 로그 -> 정상적 로그와 떨어져 있는 의심이 가는 이상 행동 사용자 파악

 

- 방송 임베딩(afreecaTV Live2Vec)

- 시간순 시청 이력을 문장, 문단으로 보고 임베딩(학습)하여 유사한 방송 추천

 


 

[유사도 기법]

https://wikidocs.net/24654

 

1. 유클리드 거리(Euclidean distance)

 

다차원 공간에서 두 개의 점 pq가 각각p=(p1, p2, p3,...,pn)과q=(q1, q2, q3,...,qn)의좌표를 가질 때 두 점 사이의 거리를 계산하는 유클리드 거리 공식은 다음과 같습니다.

2. 자카드 유사도(Jaccard similarity)

 

A와 B 두 개의 집합이 있다고 합시다. 이때 교집합은 두 개의 집합에서 공통으로 가지고 있는 원소들의 집합을 말합니다. 즉, 합집합에서 교집합의 비율을 구한다면 두 집합 A와 B의 유사도를 구할 수 있다는 것이 자카드 유사도(jaccard similarity)의 아이디어입니다.

자카드 유사도는 0과 1사이의 값을 가지며, 만약 두 집합이 동일하다면 1의 값을 가지고, 두 집합의 공통 원소가 없다면 0의 값을 갖습니다. 자카드 유사도를 구하는 함수를J라고 하였을 때, 자카드 유사도 함수J는 아래와 같습니다.

두 개의 비교할 문서를 각각doc1,doc2라고 했을 때doc1doc2의 문서의 유사도를 구하기 위한 자카드 유사도는 이와 같습니다.

 

즉, 두 문서doc1,doc2사이의 자카드 유사도J(doc1, doc2)는두 집합의 교집합 크기를 두 집합의 합집합 크기로 나눈 값으로 정의됩니다.

 


[이은아님 강의 모음]

www.youtube.com/playlist?list=PLGAnpwASolI0vViZItiP90nWI_s9m91Av

 

이은아님 머신러닝 자연어처리 - YouTube

 

www.youtube.com

 


 


 

 

반응형

+ Recent posts