'pv-dbow' 태그의 글 목록

pv-dbow

[추천강의] 이은아님 머신러닝 비정형 데이터 분석 3/11 문장, 문단, 문서 임베딩 2020.07.07

[추천강의] 이은아님 머신러닝 비정형 데이터 분석 3/11 문장, 문단, 문서 임베딩

2020. 7. 7. 17:31

배울 점이 많은 강의가 있어서 추천드리며, 시리즈로 글을 쓰고자 합니다.

비정형 데이터 분석 3/11 문장, 문단, 문서 임베딩(Embedding)

youtu.be/1tb2njpp8-s

설명 구조

지난 시간까지 배운 내용돌아보면

가장 고전적방법

가장 보편적방법

예시로 간단히 소개

키워드 및 핵심 내용

문장, 문단, 문서, Categoly (자연어) 임베딩

Doc2Vec

- 문장 분석을 위한 임베딩

- Word2Vec과 유사한 아이디어(CBOW, Skip gram) 활용

PV-DM (Paragraph Vector - Distributed Memory model)

- paragraph-id(문서정보) + 단어들 -> 다음 단어 예측

- paragraph-id는 그 문장의 모든 단어들과 학습 -> 그 문장의 주제 정보 함축

- paragraph vector 가 문서의 주제를 저장(Memory) -> PV-DM 명명

PV-DBOW (Paragraph Vector - Distributed Bag Of Words)

- skip gram(중심단어로 주변단어 예측) : PV-DBOW(paragraph-ID로 주변단어 예측)

- paragraph vector는 그 문서(문단, 문장)의 모든 정보 함축

사례) Wikipedia 문단 벡터의 시각화(t-SNE 차원축소)

- 비슷한 주제끼리 임베딩 됨

- 리뷰 데이터의 임베딩

- 평점이 유사한 문단, 단어끼리 임베딩

- 특정 평점과 가까이 있는 문단은 해당 평점을 받을 확률이 높다는 의미

자연어 이외의 임베딩

- 일별 뉴스 임베딩

- 서로 가까이 있는 사건으로 사회, 경제, 정치적 상황의 유사성 예측 가능

- 시스템 콜 임베딩

- 시스템 작업 로그 -> 정상적 로그와 떨어져 있는 의심이 가는 이상 행동 사용자 파악

- 방송 임베딩(afreecaTV Live2Vec)

- 시간순 시청 이력을 문장, 문단으로 보고 임베딩(학습)하여 유사한 방송 추천

[유사도 기법]

https://wikidocs.net/24654

1. 유클리드 거리(Euclidean distance)

다차원 공간에서 두 개의 점 p와q가 각각p=(p1, p2, p3,...,pn)과q=(q1, q2, q3,...,qn)의좌표를 가질 때 두 점 사이의 거리를 계산하는 유클리드 거리 공식은 다음과 같습니다.

2. 자카드 유사도(Jaccard similarity)

A와 B 두 개의 집합이 있다고 합시다. 이때 교집합은 두 개의 집합에서 공통으로 가지고 있는 원소들의 집합을 말합니다. 즉, 합집합에서 교집합의 비율을 구한다면 두 집합 A와 B의 유사도를 구할 수 있다는 것이 자카드 유사도(jaccard similarity)의 아이디어입니다.

자카드 유사도는 0과 1사이의 값을 가지며, 만약 두 집합이 동일하다면 1의 값을 가지고, 두 집합의 공통 원소가 없다면 0의 값을 갖습니다. 자카드 유사도를 구하는 함수를J라고 하였을 때, 자카드 유사도 함수J는 아래와 같습니다.

두 개의 비교할 문서를 각각doc1,doc2라고 했을 때doc1과doc2의 문서의 유사도를 구하기 위한 자카드 유사도는 이와 같습니다.

즉, 두 문서doc1,doc2사이의 자카드 유사도J(doc1, doc2)는두 집합의 교집합 크기를 두 집합의 합집합 크기로 나눈 값으로 정의됩니다.

[이은아님 강의 모음]

www.youtube.com/playlist?list=PLGAnpwASolI0vViZItiP90nWI_s9m91Av

이은아님 머신러닝 자연어처리 - YouTube

www.youtube.com

저작자표시

'머신러닝' 카테고리의 다른 글

[추천강의] 이은아님 머신러닝 비정형 데이터 분석 5/11 Feature Extraction t-SNE (0)	2020.07.09
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 4/11 Feature Selection (0)	2020.07.08
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 2/11 Word2Vec (0)	2020.07.07
[인공지능 뉴스] 공동이익 추론 기반 조정, 협력, 타협 학습 (0)	2020.07.05
[추천강의] 이은아님 머신러닝 비정형 데이터 분석 1/11 신경망언어모델(NNLM) (0)	2020.07.05

sfex tistory blog sfex 블로그입니다. 인공지능, 프로그래밍, 암호화폐 관련 정보를 제공합니다. 좋은 하루되세요~^^

PREV 이전 1 NEXT 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

sfex tistory blog

pv-dbow

[추천강의] 이은아님 머신러닝 비정형 데이터 분석 3/11 문장, 문단, 문서 임베딩

설명 구조

키워드 및 핵심 내용

문장, 문단, 문서, Categoly (자연어) 임베딩

자연어 이외의 임베딩

[유사도 기법]

[이은아님 강의 모음]

'머신러닝' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역