ML & DL & Data Science

[워드 임베딩] 워드 임베딩

SolB 2022. 8. 8. 04:06

https://wikidocs.net/33520

 

워드임베딩

- 단어를 벡터로 표현하는 방법

- 단어를 밀집 표현으로 변환

 

원-핫 인코딩 : 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식

 

1) 희소 표현

- 벡터 또는 행렬의 값이 대부분 0으로 표현되는 방법

- 원-핫 벡터 = 희소 벡터

- 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다. -> 공간적 낭비

 

2) 밀집 표현

- 희소 표현과 반대되는 표현

- 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춘다.

- 0과 1 뿐 아니라 다른 실수값을 가지게 된다.

 

3) 워드 임베딩

- 단어를 밀집 벡터의 형태로 표현하는 방법

- 임베딩 벡터 : 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과

- 케라스 Embedding() : 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 뒤에 인공 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용