Word2Vec과 GloVe의 차이는 무엇일까?
그래서 Word2Vec과 GloVe의 차이는 대체 뭘까? 개인적으로 매우 헷갈리는 topic이라서 내 개인 이해를 정리해 보았다. 먼저 standard한 Word2Vec과…
2025/04/27
Jinsoolve.
Categories
Tags
4월 안에는 꼭...
About
Cross-entropy와 Softmax가 자꾸 헷갈려서 정리를 한 번 해보자.
+) 추가로 sigmoid와 tanh 도 보자.
는 i번째 클래스의 점수이다.
이 점수들을 Softmax를 이용해서 0 ~ 1 사이의 확률값으로 만들어 버린다.
예측한 확률 분포와 정답 분포가 얼마나 다른지를 측정하는 지표이다.
는 정답(라벨)이고, 는 모델이 예측한 (Softmax 결과) 확률이다.
식을 살펴보면, 가 있는 걸 확인할 수 있다. 이걸 그래프로 보자.
모델이 예측한 결과인 는 0 ~ 1 사이의 값임을 기억하자. 즉 는 양수가 되고, 가 0에 가깝다면 가 되고, 1에 가깝다면 0이 된다.
만약 정답인 가 1인데 가 0이라면 값이 가 되어서 값이 커지게 된다. 이걸 이용해서 cross-entropy를 손실함수에 사용한다.
시그모이드와 tanh 모두 비선형성을 추가하기 위해 주로 hidden state 값을 계산할 때 사용한다. (softmax는 output을 출력할 때 사용한다.)
그래서 Word2Vec과 GloVe의 차이는 대체 뭘까? 개인적으로 매우 헷갈리는 topic이라서 내 개인 이해를 정리해 보았다. 먼저 standard한 Word2Vec과…
2025/04/27
각 batch 데이터마다 분포가 다르게 되면 모델의 학습이 어렵다. 즉, 전에는 0 ~ 20 데이터가 들어와서 그거대로 학습했는데, 이번 batch에는 2000 ~ 4000…
2025/04/25
위와 같은 삼각형이 존재할 때, 변의 길이 b, c와 그 사잇각 α\alphaα를 알고 있다고 가정하자. 이때 a의 길이를 구하는 공식은 다음과 같다. a=b2+c2−2bccos…
2025/02/20
내림차순 정렬이 되어있을 때의 lower_bound와 upper_bound 사용법 lower_bound(v.begin(), v.end(), num, greater<int>());…
2025/02/10