Jinsoolve.

Categories

Tags

4월 안에는 꼭...

Portfolio

About

Cross Entropy와 Softmax

Created At: 2025/04/27

1 min read

Cross-entropy와 Softmax가 자꾸 헷갈려서 정리를 한 번 해보자.
+) 추가로 sigmoid와 tanh 도 보자.

Softmax

Softmax(zi)=ezijezj\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}}

ziz_{i}는 i번째 클래스의 점수이다.

이 점수들을 Softmax를 이용해서 0 ~ 1 사이의 확률값으로 만들어 버린다.

Cross-entropy

예측한 확률 분포와 정답 분포가 얼마나 다른지를 측정하는 지표이다.

Cross-entropy=ipilogqi\text{Cross-entropy} = -\sum_{i} p_i \log q_i

pip_{i}는 정답(라벨)이고, qiq_{i}는 모델이 예측한 (Softmax 결과) 확률이다.

식을 살펴보면, logqi-\log{q_{i}}가 있는 걸 확인할 수 있다. 이걸 그래프로 보자.

모델이 예측한 결과인 qiq_{i}는 0 ~ 1 사이의 값임을 기억하자. 즉 logqi-\log{q_{i}}는 양수가 되고, qiq_{i}가 0에 가깝다면 \infty가 되고, 1에 가깝다면 0이 된다.

만약 정답인 pip_{i}가 1인데 qiq_{i}가 0이라면 값이 \infty가 되어서 값이 커지게 된다. 이걸 이용해서 cross-entropy를 손실함수에 사용한다.

Sigmoid와 tanh

시그모이드와 tanh 모두 비선형성을 추가하기 위해 주로 hidden state 값을 계산할 때 사용한다. (softmax는 output을 출력할 때 사용한다.)

관련 포스트가 8개 있어요.

Word2Vec과 GloVe의 차이는 무엇일까?

그래서 Word2Vec과 GloVe의 차이는 대체 뭘까? 개인적으로 매우 헷갈리는 topic이라서 내 개인 이해를 정리해 보았다. 먼저 standard한 Word2Vec과…

2025/04/27

NEW POST

삼격형의 두 변의 길이와 사잇각을 알 때, 나머지 한 변의 길이를 구하는 공식

위와 같은 삼각형이 존재할 때, 변의 길이 b, c와 그 사잇각 α\alphaα를 알고 있다고 가정하자. 이때 a의 길이를 구하는 공식은 다음과 같다. a=b2+c2−2bccos…

2025/02/20

NEW POST
profile

김진수

Currently Managed

Currently not managed

© 2025. junghyeonsu & jinsoolve all rights reserved.