← 문제 목록/Gini 불순도

Gini 불순도

정보이론 · easy

preview

Gini 불순도 (Gini Impurity)

결정트리(CART) 에서 엔트로피(36번)빠른 대체품 으로 쓰이는 불순도 지표:

Gini(p)=1ipi2\text{Gini}(p) = 1 - \sum_i p_i^2

확률적 해석: 분포 p 에서 한 샘플을 뽑아 예측했을 때 오분류될 확률.

엔트로피와 비교

지표계산범위 (k 클래스)
Entropy (bits)-Σ p log₂ p[0, log₂ k]
Gini1 - Σ p²[0, 1 - 1/k]
  • 둘 다 one-hot 에서 0, 균등분포에서 최대
  • Gini는 log 연산이 없어 계산이 빠름 — 대규모 트리에서 유리
  • 분류 성능은 둘이 거의 같다고 알려져 있음

과제

함수 gini(probs) 를 완성하세요.

  • 입력: 1D 확률 배열.
  • 반환: Python float.
  • 1 - np.sum(p**2) 한 줄.

테스트 케이스

#이름입력기대
1one-hot → 0[1, 0, 0]0
2이진 균등 → 0.5[0.5, 0.5]0.5
33-균등 → 2/3[1/3]*3≈ 0.667
4편향[0.9, 0.1]0.18
5k=4 최대[0.25]*40.75
Loading...

코드를 작성하고 Run 을 눌러보세요.