OrdinalEncoder (1) 썸네일형 리스트형 트리 모델에서 Ordinal 대신 Nominal 인코딩을 해야 하나? A : 트리 모델에서는 Nominal 특성을 가진 범주에도 Ordinal 인코딩을 해도 된다. 트리 모델에서는 지니 불순도를 낮추는 특성이 중요하게 여겨져, 트리 모델의 상위 노드에서 분할이 일어난다. 만약 트리 모델에서 원핫 인코딩을 하면 cardinality가 높은 범주형 특성들이 상위 특성에서 선택될 가능성이 줄어든다. 미국의 50개 주를 담은 States라는 feature가 있으면, 원핫 인코딩 시 State_NY, State_WT... 등 50개의 feature로 쪼개지기 때문이다. 그래서 State_NY인가? 하는 노드에는 이진형인 0,1 만의 답이 있고, 그러한 feature가 50개다보니 States를 원핫 인코딩을 하고 트리 모델에 넣을 경우 다음과 같은 분포를 보일 수밖에 없다. 트리가.. 이전 1 다음