본문 바로가기

머신러닝, 딥러닝

혼자 공부하는 머신러닝+딥러닝 5주차

[기본 미션]


K-평균 알고리즘

 

1. 데이터에서 무작위로 k개의 클러스터 중심을 정하고(Initial centroids), 
2. 클러스터의 중심에서 가장 가까운 샘플들을 하나의 클러스터로 묶는다.(Iteration 1 에서 구역을 나눔),
3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경하고,
4. 클러스터 중심에 변화가 없을 때까지 3-4를 반복하는 것이 k-평균 알고리즘이다. 

 

[선택 미션]

1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개일까요?
-> 20개. 
특성이 20개이니 주성분도 20개가 된다.

2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100) 입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
-> (1000, 10)
원래 데이터셋의 크기는 (1000, 100) 이다. 여기서 10개의 주성분을 찾아 데이터셋을 변환한다면 데이터셋의 크기는 (1000, 10)이다.

3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
-> 첫 번째 주성분.
첫 번째 주성분이 원본 데이터에 있는 분산을 가장 많이 표현한다.