본문 바로가기

개발

리디셀렉트 - 데이터 분석가의 숫자유감

 

select.ridibooks.com/article/@data/4?q=%EB%8D%B0%EC%9D%B4%ED%84%B0&s=search

 

확률과 분포 | 그 때는 맞고 지금은 틀린…가? - 리디셀렉트

데이터분석가의 숫자유감

select.ridibooks.com

확률과 통계에 대한 개념을 이해하기 쉽게 만화로 연재한다. 

 

아래는 연재된 내용 중 필사한 내용이다.

 

 

상관관계가 있다고 인과관계가 있는 건 아니다.

두 데이터가 비슷할 때 유의미한 차이가 있는지 확인하기 위해서 사용하는 게 test다. 

모집단은 간단해 보이지만 매우 추상적인 개념이다. 간단히 정의할 수 없다.
모집단의 데이터 분석을 하려면
1. 모집단을 어느 정도 정의
2. 이에 가까운 표본을 정의(큰 수의 법칙을 사용해서 모집단의 특성치를 추정하기에 적당한 표본을 정한다)
3. 이 표본을 구하는 방법을 고민
4. 이 표본에 대한 데이터를 수집해야 한다.

모수는 모집단의 수가 아니라 모집단의 통계 값이다.(모평균, 모표준편차)
데이터 분석에서 모집단을 완전히 다룰 수 있는 경우는 거의 없다.

확률은 보장이 아니다. 주사위에서 2가 나올 확률이 1/6이라고
주사위를 6번 던진다고 반드시 2가 한 번 나올 거란 보장은 없다. 

데이터를 모아 '8월에는 평균적으로 비가 9일 온다'라는 결과를 얻었다고
8월에는 항상 9일동안 비가 온다는 뜻은 아니다.

확률은 지나간 사건의 결과를 보상해주지 않는다. 하지만 데이터가 많아질수록 결과는 확률에 근접하게 된다.