-
[기초통계] 퍼진 정도의 측도 (분산, 표준편차,범위,사분위수)카테고리 없음 2019. 5. 30. 11:07
자료의 분포를 파악할 때 중심위치만을 가지고는 파악하기 쉽지 않다.
중심위치는 같아도 퍼진정도가 다른 분포가 존재하기 때문이다.
데이터의 퍼진 정도는 분산, 표준편차, 범위, 사분위수로 알 수 있다.
편차
먼저 자료가 얼마나 흩어져 있는지를 편차로 확인 해 볼 수 있다.
편차는 각 관측값이 자료의 중심(평균)으로부터 떨어져 있는 정도로 (관측값-표본평균)로 구할 수 있다.
평균을 중심으로 데이터들이 모여있기 때문에 편차들의 합은 0이고, 편차의 평균도 0이다.
때문에 편차로 퍼진 정도를 측정하는 것은 적합하지 않다.
퍼진 정도를 측정하는 것은 관측값이 중심위치에서 얼마나 떨어져 있는가를 알기위한 것으로
편차의 부호는 중요하지 않고, 편차의 크기만 중요하다.
때문에 편차의 부호를 없에기 위해 제곱을 한 분산으로 퍼진청도를 측정할 수 있다.
분산(표본분산)
분산은 편차 제곱의 합을 구한 후 관측값의 개수에서 1을 빼준다.
1을 빼주는 이유는 편차의 합이 0이라는 제약이 있기 때문이다.
표본분산의 단위는 제곱으로 관측값의 단위와 맞지 않아 단위를 맞춰줘야 한다.
표준편차
표준편차는 분산에 제곱근을 씌워 관측값의 단위와 맞춰준다.
범위
퍼진 정도를 나타내는 또 다른 측도로 범위가 있다.
범위는 관측값에서 가장 큰 값과 가장 작은 값의 차이이다.
장점 : 간편하게 구할 수 있고, 해석이 용이함
단점 : 중간에 위차한 관측값의 퍼짐 정도는 알 수가 없음, 극단치가 관측값에 미치는 영향이 매우 클 수 있다.
사분위수 범위
사분위수는 전체 관측값을 오름차순으로 배열한 뒤 전체를 사등분하는 값이다.
사분위수의 범위 : IQR = 제3사분위수 - 제1사분위수
범위는 전체 관측값의 퍼진정도를 나타내고
사분위수 범위는 상위25%, 하위25%을 제외하여 퍼진정도를 보여주기 땜누에 극단값에 영향을 받지 않는다.
때문에 한쪽으로 치우친 분포에서 극단값을 제외한 퍼진 정도를 알고 싶을 때 사용하면 됨
중심위치 측도로 표본평균을 사용할 경우 - 표준편차 사용 - 전체 관측값 사용 => 극단값 영향 받음
중심위치 측도로 표본평균을 사용할 경우 - 사분위수 사용 - 일부 관측값 사용 => 극단값 영향 받지 않음
데이터의 스케일, 단위, 중심위치가 매우 다른 두 개 이상의 분포를 비교할 땐 사분위수, 표준편차 모두 적합하지 않음
변동계수(CV)
변동계수는 표본에 대한 상대적인 퍼진 정도를 백분율로 나타내 단위가 다른 분포를 비교할 때 사용할 수 있다.
변동 계수의 값이 클수록 상대적인 차이가 크다는 것을 의미
cv(%) = (표준편차)/(표본평균)*100
참고