ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 3. 표준 편차(standard deviation)
    초간단 통계 2022. 12. 6. 18:19
    반응형

    길이가 각각 1, 2, 3, 4, 5cm 인 연필이 있다. (연필 길이의 평균은 3cm이다.) 

    이 값들이 (다른 세트들에 비해) 얼마나 분산되어 (펼쳐져) 있는지 알아보자.. 

    먼저  연필의 길이와 평균의 차이를 알아야 겠다.
    이를 편차라고 한다.
    이걸 알아야 얼마나 펼쳐져 있는 지 알 수 있겠지...

    값들이 얼마나 펼쳐져 있는 지
    편차를 이용해서 
    표현할 수 있는 방법은 뭘까?

    편차의 평균으로 분산 정도를 알 수 있을까?
    편차의 평균은 항상 0이 나오니 곤란하다. 

    연필의 길이 1 2 3 4 5 연필 길이의 평균 3
    편차 -2 -1 0 1 2 편차의 평균 (-2-1+0+1+2) / 5 = 0
    편차의 제곱 4 1 0 1 4 편차 제곱의 평균 (4+1+0+1+4) / 5 = 2

    이것을 해결하려면 어떻게 할까?
    두 가지 방법이 떠오를 것이다. 

    1. 평균과 차이(편차)의 절대값의 평균을 구한다. (6/5)
    2. 평균과 차이(편차)의 제곱의 평균을 구한다. 

    우리는 여기서 2번을 선택한다. 
    이를 분산이라고 한다.
    '분산'은 '편차의 제곱의 평균'이다.

    왜 1번을 선택하지 않았냐고?
    2번이 좀 더 수학적이라고 힐 수 있을 것 같은데 
    그냥 어른들의 사정이라고 해두자. 

    분산을 선택하니
    불편한 점이 하나 발생한다. 

    분산은 편차의 '제곱'의 평균이다.
    즉 분산은 cm을 제곱한 단위이다.

    위 연필들(1,2,3,4,5cm)의 분산은 2 '제곱' 센티미터다.
    넓이도 아닌데 '제곱' 센티미터는 불편하지 않나?

    이를 해결하기 위해 루트를 씌워준다.
    (제곱근을 만들어주자.)
    이것이 표준 편차(σ시그마)이다. 

    (편차 제곱의 평균) ^ (1/2) = 표준 편차

    위 연필들(1,2,3,4,5cm)의 표준 편차는 1.41 '센티미터'다.
    편하다. 

    평균과 표준 편차는 같은 단위기 때문에
    평균인 3cm 에서 표준편차를 더하거나 뺄 수도 있으며.
    이것을 이용해서 연필의 길이를 표현할 수도 있다. 

    2cm짜리 연필과 4cm짜리 연필은 1σ(시그마) 안쪽에 있는 연필이다. 
    5cm짜리 연필과 1cm짜리 연필은 1σ와 2σ 사이에 있다!

    뭔가 표준화된 느낌을 받지 않는가. 
    (앞으로 등장할 다른 세트의 연필이라도)
    표준 편차의 x배의 위치에 있다고 비교할 수가 있게 되었다. 

    이제 새로운 연필세트를 등장시키자.
    두 번 째 세트의 연필의 길이는 3, 6, 9, 12, 15cm이다. 

    참고) 3, 6, 9, 12, 15의 평균은 9이고. 분산은 18. 표준 편차는 4.24이다.

    첫 번째 세트(1,2,3,4,5)의 1cm 짜리 연필과
    두 번째 세트(3,6,9,12,15)의 3cm짜리 연필을 비교해 보자. 

    각 연필은 각 세트의 평균에서 얼마나 멀어져 있는 걸까?

    각 연필의 길이에서 평균을 빼고 표준 편차를 나누면 비교할 수 있다.
    이를 정규화라고 한다. 

    1. 분자 분모 둘 다 cm 단위기 때문에 나누면 단위는 사라지고 '비율'만 남는다.

    2. 표준편차와 분산 등 분산된 정도를 알게 해주는 통계치들을 분산도라고 한다.
    연필 세트가 가진 분산된 정도를 나눠 주면,
    세트가 가진 분산된 정도에 상관없이,
    세트 안에 나의 위치의 비율이 나온다. 
    다른 세트의 연필과도 비교 가능해진다. 

    3. 그래프를 보면 쉬울 텐데.. 그리려니 귀차니즘이.. 
    평균을 뺀 것은 = 그래프에서 x축 이동에 해당되고
    표준 편차를 나눈 것은 = x축 방향으로 그래프 폭을 비교 가능하도록 조절해 준다. 

    ---------------------------------------

    문제를 조금 변형한다면...

    첫 번째 세트(1,2,3,4,5)는 철수가 오랫동안 쓴 색연필 세트고,
    두 번째 세트(3,6,9,12,15)는 영희가 산 지 얼마 안 된 색연필 세트다. 
    (새 연필일 때 길이는 모두 같았고, 세트 내 연필의 색은 모두 다르다.)

    철수와 영희는 특정 색에 대한 선호도가 있어
    특정 색을 좋아하는 만큼 해당 색연필을 많이 사용한다. 

    철수가 가장 좋아하는(많이 쓰는) 색연필은 1cm 남아있고,
    영희가 가장 좋아하는(많이 쓰는) 색연필은 3cm 남아있다. 

    철수가 가장 좋아하는 색의 선호도와
    영희가 가장 좋아하는 색의 선호도를 비교해서
    누가 최애 연필을 '더' 좋아하는지 찾아보자. 

    ---------------------------------------

    각 연필의 길이에서 평균을 빼고 표준 편차를 나눈다.

    (1 - 3) / 1.41 = -1.41 
    (1,2,3,4,5) 연필 세트에서 1cm 연필은 표준편차의 -1.41 배의 위치에 있다. 

    (3 - 9) / 4.24 = -1.41
    (3,6,9,12,15) 연필 세트에서 3cm 연필은 표준편차의 -1.41 배의 위치에 있다. 

    즉 둘은 같은 비율만큼 평균에서 떨어져 있다.

    즉 철수가 1cm짜리 색연필을 좋아하는 정도와
    영희가 3cm짜리 색연필을 좋아하는 정도는
    같다고 할 수 있는 것이다. 

    ---------------------------------------

    그렇다면 영수의 (2, 5, 6, 7, 10) 연필 세트와 비교한다면?
    평균은 6 분산은 6.8 표준 편차는 2.61이다. 

    (2 - 6) / 2.61 = -1.53
    (2, 5, 6, 7, 10) 세트의 2cm짜리 색연필은 
    위의 두 연필보다 유의미할 정도로 평균에서 멀리 떨어져 있다. 

    영수가 2cm 짜리 색연필을 좋아하는 정도는
    철수와 영희가 각자의 최애 색연필을 좋아하는 정도보다 크다.

    ---------------------------------------

    이런 활용을 위해 표준 편차를 배우는 것이다. 

    표본이 집단에서 어느 정도의 위치에 있느냐는
    통계에서 아주 중요한 문제이다.

    반응형
Designed by Tistory.