ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 9. 통계적 유의성, 귀무가설, 대립가설
    초간단 통계 2022. 12. 9. 14:46
    반응형

    동전 던지기와 확률

    조작된 동전인지 아닌지 알 수 없는 상태에서 동전 던지기를 한다. 

    동전을 던졌다. 그런데 앞면이 나왔다. 앞면이 나올 확률 1/2
    또 던졌다. 그런데 앞면이 나왔다. 앞면이 나올 확률 1/4
    또 던졌다. 그런데 앞면이 나왔다. 앞면이 나올 확률 1/8

    n번 던졌을 때 모두 앞면이 나올 확률: 1/(2**n)

    for n in range(1, 10):
        print(f'{n}회: {1 / 2 ** n * 100}%')
    1회: 50.0%
    2회: 25.0%
    3회: 12.5%
    4회: 6.25%
    5회: 3.125%
    6회: 1.5625%
    7회: 0.78125%
    8회: 0.390625%
    9회: 0.1953125%

     

    몇 회부터 조작된 동전이라고 의심하게 될까?

    느낌적으로~!
    예민한 사람은 3~4회 정도에서 의심을 가지게 되고
    둔한 사람도 4~5회 정도에서 강한 의심을 가지게 되지 않을까?

    3~4회 정도라면 이런 일이 일어날 확률이 10% 전후, 
    4~5회 정도라면 이런 일이 일어날 확률이 5% 전후임을
    위 코드를 통해 알 수 있다.  

    돈 내기를 걸었다고 생각해 보자.
    내 돈은 소중하니까 내 돈을 지키기 위해
    우리는 엄격한 기준(?)을 사용하는 것도 나쁘지 않을 것이다. 

    5%면 강한 의심이 아니라 사기라고 생각하자.  

     

    이제 동전 던지기를 귀무가설, 대립 가설로 설명해보자. 

    '조작 여부를 알 수 없는 동전을 5회 던져
    모두 앞 면이 나왔다'
    라는 실험 결과를 가지고

    '동전의 조작품 여부'를
    귀무 가설, 대립 가설로 검증해 보자.  

    일단 귀무가설틀림을 증명해야할 가설이다. 

    대립 가설은 실험 가설이라고도 하는데
    '귀무가설이 틀리니니까 대립 가설이 맞다~!'
    가 될 결과물이다. 

    '매끄럽게' 논리가 진행되려면, 
    '실험 결과'를 떠올려 보면 알 수 있겠지만... 

    '정품(조작되지 않은) 동전이다.'가 귀무가설이 되어야 하고
    실험 결과가 정품 동전으로 보기엔 너무 이상하다. 
    그러므로 '정품 동전이 아니다. 조작된 동전이다.' 가
    결과물(대립 가설)이 되어야 한다. 

    그런데 이 실험에서 저 동전은 5회 연속 앞면이 나왔고
    이게 정상적인 동전이라면
    이런 사건이 발생할 확률은 3.125% 밖에 되지 않는다.   

    위에서 말한 조작된 동전임을 확신하게 되는 수준을 유의 수준이라 하는데, 
    유의 수준보다 실험 결과가 발생할 확률이 낮아야 
    '이 사건은 일어나기 어려운 건데 일어났어요. 그러니 사기군요'라고 이야기할 수 있다.

    사기네~! 라고 외치는 걸
    가설 검증에서는 '기각'이라고 한다.  

    일반적으로 p값은 0.05(5%)를 기준으로 한다. 
    하지만 p값은 상황에 따라 달라질 수 있는 값이다. 

    -----------------------------
    이해를 돕기 위해
    간단히 한 번 더 요약... 

    이 동전은 정품이에요...
    그런데 실험을 하니 앞면이 연속 5회 나왔어요.
    0.05 이하의 확률이 나와버리네요... 
    그럼 어떻하죠? 어떡하긴 뭘 어떡합니까...

    실험 과정도 점검해보고, 재실험도 해보고,
    그래도 그렇다면,
    조작된 동전이라 생각해야 되지요... 

    -----------------------------

    귀무가설을 이용한 가설의 검증은
    문학이나 논리학의 이중 부정과 비슷하다.. 
    부정의 부정은 긍정...

    -----------------------------

    귀무가설을 기각하지 못하면... 

    만약 동전 던지기 10회를 했는데 
    3번은 앞면 7번이 뒷면이라면
    이 동전은 위조라고 할 수 있을까?

    직관적으로 
    정품 동전에서도 충분히 일어날 수 있는 일 같고
    위조라고 할 수는 없을 것 같다.

    정품임을 가정하고 확률을 계산해 보자.

    from math import factorial
    
    def c(n, r):
        return factorial(n) / (factorial(n - r) * factorial(r))
    
    print(c(10, 3) / (2 ** 3 * 2 ** 7))  # 0.1171875


    10C3 * (0.5 ** 7) * ( 0.5 ** 3) = 0.117
    11.7% 정도 

    첫 실험과 비교하자면,
    첫 실험에서 정품 동전이 3번 연속 뒷면이 나올 확률이 12.5 %, 
    충분히 있을 수 있는 일이라는 느낌이었다... 
    11.7% 정도의 확률은 
    직관적으로도 수치적으로도 거짓이라고 말하기 어렵다. 

    위의 귀무가설을 다시 가져오면...
    귀무가설(거짓임을 증명해야 할 가설): 이건 정품 동전이다... 
    실험 결과는 정품 동전이라면 나올 수 없는 실험 결과가 나오고... 
    따라서 이건 정품 동전이 아니다....
    라는 논리 흐름이 나와야 하는데... 

    그런데 실험 결과가 맹숭 맹숭하면.. 
    귀무가설을 거짓이라고 할 수 없다..

    정품에서도 이럴 수 있고
    조작된 동전에서도 이럴 수 있다고 하면...
    더 진행할 수 있는 게 없다. 
    논리 흐름이 끊어진다. 

    밝힐 수 없다... 에서 끝.  

    원리를 이해하지 못하면...
    위 결과를 가지고

    '귀무가설이 거짓이라 할 수 없으니까
    실험 가설이 거짓이다.' 라거나,
    '귀무가설이 참이므로
    실험 가설은 거짓이다.'라고
    착각하는 경우도 꽤 있다...
    그러면 안 됨~!!!

     

    요약

    (위의 실험을 아래의 요약에 채워 넣어보자)

    1. 귀무 가설, 대립 가설 만듬. (대립가설은 증명하고자 하는 것) 
    2. 귀무 가설이 성립하지 않음을 증명. 
    3. 귀무 가설을 기각, 대립 가설을 채택. 

    귀무 가설이 성립하지 않음을 증명하는 법. 
    2-1. 귀무 가설의 성립을 가정하고 실험 결과가 발생할 확률을 계산한다. 
    2-2. 실험 결과가 발생할 확률이 유의 수준보다 낮다. (= 발생할 가능성이 거의 없는 실험 결과) 
    2-3. 발생할 가능성이 거의 없는 실험 결과가 왜 나왔냐. 귀무 가설이 억지기 때문.
    2-4. 대립가설이 맞다고 생각하면 실험 결과의 발생 가능성은 높다. 

    귀무가설이 기각되지 않는 정도의 실험 결과였다면...
    3-1.  기각되지 않았다에서 끝.

     

    1종 오류와 2종 오류

      거짓
    채택 옳은 결정(참이 채택됨) 2종 오류(거짓이 채택됨)
    기각 1종 오류(참이 기각됨) 옳은 결정(거짓이 기각됨)

    우리가 귀무 가설과 대립 가설로 검증을 하였지만
    이는 확률적인 가능성이 있다 없다일 뿐
    오류의 가능성은 존재한다. 

    참이 기각되는 걸 1종 오류,
    거짓이 채택되는 것을 2종 오류라고 한다. 

    숫자가 헷갈릴 수 있는데
    보통 '참, 거짓'이라는 순서로 말하니까,
    이 순서로 외우면 된다.

    참은 1번.
    '참'에서 오류가 생겼다.
    참에서 생길 수 있는 오류는 뭐지?
    '참이 기각'되는 것.
    그러므로
    참이 기각되는 것은
    1종 오류이다.  

    거짓은 2번.
    거짓에서 발생하는 오류는 '거짓이 채택되는 것'
    그러므로 거짓이 채택되는 것은 2종 오류이다. 

    반응형
Designed by Tistory.