|
|
카테고리
이글루 파인더
오랫만에 쓰려니까 곤란함을 느낀다. 이런 orz ------------------- 표준편차로 가보자. ------------------- 표준편차는 불확실성의 정도를 측정하는 도구인데, 이녀석이 만들어지는 과정을 살짝 살펴보자. 일단은, 아이디어부터. 간단한 확률변수를 가져오자. ![]() 평균은 0임을 쉽게 알수 있다. 그러나 X는 절대 0의 결과를 가져다 주지 않는다. (다시한번 평균만으로의 판단은 위험하다는 것을 알 수 있다.) 막상 X의 결과는 -1. 1이다. A. -1의 결과는 0에서 1만큼 떨어져 있고 B. 1의 결과는 0에서 1만큼 떨어져 있다. A와 B의 결과를 평균하면 -> X의 결과는 평균 0에서 부터 '평균적으로 1 떨어져있다'라고 말할 수 있겠다. 1정도 불확실하다라고 말할 수 있을까? 이게 바로 불확실성을 요약하는데에 있어서 무척 자주 쓰이는 아이디어이다. ![]() 이녀석(우리가 알듯이, 2X)은 평균에서 2만큼 들쭉날쭉하다. 즉 아까보다 불확실성이 크다. ![]() 따로노는 X 두개를 더한 확률변수 X2는? 일단 그 결과가 -2 0 2 라는 것은 알겠는데. A. -2는 2만큼 B. 0은 평균에서 벗어나 있지 않고 C. 2는 2만큼. 다만 B의 경우가 나머지보다 발생할 확률이 2배이므로, 이걸 생각해서 가중평균. (A에 0.25, B에 0.5, C에 0.25 곱해서 더한다) 그럼 X의 결과는 평균인 0에서부터 평균적으로 1만큼 떨어져 있다고 말할 수 있는 것이다. ![]() ![]() 우리가 사용한 방법으로는 위 두 분포 모두 평균 0, 표준편차 1이다. 뭐, 요약의 한계라고 보면 되겠다. 정보의 손실이 있다는거죠. 데헷. ------------------- 표준편차 ------------------- 방금의 이야기에서는 X의 결과와 그 평균과의 거리를 재어서 불확실성의 척도로 삼고, 이것을 평균하는 식으로 불확실성을 요약했다. 저 '거리를 잰다'는 방법을 수학으로 행하려면 절대값을 취해야 하는데, 이 절대값 연산은 좀 성질이 더러워서 이런 저런 고급수학을 적용하기가 까다롭다. 그래서 좀 수학적으로 가지고 놀기 편하게 하기 위해 부드러운(smooth) 성질을 가지면서도 비슷한 역할을 해주는 방법을 쓰는데, 그것이 제곱 - 그리고 제곱근을 취하는 방법이다. 대략은 이렇다: A. X의 각 결과에서 각각 평균을 뺀다. B. A에서 나온 값들을 각각 제곱한다. C. B에서 나온 숫자들을 평균한다. D. C의 결과에서 제곱한 흔적을 지운다. - 제곱근을 취한다. 이때 제곱의 흔적을 지우는 이유는 단위를 맞추기 위해서다. 제곱센치(넓이)를 센치(길이)로 바꾸는 거랄까. 여튼 그렇게 표준편차를 구하면, 아까의 방법과는 약간 다르지만 거의 비슷한 결과가 나온다. 표준편차는 1 표준편차는 2 표준편차는 1.4142 (루트2)제곱의 성질(멀리 떨어진 애가 존재하면 이 특징을 부각시켜준다) 때문에 따로노는 두 X의 표준편차가 X의 표준편차보다 크다. ------------------- 표준편차의 성질 ------------------- 중심극한정리를 다룰때 한 것처럼 따로노는 X들을 더해보자. ![]() 평균은 변하지 않지만, 분포가 좌우로 벌어지는게 보인다. 즉, 많이 더할수록 불확실성이 커지고 있다. 이 불확실성을 표준편차로 재 보면 그 값이 점점 커질 것이다. 실제 그렇다. 그렇지 않았다면 표준편차라는 방법이 그닥 성능이 좋지 않다는 것이고, 통계의 역사에서 생존해낼 수 없었을 터이다. X의 표준편차는 1이었다. 2X의 표준편차는 2였다. 3X의 표준편차는 얼마일까? 답은 3이다. 그러면, X/2 의 표준편차는? 1/2. X를 n으로 나누면 그 표준편차는 1/n이 된다. 실제로, 어떤 확률변수 X의 표준편차를 σ라고 하면 aX의 표준편차는 aσ가 된다. A. 각각 a를 곱했으므로 각각 a배 B. 제곱하면 각각 a제곱 배가 되어있는 상태고 C. 쫙 평균하면 a제곱 배가 되어 있는 셈이고 D. 제곱근을 취하면 결과적으로 a배가 되기 때문이다. 다음으로, 따로노는 두녀석 : X+X 의 표준편차가 1.4142 였던 것에서 X+X+X 의 표준편차를 유추해보라. 답은 루트3. : 1.732 X+X+X+X의 표준편차는? 루트4 즉 2. 따로노는 X를 n개 더하면 그 표준편차는 루트n이 된다. 이게 뭔 소리냐 - 따로노는 애들을 n개 더하면, 불확실성이 커지긴 커지는데, n배로 커지는 것이 아닌, 그보다 조금씩만(정확하게는 루트n배로) 커진다는 것이다. 우리가 살펴봤던 예로 보자면, 따로노는 X들을 많이 더할수록 양 옆으로 퍼지긴 하지만(불확실성의 증가) 가운데가 더 봉긋하게 솟아오른다(예측가능성이 애매하게 증가;; - 불확실성 증가를 일부 상쇄)는 것이고, 이것을 표준편차로 표현하게 되면 정확하게 수학의 루트 함수 형태를 따른다는 것이다. 오오. ------------------- 평균의 법칙 ------------------- X / n 의 표준편차는 1/n 배가 되고 X+X+X+...+X의 표준편차는 루트n 배가 된다는 성질을 종합해보자. 평균은 X를 n개 더한 후 n으로 나눈 결과다. X가 확률변수이므로 평균도 확률변수겠지. (기말고사를 보기 전의 기말고사 평균값은 불확실하다는 뜻이다) 그러면, 이 평균의 표준편차는 어찌 될 것인가? 따로노는 애들을 n개 더하기 때문에 루트n배가 되었다가, n으로 나누므로, 결국, 루트n으로 나눈셈이 된다. 즉, n개 X의 평균이 보이는 표준편차는 X하나의 표준편차(우리의 경우 1)를 루트n으로 나눈셈이 된다. 음?!: n이 클수록 표준편차가, 즉 불확실성이 작아지며 만일 n을 무한대로 보낼 수 있다면, 표준편차가 0이 되어 불확실성을 완전히 없앨 수 있다. 확률변수 X들이 어떤 값을 갖건 간에, 무한개의 평균은 항상 X하나의 평균값을 정확히 짚어내는 것이다. 이것이 바로 평균의 법칙으로, 기대값(던지기 전에 생각해보는 평균)이 a인 확률변수 X들이 n개 있을때, 그들의 평균은 n이 커질수록 a에 가까워진다는, 평균이라는 방법이 갖는 강력한 성질이다. 이걸 그림으로 나타내면... ![]() ------------------- 무슨소리냐 ------------------- 이전 글을 되살려보자. 우리나라 사람들은 능력이 0에서 100까지 분포를 보이며, 때문에 각 사람들에게서 신체를 1/n 만큼 기부받아 하나의 프랑켄슈타인을 만들자. 그러면 그 프랑켄슈타인은 우라나라 사람들 능력의 '평균'에 무척 가까운데, 그 가까워지는 정도는 신체를 기부하는 사람들의 수(n)가 클수록 가깝다는 것이다. 한국사람 무한명으로 프랑켄A를 만들고 일본사람 무한명으로 프랑켄B를 만들자. 프랑켄A가 프랑켄B보다 축구를 잘한다면, '평균적인 한국사람은 평균적인 일본사람보다 축구를 잘한다'라는 서술이 100% 정확하게 된다. 너무 이상적이어서 재미가 없을지도 모르겠지만, 굳이 무한명까지 가지 않아도 상당히 강력한 진술을 할 수 있다: 잘 뽑힌 약 100명 가량으로 프랑켄을 만들고 비교를 해도 중심극한정리에 의해 정규분포 근사가 말이되기 시작하며, 때문에 2표준편차정도의 차이가 날때 95%의 확신을 가지고 어떤 서술을 할 수 있다는 것이다. 대통령선거의 결과(기대값)를 출구조사(몇명의 평균) 만으로 맞추는 게 가능한 이유는 바로 저 평균의 법칙 때문이다. ------------------- 이걸 가지고 뭐 하려고? ------------------- 원래 계획은 Brownian motion 해설까지 이르는 것이었다. 근데 진도가 무지하게 느리네? 데헷 뭐, 그래도 한 걸음씩. 다음번엔 랜덤워크 시계열이라는 독특한 확률변수를 가지고 몇가지 이야기를 해볼까 한다.
이전블로그
2009년 11월
2009년 10월 2009년 07월 2009년 03월 2009년 02월 2009년 01월 2008년 12월 2008년 11월 2008년 10월 2008년 09월 2008년 08월 2008년 07월 2008년 05월 2008년 04월 2008년 01월 2007년 12월 2007년 11월 2007년 10월 2007년 09월 2007년 08월 2007년 07월 2007년 06월 2007년 05월 2006년 12월 2006년 11월 2006년 10월 2006년 09월 2006년 08월 2006년 07월 2006년 06월 2006년 05월 2006년 04월 2006년 03월 2006년 02월 2006년 01월 2005년 12월 2005년 11월 2005년 10월 2005년 09월 2005년 08월 2005년 07월 Jump Nodes
최근 등록된 트랙백
간통죄는 폐지되어야 한다...
by Fiat justitia, ruat caelum. 간통죄? by There is *a* spoon. 간통죄 관련.. -_-a by 꿈, 희망, 기적과 뽀록 이자율평가설의 기상천외한.. by Xerx's 蘭者考麗 괴물 감상문 수집~* by 외날개 히요Heeyo 최근 등록된 덧글
"집에서 놀았어요 뒹굴" 의 ..
by xerx at 18:35 왜 갑자기 포스팅 릴레이;; by joana at 17:18 정작 나는 시사가 아닌글을 .. by 친절한수세미 at 07:19 덧글 감사합니다. ^^ 도움.. by Xerx at 11/21 감사합니다. 정말로 헤매.. by eddy at 11/11 이글루링크
태그
|
|