여론조사를 보면서 많이들 하시는 말씀이 <div><br></div> <div>유선 응답 비율이 높을수록, 그리고 응답률이 높을수록 안철수 후보에게 유리한 경향을 보인다는 말씀을 많이 하셨습니다.</div> <div><br></div> <div>실제로 그래프와 숫자를 보면 그런 경향이 보이는 것 같긴 하지만</div> <div><br></div> <div>이게 칵테일파티 효과는 아닌지 궁금해서 실제로 그래프를 그려보기로 했습니다.</div> <div><br></div> <div><br></div> <div><br></div> <div>자료는 네이버 대선 지지율 <a target="_blank" href="http://news.naver.com/main/election/president2017/trend/survey.nhn" target="_blank">http://news.naver.com/main/election/president2017/trend/survey.nhn</a> 를 기초로 했고요,</div> <div><br></div> <div>여기서 유선조사비율과 응답률이 모호한 것은 선거관리위원회 여론조사결과 등록현황</div> <div><br></div> <div>(<a target="_blank" href="http://www.nesdc.go.kr/portal/bbs/B0000005/list.do?menuNo=2004670" target="_blank">http://www.nesdc.go.kr/portal/bbs/B0000005/list.do?menuNo=2004670</a>) <span style="font-size:9pt;">에 가서 직접 찾아서 채웠습니다.</span></div> <div><br></div> <div><br></div> <div><br></div> <div>먼저 데이터를 직접 보겠습니다.</div> <div><br></div> <div>(구글 스프레드시트를 활용해서 좀 깔끔하지 않을 수 있습니다.)</div> <div><br></div> <div><u style="font-weight:bold;"><font color="#ff0000">격차</font> = 문재인 - 안철수</u> 로 계산했습니다. 이후 차트는 모두 동일합니다.</div> <div><br></div> <div><div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201704/149256789138411ed3eb38418a878bdc98aa37b4ca__mn639776__w431__h553__f79699__Ym201704.png" width="431" height="553" alt="data.PNG" style="border:none;" filesize="79699"></div> <div style="text-align:left;"><br></div> <div style="text-align:left;">더 많은 데이터를 넣고 싶었으나</div> <div style="text-align:left;"><br></div> <div style="text-align:left;">4월 4일 이전에는 안철수 후보의 지지율이 거의 대부분의 여론조사에서 30%를 밑돌아서 후보간 격차가 컸습니다.</div> <div style="text-align:left;">이에 지지율이 급등한 이후인 4월 4일을 기점으로 이후의 모든 공표된 여론조사를 넣었습니다.</div> <div style="text-align:left;"><br></div> <div style="text-align:left;">실제로 그래프를 보시죠. </div> <div style="text-align:left;"><br></div> <div style="text-align:left;"><br></div> <div style="text-align:left;">먼저 유선조사 비율에 따른 후보간 격차 입니다. </div> <div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201704/1492567891d744ee6511a142f988a1fb529b209cee__mn639776__w599__h371__f14683__Ym201704.png" width="599" height="371" alt="wired.PNG" style="border:none;" filesize="14683"></div> <div style="text-align:left;"><br></div> <div style="text-align:left;">데이터 점들이 오른쪽 아래로 내려가는 경향을 뚜렷하게 확인할 수 있습니다. </div> <div style="text-align:left;">유선조사비율이 30% 를 넘어서면 <span style="font-size:9pt;">후보간 격차가 5%p 이상으로는 거의 나오지 않는 것을 확인할 수 있습니다.</span></div> <div style="text-align:left;"><span style="font-size:9pt;">반면에 유선조사비율이 10%대 이하면 후보간 격차가 거의 대부분 5%p 이상 (한 데이터 포인트를 제외하곤 모두) 나는 것을 확인할 수 있습니다.</span></div> <div style="text-align:left;"><span style="font-size:9pt;"><br></span></div> <div style="text-align:left;"><span style="font-size:9pt;">이에 많이들 말씀하셨던 유선조사 비율은 여론조사 결과에 상당히 영향을 미치는 것을 확인하실 수 있습니다.</span></div> <div style="text-align:left;"><span style="font-size:9pt;"><br></span></div> <div style="text-align:left;"><span style="font-size:9pt;"><br></span></div> <div style="text-align:left;"><span style="font-size:9pt;"><br></span></div> <div style="text-align:left;"><span style="font-size:9pt;"><br></span></div> <div style="text-align:left;">그렇다면 응답률에 따른 후보간 격차는 어떨까요.</div> <div style="text-align:left;"><br></div> <div style="text-align:left;"><br></div> <div style="text-align:left;"><br></div> <div style="text-align:left;"><br></div> <div style="text-align:left;"><img src="http://thimg.todayhumor.co.kr/upfile/201704/1492567891f04442edc83549cc84c54a487304def4__mn639776__w600__h371__f14926__Ym201704.png" width="600" height="371" alt="response rate.PNG" style="border:none;" filesize="14926"></div> <div style="text-align:left;"><br></div> <div style="text-align:left;">응답률이 높을 수록 (샘플이 된 표본을 사용할 것으로 추측되므로) 후보간 격차가 작을 것이다. 라는 것이 세간의 가설이었습니다.</div> <div style="text-align:left;"><br></div> <div style="text-align:left;">응답률이 20%가 넘어가면 분명 후보간 격차가 다른 표본보다 적게 나는 것을 확인할 수는 있습니다만, </div> <div style="text-align:left;">응답률 10~15% 대는 분명한 경향이 있다고 결론내리기엔 애매합니다. </div> <div style="text-align:left;"><br></div> <div style="text-align:left;">분명 응답률이 15% 이하에서 후보간 격차가 크게 발생하는 것을 볼 수 있지만, 격차가 작거나 안철수 후보가 유리하게 나온 결과도 해당 구간에 존재하기 때문입니다. </div> <div style="text-align:left;"><br></div> <div style="text-align:left;">가설 자체가 '샘플링 된 데이터를 쓸 것이다' 이기 때문에 경향성을 찾으려면 훨씬 많은 데이터를 필요로 할 것으로 보입니다. </div> <div style="text-align:left;">실제 여론조사에서 응답률이 높지만 샘플링을 하지 않았을 수 있고, 낮은 응답률에서도 샘플링을 했을 수도 있기 때문입니다.</div> <div style="text-align:left;"><br></div> <div style="text-align:left;"><br></div><br></div> <div><br></div> <div><br></div> <div><br></div> <div>결론:</div> <div><br></div> <div><b>1. 유선조사 비율에 따른 후보간 유/불리는 제법 확실한 경향성을 보인다. 즉, 유선조사 비율이 높을 수록 안철수 후보에게 유리하게 나타남.</b></div> <div><b>2. 응답률에 따른 후보간 유/불리는 섣불리 결론 내릴 수 없다.</b></div> <div><br></div> <div><br></div> <div>이상입니다.</div> <div><br></div> <div>데이터 오류 제보, 데이터에 대한 토의 환영합니다. </div>