모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 게시물ID : science_63747
    작성자 : 코그니토
    추천 : 12
    조회수 : 884
    IP : 39.117.***.59
    댓글 : 69개
    등록시간 : 2017/05/14 00:06:36
    http://todayhumor.com/?science_63747 모바일
    미분류는 얼마나 많으면 많은 것인가?
    "더플랜"은 K값, 그리고 해킹 시연으로 이어지는 논리 전개의 시작을 "미분류가 너무 많다"라는 데서 시작합니다. 그런데 미분류가 '너무' 많다는 것은 '얼마나' 많은 것일까요? 1%? 2%? 3%?

    여기에 대해서 여러 분들이 '쉽게' 설명하시려고 노력하셨으니 저는 이 문제가 '교과서'에 어떻게 나오는지 살펴보겠습니다. 참고로 할 교과서는 크리스토퍼 비숍이 쓴 "패턴 인식과 기계 학습(Pattern Recognition and Machine Learning)"입니다. 이하 '비숍책'이라고 하겠습니다. 비숍책은 지난 10여년간 패턴 인식 및 기계 학습 분야에서 표준적인 교과서에 가까운 자리를 차지해왔습니다. 예를 들면 미국에서는 스탠포드, 하버드, 국내에서는 서울대 등이 이 책을 교과서로 수업합니다.

    미분류의 개념은 거의 800쪽에 달하는 비숍책에서 시작하자마자 바로 1장부터 나옵니다. 다음은 42쪽 1장 5.3절에서 스캔한 대목입니다.

    미분류.png

    여기서 1.5.3 절이 설명하는 Reject option이 바로 '미분류'입니다. 노란색으로 줄쳐놓은 것과 같이 어려운 케이스의 경우에는 기계가 판단하는 것을 피하고 인간 전문가에게 맡기는 것이 전체적인 오류를 줄일 수 있다는 것이죠.

    재밌는 것은 더플랜 논문에서는 아래 그림과 같이 "오직 무효표만 미분류되어야 한다"라고 하면서 교과서와 전혀 말을 하고 있습니다.

    더플랜논문오류1.png

    물론 더플랜 논문의 저자들은 통계 유관 전공자이기는 합니다. 그러나 전공자라고 해서 모든 분야를 다 아는 것은 아니고, 특히 학문 세계에서는 세부 전공이 조금만 달라지면 잘 모르는 것도 당연한 일입니다. 즉, 한 분야의 교수나 박사들이 다른 분야의 교과서 1장 수준의 이야기도 모르는 것이 그렇게 이상한 일은 아닌 것이죠. 프로필을 보니 더플랜 논문의 저자인 전희경, 신화신 등은 보건, 환경 쪽의 통계를 다루는 분들인 것 같더군요. 그렇다면 기계가 이미지를 어떻게 처리해야 하는가 하는 문제는 잘 모를 수도 있습니다. 참고로 비숍 책은 주로 컴퓨터 공학과 대학원에서 교과서로 씁니다.

    어쨌든 다시 교과서, 비숍책으로 돌아옵시다. 미분류에 대해 설명하는 대목을 보면 어디에도 미분류가 3%면 높다느니 낮다느니 하는 식의 설명은 없습니다. 원리는 이렇습니다. 기계는 항상 가장 확률이 높은 선택을 합니다. 그런데 이렇게 하면 1번 표일 확률이 51%만 되어도 1번으로 분류하게 됩니다. 이건 좀 이상하죠. 그래서 일정한 기준, 즉 본문에서 θ(쎄타)라고 표시한 수치를 정해서 가장 높은 확률이 이 수치보다 낮으면 미분류로 보냅니다. 예를 들어 θ(쎄타)가 99.99%라고 하면 1번으로 기표되었을 확률이 99.98%인 경우에도 미분류로 보낸다는 것이죠.

    그럼 이 θ(쎄타)는 어떻게 정해야 하느냐. 마지막 문단이 그것을 설명하고 있습니다. 미분류 자체가 일으키는 '손실'을 고려해서 가장 '기대 손실'을 줄일 수 있는 수준으로 정하라는 것이죠. 여기서 손실은 여러 가지로 생각해볼 수 있습니다. 개표의 경우 심사집계부까지 거쳐도 끝까지 잘못 집계되는 표의 수 같은 것을 손실이라고 볼 수도 있겠네요.

    그런데 1.5.3절은 여기서 끝납니다. 구체적으로 θ(쎄타)를 구하는 방법은 나오지 않아요. 여기서 공대생들이라면 뒷목잡을 만한 부분이 하나 있습니다. 그것은 바로...

    연습문제.png

    θ(쎄타)를 구하는 것은 연습문제로 남겨두었습니다. 하아.. 잠깐 눈물 좀 닦고 이야기를 계속 이어 가도록 하지요.

    어쨌든 연습문제는 쉽게 말하면 이렇습니다. 혼표가 일으키는 손실을 1이라고 했을 때, 미분류가 일으키는 손실을 λ(람다)라고 하면 θ(쎄타)는 어떻게 계산되느냐 이런 것이죠. 어떻게 계산될까요? 다행스럽게도 이 문제는 풀이가 있습니다. (문제 앞에 WWW 표시가 있으면 인터넷에서 풀이를 확인할 수 있다는 뜻입니다) 풀이는 아래와 같습니다.

    답1.png
    답2.png

    뭐 과정은 생략하고 결론만 보면 θ(쎄타)는 1 - λ(람다)로 정할 때 기대 손실을 최소화할 수 있다는군요. 그리고 λ(람다)는 혼표가 일으키는 손실을 1이라고 했을 때 미분류가 일으키는 손실이므로 다시 말하면 (미분류에 의한 손실)/(혼표에 의한 손실)로 다시 계산할 수 있습니다.

    즉, 1 - (미분류에 의한 손실)/(혼표에 의한 손실)을 기준으로 그보다 확률이 낮으면 미분류 하는 게 전체적인 손실을 줄일 수 있다는 것입니다. 여기서 실제 미분류의 비율까지 구하려면 좀 더 계산이 필요합니다. 어쨌든 그건 생략하고..

    다시 처음의 이야기로 돌아와 봅시다. 더플랜에서 김어준은 미분류가 3%인 것은 '너무 많다'고 말합니다. 그러나 교과서는 미분류가 몇 %인 것이 많다 또는 적다라는 식으로 설명하지 않습니다. 미분류에 의한 손실과 혼표에 의한 손실을 고려하여 '최적' 비율을 결정할 수 있다고 설명하지요. 두 가지의 손실이 얼마냐에 따라 미분류는 3%가 최적일 수도 있고 30%가 최적일 수도 있습니다.

    즉, "3%는 너무 많다" 같은 더플랜 식의 논법은 교과서 수준의 이해조차 결여한 잘못된 것입니다.



    이 게시물을 추천한 분들의 목록입니다.
    [1] 2017/05/14 00:08:54  162.158.***.107  등껍질  167702
    [2] 2017/05/14 00:22:33  124.5.***.143  쇼타와팬티4  171930
    [3] 2017/05/14 00:22:52  218.146.***.4  Limeade  545908
    [4] 2017/05/14 00:44:19  121.167.***.242  남극곰  731263
    [5] 2017/05/14 00:54:44  61.109.***.140  S.Guri  5374
    [6] 2017/05/14 01:04:03  210.178.***.231  김윤슬  745923
    [7] 2017/05/14 01:14:04  180.224.***.181  루비슈  559693
    [8] 2017/05/14 01:25:46  221.162.***.216  John_Nase  749484
    [9] 2017/05/14 02:38:31  119.67.***.160  アンノウン  480599
    [10] 2017/05/14 02:49:13  1.11.***.14  Young.K  25347
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    68815
    스타쉽 4차 테스트 기적적으로 성공!!! (추가) [3] Young.K 24/06/06 23:06 572 7
    68814
    스타쉽 4차 발사 오늘 21시 50분 예정. (1250 GMT+9) [1] Young.K 24/06/06 14:45 376 2
    68813
    스타라이너 발사가 '또' 취소되었습니다. (수정) [3] Young.K 24/06/02 01:50 655 1
    68812
    핑크 다이아몬드 탄생비화설 산위의소 24/06/01 06:17 616 0
    68811
    피타고라스 정리, 고3이 증명했다 [1] 펌글 우가가 24/05/28 21:09 867 4
    68810
    [속보] 스타쉽 4차 비행 테스트가 6월 5일→6일로 예정되었습니다. [3] Young.K 24/05/23 11:59 778 3
    68809
    블랙홀과 열역학 [8] 달음 24/05/15 15:48 1082 0
    68808
    인공태양 KSTAR! 운전은 누가 할까?[KSTAR 제어실의 모든 것] 옆집미남 24/05/10 14:47 874 2
    68807
    PH 측정기 있으신분.. 남의 수돗물 측정좀. [6] 삼월이집 24/05/08 22:28 1004 1
    68806
    [펌] 자기부상이 어려워? 난 드릴로 띄운다. [6] Young.K 24/05/01 01:41 1559 11
    68805
    확실히 나사는 범접할 수 없는것 같습니다. [1] ㅗㅠㅑ 24/04/30 09:22 1215 3
    68804
    [펌] 쨔잔~ 고양이를 이중슬릿에 던져 보겠습니다~ [1] Young.K 24/04/29 01:00 1364 4
    68803
    삼체문제가 이해가 안되서 질문드려요 [8] 본인삭제금지 Oh_My!_Girl 24/04/24 12:42 1485 1
    68802
    “빅뱅이론 시효 끝나“... ‘우리가 알고 있던 우주‘가 흔들린다 [12] 펌글 89.1㎒ 24/04/22 18:54 1704 5
    68801
    이중슬릿 실험 반박 [5] visualwhit 24/04/21 13:56 1498 0
    68800
    관상, 사주팔자, 손금 다 과학이라고 생각하는데.. [4] 철철대마왕 24/04/19 17:34 1353 1
    68799
    인간의 유전자는 퇴화되고 있다는 논문 [10] visualwhit 24/04/19 16:14 1579 1
    68798
    요즘들어 부쩍 과학에 대한 관심이 높아진듯 [3] 창작글 wanimemine 24/04/12 15:52 1270 2
    68797
    국사선생이라서 괜찮아 [2] ㅗㅠㅑ 24/04/12 13:16 1308 1
    68796
    수학선생이라서 괜찮아 [1] ㅗㅠㅑ 24/04/12 13:13 1284 2
    68795
    중력파를 측정한 방법이 저의 머리론 이해가 잘 안돼요 [7] 열정사랑니 24/04/05 01:26 1554 1
    68794
    1m × 1m × 1m 부피의 증류수의 무게는? [11] ㅗㅠㅑ 24/04/01 10:53 1592 2
    68793
    gpt4와 클로드3의 대화입니다 (충격주의) [1] 창작글 일단짤라 24/03/11 20:45 1892 3
    68792
    주말에 비올 확률 15% 에 관한 수학 숙제 [1] Rekiel 24/03/07 07:40 1794 3
    68791
    [펌] AI 행렬연산? 그까이꺼 적당히 반올림 하고 계산하면 되잖아? [2] 펌글 Young.K 24/03/06 21:32 1620 3
    68790
    전기에 대한 오해: 실제 전기가 작동하는 방식 [2] 펌글 우가가 24/02/29 18:43 1927 3
    68789
    할로겐화합물 및 불활성기체의 화학식 [4] 뉴체어맨66 24/02/13 14:05 1852 0
    68788
    소방수리학 수두손실 해석필요 합니다. [2] 뉴체어맨66 24/02/01 07:14 1958 0
    68787
    [가설] 중력이 발생하는 이유. [7] Young.K 24/01/29 13:34 2387 2
    68786
    우주로 증발한 물은 어디로 갔을까요? [18] Young.K 24/01/19 00:15 2952 10
    [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [다음10개▶]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈