모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 오유인페이지
    개인차단 상태
    이런시부엉님의
    개인페이지입니다
    가입 : 11-11-12
    방문 : 296회
    닉네임변경 이력
    회원차단
    회원차단해제
    게시물ID : programmer_21284
    작성자 : 이런시부엉
    추천 : 0
    조회수 : 600
    IP : 101.250.***.133
    댓글 : 4개
    등록시간 : 2017/08/30 01:51:05
    http://todayhumor.com/?programmer_21284 모바일
    텍스트마이닝 분야 잘아시는분 계실까요?
    옵션
    • 본인삭제금지
    참여하고 있는 프로젝트에서 넣으려는 기능이 있는데, 비슷한 사례들을 찾아봐도 다루는 데이터가 달라서 그런지 시스템 구성도가 잘 안그려지네요.
     
    한마디로 말하면 '온톨로지 기반 텍스트 다중 카테고리 분류' 라고 보면 되는데,
    SNS에서 한 개의 글에 여러가지 해쉬태그가 붙는 형태와 유사합니다.
     
    예를들면 [지하철] 아래 [1호선], [2호선] 이라는 카테고리에 각 역 이름들이 있다고 가정합니다.
    1.png
    (역이름은 몇개 밖에 안썼지만 대략 이런 구조)
     
    중요점은, 카테고리 분류다 보니 선택을 한다는 것인데,
    만약 '동대문에서 출발해서 용산들렀다가 신도림에서 환승해서 강남으로 갑니다' 라는 글이 있을 때 
    [1호선], [2호선]에 포함된 키워드 수를 세보면 각각 3, 2가 되기 때문에 이 글은 [1호선] 카테고리에 분류됩니다.

     
    선택에 대한 명확한 예제를 들다보니 이렇게 됐는데, 사실 그림에서 노란색인 최하 카테고리의 경우 태그에 직접 쓰이진 않고 판단 기준으로만 쓰인다고 보면 됩니다.
    이에 대한 예제는 아래와 같겠네요. 글에 '성취', '승리'. '목표를 이루다' 등의 텍스트가 들어가면 [성공]으로 분류됩니다.
    따라서 대부분은 더이상 형태소분석을 할 필요 없는 품사 집합으로 이루어지고, 가끔 '목표를 이루다' 같은 2~3개 정도의 목적어+보어 조합은 있을 수 있겠습니다.
    2.png
     
     
    종합하면 '동대문에서 출발해서 용산들렀다가 신도림에서 환승해서 강남으로 간다는 목표를 이루었습니다' 라는 글은
    [1호선][성공] 이라는 두가지 카테고리가 붙는거죠.
     
    그래서 최종적으로, 각 카테고리를 선택하면 연결된 글들을 볼 수 있게되는.. 해쉬태그 검색과 동일합니다.
    단 [지하철]을 택했을 경우엔 [1호선], [2호선]이 모두 나오는 거죠. (사실상 실제 글에 붙는 카테고리는 최하위-1번째 항목들뿐이고, 그 위는 검색용)
     
    다루는 데이터가 많지 않다보니 위와 같은 형식의 카테고리의 경우 인위적으로 입력을 해둘 것이고, 이 후 추가는 빅데이터 기술을 적용하는 등의 고민은 해봐야 할 것 같습니다. 판단하는 방법같은 경우도 개수가 너무 간단하다면 머신러닝쪽으로 갈 수도 있구요.
     
    자연어 처리 관련 비슷한 분야들을 찾아보면 K-클러스터링을 이용한 웹 분석같은게 많은데,
    글 데이터가 많은 상태로 분석한다기보단 입력된 데이터를 기반으로 새로운 글을 스스로 분류하는 시스템 구현이라서 어떻게 변형해야 할지가 감이 안잡히네요..
    프로그래밍 언어나 무슨 DB를 써야할지도 모르겠고, 저 카테고리 데이터(어근)들은 어떤 형식으로 저장해서 어떻게 쓸지도 그림이 잘 안그려지구요.
     
    제가 공부나 참고해야 할만한 것들을 알려주시면 정말 감사할 것 같습니다.
    이런시부엉의 꼬릿말입니다
    전체보기 클릭!

    af5bbabbd55574cdeceff7217fd7942f.gif






    애기금눈올빼미


    이 게시물을 추천한 분들의 목록입니다.
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    208
    가까운 사람이 이성혐오 성향이 있다는건 참 괴롭네요 [3] 이런시부엉 17/09/11 01:16 182 0
    텍스트마이닝 분야 잘아시는분 계실까요? [4] 본인삭제금지 이런시부엉 17/08/30 01:51 80 0
    205
    웹호스팅으로 에디트플러스 써서 JSP 개발 질문이요.. [3] 본인삭제금지 이런시부엉 17/01/19 22:14 46 0
    204
    (본삭금)프로그래밍 노트북 선택도와주세요ㅠ [3] 이런시부엉 15/03/12 00:03 40 0
    203
    OFFS3T - 독특한 방식의 퍼즐게임 이런시부엉 14/02/15 13:29 95 2
    202
    닉언죄]서생원님 봐주세요 [3] 이런시부엉 14/02/14 02:52 341 17
    201
    [살짝유혈] Human Chop - 혼돈!파괴! 닝겐죽이기 Owlet 13/11/25 19:37 125 0
    200
    Nightflies - 등불 구하기 Owlet 13/11/14 22:48 58 1
    199
    Strand - 선긋기 [1] Owlet 13/11/14 20:51 129 3
    198
    원자 구슬치기 - Catchy Orbit [11] Owlet 13/11/13 17:37 149 1
    197
    일본 피아노곡같은데.. Owlet 13/09/08 22:56 22 0
    196
    Soom - 맵으로 종이접기하는 플랫포머 Owlet 13/08/04 01:52 45 2
    195
    SEEDS - 씨를 멀리 날려보자 Owlet 13/06/03 00:52 47 1
    194
    J자관 문제 질문좀할게요.. [3] Owlet 13/05/09 20:17 29 0
    193
    Pursued - 여기는 어디? [1] Owlet 13/04/14 20:26 54 2
    192
    You are a box - 박스의 입장이 되어보자 Owlet 13/03/09 23:20 44 0
    191
    [플래시겜] 더피를 찾아라! 1, 2 [4] Owlet 13/03/09 22:05 46 1
    190
    Star Glaive - 받은 공격을 되돌려주는 비행기슈팅 Owlet 13/03/01 15:45 101 0
    189
    Ode To Pixel Days - 한 못생긴 남자의 이야기 Owlet 13/02/28 14:55 60 0
    188
    Push - 밀어서 막힘해제 Owlet 13/02/28 13:40 105 1
    187
    Montreal Mobility - 본격 핸드폰 충전하는 게임 [4] Owlet 13/02/22 17:36 189 1
    186
    [번역, 만화] 스쿠툴루의 새로운 펫 [9] Owlet 13/02/18 20:31 128 8
    185
    [번역] 만화 3개 [6] Owlet 13/02/18 16:51 145 5
    184
    [번역] 만화 3개 [5] Owlet 13/02/10 22:52 137 5
    183
    [번역,약스압]텀블러 비슷한 인터뷰만화 - 애플잭 편 [5] Owlet 13/02/09 16:59 147 4
    182
    [번역, 만화] 트릭시 vs 디스코드 [9] Owlet 13/02/08 20:54 160 5
    181
    Orborun - 3D 공굴리기 Owlet 13/02/08 18:20 76 0
    180
    [번역] 만화2개 [3] Owlet 13/02/08 01:10 90 4
    179
    [번역] 만화 3개 [10] Owlet 13/02/07 23:44 140 15
    [1] [2] [3] [4] [5] [6] [7]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈