<div>참여하고 있는 프로젝트에서 넣으려는 기능이 있는데, 비슷한 사례들을 찾아봐도 다루는 데이터가 달라서 그런지 시스템 구성도가 잘 안그려지네요.</div> <div> </div> <div>한마디로 말하면 '온톨로지 기반 텍스트 다중 카테고리 분류' 라고 보면 되는데, </div> <div>SNS에서 한 개의 글에 여러가지 해쉬태그가 붙는 형태와 유사합니다.</div> <div> </div> <div>예를들면 [지하철] 아래 [1호선], [2호선] 이라는 카테고리에 각 역 이름들이 있다고 가정합니다.</div> <div style="text-align:left;"> <div style="text-align:left;"><img class="chimg_photo" style="border:;width:466px;height:301px;" alt="1.png" src="http://thimg.todayhumor.co.kr/upfile/201708/15040211774234aa9acfd446bbbd52d07a9a7302f4__mn174601__w1333__h889__f54991__Ym201708.png" filesize="54991"></div></div> <div>(역이름은 몇개 밖에 안썼지만 대략 이런 구조)</div> <div style="text-align:left;"> </div> <div>중요점은, 카테고리 분류다 보니 선택을 한다는 것인데, </div> <div>만약 '동대문에서 출발해서 용산들렀다가 신도림에서 환승해서 강남으로 갑니다' 라는 글이 있을 때 </div> <div>[1호선], [2호선]에 포함된 키워드 수를 세보면 각각 3, 2가 되기 때문에 이 글은 [1호선] 카테고리에 분류됩니다.</div> <div><br> </div> <div>선택에 대한 명확한 예제를 들다보니 이렇게 됐는데, 사실 그림에서 노란색인 최하 카테고리의 경우 태그에 직접 쓰이진 않고 판단 기준으로만 쓰인다고 보면 됩니다.</div> <div>이에 대한 예제는 아래와 같겠네요. 글에 '성취', '승리'. '목표를 이루다' 등의 텍스트가 들어가면 [성공]으로 분류됩니다.</div> <div>따라서 대부분은 더이상 형태소분석을 할 필요 없는 품사 집합으로 이루어지고, 가끔 '목표를 이루다' 같은 2~3개 정도의 목적어+보어 조합은 있을 수 있겠습니다.</div> <div style="text-align:left;"> <div style="text-align:left;"><img class="chimg_photo" style="border:;width:394px;height:202px;" alt="2.png" src="http://thimg.todayhumor.co.kr/upfile/201708/1504023089c836ce7eee6a434cbd54becedde9680c__mn174601__w846__h425__f28509__Ym201708.png" filesize="28509"></div> <div style="text-align:left;"> </div> <div style="text-align:left;"> </div> <div style="text-align:left;">종합하면 '동대문에서 출발해서 용산들렀다가 신도림에서 환승해서 강남으로 간다는 목표를 이루었습니다' 라는 글은</div> <div style="text-align:left;">[1호선][성공] 이라는 두가지 카테고리가 붙는거죠.</div> <div style="text-align:left;"> </div> <div style="text-align:left;">그래서 최종적으로, 각 카테고리를 선택하면 연결된 글들을 볼 수 있게되는.. 해쉬태그 검색과 동일합니다.</div> <div style="text-align:left;">단 [지하철]을 택했을 경우엔 [1호선], [2호선]이 모두 나오는 거죠. (사실상 실제 글에 붙는 카테고리는 최하위-1번째 항목들뿐이고, 그 위는 검색용)</div> <div style="text-align:left;"> </div> <div style="text-align:left;">다루는 데이터가 많지 않다보니 위와 같은 형식의 카테고리의 경우 인위적으로 입력을 해둘 것이고, 이 후 추가는 빅데이터 기술을 적용하는 등의 고민은 해봐야 할 것 같습니다. 판단하는 방법같은 경우도 개수가 너무 간단하다면 머신러닝쪽으로 갈 수도 있구요.</div> <div style="text-align:left;"> </div> <div style="text-align:left;">자연어 처리 관련 비슷한 분야들을 찾아보면 K-클러스터링을 이용한 웹 분석같은게 많은데,</div> <div style="text-align:left;">글 데이터가 많은 상태로 분석한다기보단 입력된 데이터를 기반으로 새로운 글을 스스로 분류하는 시스템 구현이라서 어떻게 변형해야 할지가 감이 안잡히네요..</div></div> <div>프로그래밍 언어나 무슨 DB를 써야할지도 모르겠고, 저 카테고리 데이터(어근)들은 어떤 형식으로 저장해서 어떻게 쓸지도 그림이 잘 안그려지구요.</div> <div> </div> <div>제가 공부나 참고해야 할만한 것들을 알려주시면 정말 감사할 것 같습니다.<br></div>
전체보기 클릭!
<img src="http://thimg.todayhumor.co.kr/upfile/201211/af5bbabbd55574cdeceff7217fd7942f.gif" alt="af5bbabbd55574cdeceff7217fd7942f.gif"><img_ src="http://25.media.tumblr.com/tumblr_m9sni2sHU41revsmeo1_500.gif" alt="tumblr_m9sni2sHU41revsmeo1_500.gif"><img_ src="http://25.media.tumblr.com/tumblr_m7a22o8OUf1rboltwo1_500.gif" alt="tumblr_m7a22o8OUf1rboltwo1_500.gif"><img_ src="http://25.media.tumblr.com/tumblr_m5fzfc7kmP1rxqvqpo1_500.gif" alt="tumblr_m5fzfc7kmP1rxqvqpo1_500.gif"><img_ src="http://24.media.tumblr.com/tumblr_mcwbg4EGpv1qgh8qlo1_500.gif" alt="tumblr_mcwbg4EGpv1qgh8qlo1_500.gif"><img_ src="http://25.media.tumblr.com/tumblr_m6c1gkuxxE1r9fil7o1_500.gif" alt="tumblr_m6c1gkuxxE1r9fil7o1_500.gif"><img_ src="http://24.media.tumblr.com/tumblr_m3v6m5epS61r7r0aqo1_250.gif" alt="tumblr_m3v6m5epS61r7r0aqo1_250.gif"><img_ src="http://25.media.tumblr.com/tumblr_m3eynmW8tH1rt5q7fo1_500.gif" alt="tumblr_m3eynmW8tH1rt5q7fo1_500.gif"><img_ src="http://24.media.tumblr.com/tumblr_mbbsffTRbY1r2tkxno1_250.gif" alt="tumblr_mbbsffTRbY1r2tkxno1_250.gif"><img_ src="http://24.media.tumblr.com/tumblr_m8tbbaWDRS1r7d40uo1_250.gif" alt="tumblr_m8tbbaWDRS1r7d40uo1_250.gif"><img_ src="http://24.media.tumblr.com/tumblr_m7lsrxxdk71rngopmo1_400.gif" alt="tumblr_m7lsrxxdk71rngopmo1_400.gif"><img_ src="http://24.media.tumblr.com/tumblr_m3cpmvbeJt1qivhiio1_500.gif" alt="tumblr_m3cpmvbeJt1qivhiio1_500.gif"><img_ src="http://25.media.tumblr.com/tumblr_lz6jo7s69I1qfbwhio1_500.gif" alt="tumblr_lz6jo7s69I1qfbwhio1_500.gif"><img_ src="http://24.media.tumblr.com/tumblr_m9ym2ysn5c1rz9wxwo1_500.gif" alt="tumblr_m9ym2ysn5c1rz9wxwo1_500.gif"><img_ src="http://25.media.tumblr.com/tumblr_lxii9vhmvA1qjvec5o1_500.gif" alt="tumblr_lxii9vhmvA1qjvec5o1_500.gif"><img_ src="http://media.tumblr.com/tumblr_m5oo8gntlo1qbqkh8.gif" alt="tumblr_m5oo8gntlo1qbqkh8.gif"><img_ src="http://24.media.tumblr.com/tumblr_m2jxm6eXJ41r9aj4qo1_500.gif" alt="tumblr_m2jxm6eXJ41r9aj4qo1_500.gif"><img_ src="http://25.media.tumblr.com/tumblr_m2yqfamny61rqoia8o1_400.gif" alt="tumblr_m2yqfamny61rqoia8o1_400.gif"><img_ src="http://www.furrytalk.com/wp-content/uploads/2011/11/silly_owls.gif" alt="silly_owls.gif"><img_ src="http://fun-gallery.com/wp-content/uploads/2012/06/Cute-Owl.gif" alt="Cute-Owl.gif"><img_ src="http://www.ohmagif.com/wp-content/uploads/2012/02/cute-owl-giving-handshake.gif" alt="cute-owl-giving-handshake.gif"><img_ src="http://d2tq98mqfjyz2l.cloudfront.net/image_cache/1308006789293652.gif" alt="1308006789293652.gif"><img_ src="http://24.media.tumblr.com/tumblr_m70lh2sFGS1r4zr2vo1_500.gif" alt="tumblr_m70lh2sFGS1r4zr2vo1_500.gif"><img_ src="http://icanhascheezburger.files.wordpress.com/2012/09/funny-animal-gifs-animal-gifs-scritchy-stick-of-pleasure.gif" alt="funny-animal-gifs-animal-gifs-scritchy-s"><img_ src="http://cfile203.uf.daum.net/image/185B8C335070282C0EDA6D" alt="185B8C335070282C0EDA6D"><img_ src="http://cfile223.uf.daum.net/image/14471E33507028272053FE" alt="14471E33507028272053FE"><img_ src="http://cfile208.uf.daum.net/image/0175783F507026C32559A5" alt="0175783F507026C32559A5">
애기금눈올빼미
<img_ src="http://i014.radikal.ru/0912/08/3733ee42d65f.jpg" alt="3733ee42d65f.jpg"><img_ src="http://sphotos.xx.fbcdn.net/hphotos-snc7/425621_10150611318909092_503084091_9101683_1426386409_n.jpg" alt="425621_10150611318909092_503084091_91016"><img_ src="http://farm3.staticflickr.com/2501/4007323593_0420c0dc05_z.jpg" alt="4007323593_0420c0dc05_z.jpg"><img_ src="http://c240877.r77.cf1.rackcdn.com/cute%20owl.jpg" alt="cute%20owl.jpg"><img_ src="http://www.doopedia.co.kr/_upload/image/1203/05/120305017665447/120305017665447_thumb_800.jpg" alt="120305017665447_thumb_800.jpg"><img_ src="http://www.doopedia.co.kr/_upload/image/1203/05/120305017665444/120305017665444_thumb_800.jpg" alt="120305017665444_thumb_800.jpg"><img_ src="http://www.doopedia.co.kr/_upload/image/1203/05/120305017665455/120305017665455_thumb_800.jpg" alt="120305017665455_thumb_800.jpg"><img_ src="http://www.doopedia.co.kr/_upload/image/1203/05/120305017665451/120305017665451_thumb_800.jpg" alt="120305017665451_thumb_800.jpg"><img_ src="http://30.media.tumblr.com/tumblr_lyydylBzDs1rp0p5io1_500.jpg" alt="tumblr_lyydylBzDs1rp0p5io1_500.jpg"><img_ src="http://imagemacros.files.wordpress.com/2009/07/time4tickles.jpg?w=720" alt="time4tickles.jpg?w=720">
댓글 분란 또는 분쟁 때문에 전체 댓글이 블라인드 처리되었습니다.