모바일 오유 바로가기
http://m.todayhumor.co.kr
분류 게시판
베스트
  • 베스트오브베스트
  • 베스트
  • 오늘의베스트
  • 유머
  • 유머자료
  • 유머글
  • 이야기
  • 자유
  • 고민
  • 연애
  • 결혼생활
  • 좋은글
  • 자랑
  • 공포
  • 멘붕
  • 사이다
  • 군대
  • 밀리터리
  • 미스터리
  • 술한잔
  • 오늘있잖아요
  • 투표인증
  • 새해
  • 이슈
  • 시사
  • 시사아카이브
  • 사회면
  • 사건사고
  • 생활
  • 패션
  • 패션착샷
  • 아동패션착샷
  • 뷰티
  • 인테리어
  • DIY
  • 요리
  • 커피&차
  • 육아
  • 법률
  • 동물
  • 지식
  • 취업정보
  • 식물
  • 다이어트
  • 의료
  • 영어
  • 맛집
  • 추천사이트
  • 해외직구
  • 취미
  • 사진
  • 사진강좌
  • 카메라
  • 만화
  • 애니메이션
  • 포니
  • 자전거
  • 자동차
  • 여행
  • 바이크
  • 민물낚시
  • 바다낚시
  • 장난감
  • 그림판
  • 학술
  • 경제
  • 역사
  • 예술
  • 과학
  • 철학
  • 심리학
  • 방송연예
  • 연예
  • 음악
  • 음악찾기
  • 악기
  • 음향기기
  • 영화
  • 다큐멘터리
  • 국내드라마
  • 해외드라마
  • 예능
  • 팟케스트
  • 방송프로그램
  • 무한도전
  • 더지니어스
  • 개그콘서트
  • 런닝맨
  • 나가수
  • 디지털
  • 컴퓨터
  • 프로그래머
  • IT
  • 안티바이러스
  • 애플
  • 안드로이드
  • 스마트폰
  • 윈도우폰
  • 심비안
  • 스포츠
  • 스포츠
  • 축구
  • 야구
  • 농구
  • 바둑
  • 야구팀
  • 삼성
  • 두산
  • NC
  • 넥센
  • 한화
  • SK
  • 기아
  • 롯데
  • LG
  • KT
  • 메이저리그
  • 일본프로야구리그
  • 게임1
  • 플래시게임
  • 게임토론방
  • 엑스박스
  • 플레이스테이션
  • 닌텐도
  • 모바일게임
  • 게임2
  • 던전앤파이터
  • 마비노기
  • 마비노기영웅전
  • 하스스톤
  • 히어로즈오브더스톰
  • gta5
  • 디아블로
  • 디아블로2
  • 피파온라인2
  • 피파온라인3
  • 워크래프트
  • 월드오브워크래프트
  • 밀리언아서
  • 월드오브탱크
  • 블레이드앤소울
  • 검은사막
  • 스타크래프트
  • 스타크래프트2
  • 베틀필드3
  • 마인크래프트
  • 데이즈
  • 문명
  • 서든어택
  • 테라
  • 아이온
  • 심시티5
  • 프리스타일풋볼
  • 스페셜포스
  • 사이퍼즈
  • 도타2
  • 메이플스토리1
  • 메이플스토리2
  • 오버워치
  • 오버워치그룹모집
  • 포켓몬고
  • 파이널판타지14
  • 배틀그라운드
  • 기타
  • 종교
  • 단어장
  • 자료창고
  • 운영
  • 공지사항
  • 오유운영
  • 게시판신청
  • 보류
  • 임시게시판
  • 메르스
  • 세월호
  • 원전사고
  • 2016리오올림픽
  • 2018평창올림픽
  • 코로나19
  • 2020도쿄올림픽
  • 게시판찾기
  • 오유인페이지
    개인차단 상태
    rabelais님의
    개인페이지입니다
    가입 : 16-02-26
    방문 : 50회
    닉네임변경 이력
    회원차단
    회원차단해제
    게시물ID : science_67113
    작성자 : rabelais
    추천 : 7
    조회수 : 1059
    IP : 121.143.***.87
    댓글 : 5개
    등록시간 : 2018/04/03 02:29:29
    http://todayhumor.com/?science_67113 모바일
    [인포그래픽+빅데이터]한국 힙합 빅데이터 조사 - 누가 제일 창의적일까?
    옵션
    • 창작글
    <div style="text-align:left;"><font face="맑은 고딕" size="4"><img src="http://thimg.todayhumor.co.kr/upfile/201804/1522688635d362c81d8f414e4995dc8210609d4f4b__mn709192__w1000__h7000__f516134__Ym201804.jpg" width="800" height="1200" alt="hiphop-01.jpg" class="chimg_photo" style="border:none;" filesize="516134"></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"> <hr></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">후기 : 조사 방법은 크게 아래와 같습니다.</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><img src="http://thimg.todayhumor.co.kr/upfile/201804/15226886422f0ca28ba67e49cfb9bbc8c4106ba320__mn709192__w1280__h720__f52604__Ym201804.jpg" width="800" height="450" alt="idea.jpg" class="chimg_photo" style="border:none;" filesize="52604"></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">1. 제일 먼저 네이버 뮤직에서 가사 정보를 스크레이핑(Scraping) 또는 크롤링(Crawling)합니다. 구글에서 공개한 크롬 헤드리스(headless) 브라우저 모듈을 이용합니다. 사용자 친화적인 GUI가 없는 브라우저를 헤드리스 브라우저라고 합니다.</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">여기서 얻은 가사는 각 아티스트별 폴더에 곡 단위 txt파일로 저장됩니다. 곡이 수천개나 되다 보니 작업을 자동화시키기 위해서는 스크립트가 필수입니다. 파이썬을 이용하시는 분도 있으나 저는 웹 작업시에는 항상 자바스크립트를 이용합니다. 조사하기 전에는 겁을 좀 먹었는데 </font><span style="font-family:'맑은 고딕';font-size:large;">사실 제일 재밌고 쉬운 부분이었습니다.</span><span style="font-family:'맑은 고딕';font-size:large;"> </span></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">소스코드: <a target="_blank" href="http://github.com/rabelais88/crawler_lyric" target="_blank">http://github.com/rabelais88/crawler_lyric</a></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">조금 걱정했던 부분은 랩가사가 의외로 19금 가사가 많아 프로그램을 통한 로그인에 문제가 있지 않을까 했는데 별 문제 없이 해결됐습니다. 그 외에도 네이버가 대형 사이트이다보니 페이지가 완전히 로드되는 순간을 캐치하기 어려워서 임의로 아티스트별로 약 5초 정도의 쉬는 시간을 주고 자료를 수집했습니다.</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">제가 짠 스크립트가 돌아가는 화면은 아래와 같습니다.</font></div> <div style="text-align:left;"><br></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><img src="http://thimg.todayhumor.co.kr/upfile/201804/1522688665add469399e9149e8a9ba0dd8aa16b682__mn709192__w628__h572__f85321__Ym201804.jpg" width="628" height="572" alt="exception.JPG" style="border:none;" filesize="85321"></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">가사 페이지를 열면 간혹 '가사가 등록되어있지 않습니다'라고 뜨는 경우가 있는데 그 경우는 위에 보시는 것처럼 no lyrics로 처리됩니다.</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">2.공개되어있는 형태소 분석기에 모든 가사를 넣고 곡별로 돌립니다. 아래 스크린샷은 일부 아티스트를 추가하기 전에 찍은거라 101명으로 나오는데, 실제 조사한 인원은 120명입니다. </font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><img src="http://thimg.todayhumor.co.kr/upfile/201804/15226886655bf7c62b1ca64bc38a2248a3d6abc216__mn709192__w683__h419__f51015__Ym201804.jpg" width="683" height="419" alt="neirong2.JPG" style="border:none;" filesize="51015"></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">이미 분석기 위에도 하나의 스크립트를 씌웠기 때문에, 잡다한 정보가 나오면서 폴더에 저장된 모든 아티스트들에 대한 모든 가사가 자동으로 분석됩니다. 이 중에서 일반/고유명사에 해당하는 NNP만 남기고 대명사나 조사 등 쓸데 없는 명사들은 모두 삭제됩니다. </font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">예를 들자면,</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">나는 집에 간다 -> 나: 대명사, 는: 조사, 집: 일반명사, 에: 조사...</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">여기서 조사나 대명사 같은 요소는 빅데이터 조사시 유의미한 뜻을 유추하기 어려우므로 과감하게 제거합니다. 영어 역시 띄어쓰기 단위로 나눈 다음 wordpos라고 하는 공개된 라이브러리를 이용하여 쓸모 없는 stopword를 제거합니다. 다행히 영어는 굴절이 심하지 않으므로 많이 신경쓸 것이 없습니다. 또한 분석 대상이 대부분 한국어이기도 하구요..</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><img src="http://thimg.todayhumor.co.kr/upfile/201804/152268866609963c1e96d64b26b593195d638e4ad8__mn709192__w338__h649__f30256__Ym201804.jpg" width="338" height="649" alt="trackamount.JPG" style="border:none;" filesize="30256"></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">3. 한창 스크립트를 짜고 정리하다보니 좀 이상한 결과들이 나왔습니다. 들여다보니 몇몇 아티스트가 네이버에 등록한 앨범 수가 적어 평균값이 다소 비정상적으로 출력되고 있었습니다. keith ape나 우디고차일드는 나름 힙합씬에서 알아주는 아티스트긴 하지만, 빅데이터 조사를 위한 표본이 부족하므로 역시 과감하게 삭제했습니다. 개인적으로는 좀 아쉽더라구요. 언더에서 더욱 활발하게 활동하는 래퍼들이나 네이버같은 음악 플랫폼을 적극적으로 사용하지 않는 래퍼들의 자료는 구할 길이 없었습니다. 외국처럼 힙합 가사만 모아놓은 rapgenius같은게 있었다면 훨씬 많은 가사를 볼 수 있었을텐데...<br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">4. 자료를 csv 형식(일종의 차트 형식 텍스트파일입니다)의 txt로 만들고 엑셀로 재가공합니다. 물론 이 과정에서 다른 툴을 이용해도 되지만, 나중에 어차피 인터랙티브 버전을 만들 계획이 별도로 있기 때문에 시간 단축을 위해서 엑셀을 사용합니다. 예전에 회사일을 하면서 엑셀을 익혀둔 적이 있어서 급하게 무언가를 처리할 때에는 엑셀이 더 빠릅니다. 또한 텍스트파일이 커서(전체 자료량은 대략 10~15mb입니다) 자료를 제가 만들고도 열고 가공하는것이 쉽지 않기 때문에...그냥 제일 쉬운 길로 가기로 합니다.</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><img src="http://thimg.todayhumor.co.kr/upfile/201804/15226886674638c0f31930416cb65cefcc2b5e97b6__mn709192__w769__h319__f23875__Ym201804.jpg" width="769" height="319" alt="data.JPG" style="border:none;" filesize="23875"></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">개인적으로 웹크롤링에 관심이 있어서 글을 알아보던 중 네이버 뮤직의 구조가 자료수집(크롤링)하기 굉장히 좋은 구조라는 이야기를 우연히 접하게 됐습니다. 크롬의 새 툴도 시험하고 빅데이터에도 한번 도전해 볼 겸 간단히 만들어 봤습니다.</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">한국힙합씬을 조금이라도 알고 계시는 분이면 더욱 재밌게 보실 수 있는 자료입니다. 예컨대 스웨거를 강조하는 Quiett나 Dok2가 '돈'을 자주 언급한다던가, 사실상 재미교포 수준인 미국 출신 한인 래퍼들의 영어사용률이 엄청나게 높다는 점, 또한 뛰어난 가사로 추앙받는 1,2세대 토종 국내힙합 래퍼들의 차트상 약진 같은것 말이죠. 개인적으로는 누가 제일 창의적인가가 알고싶었는데 약간은 당연하면서도 의외의 결과였습니다. 쇼미더머니에서 '스킬'로 한창 주가를 올리고 있는 래퍼들이 나오지 않을까 했는데...하지만 또 랩으로는 뒤지지 않는 래퍼들이라 그려려니 하기도 합니다. 별로 중요하지 않은 내용이라 차트에는 싣지 않았지만, '좆'과 '똥' 을 가장 많이 언급한 아티스트는 천재노창과 스윙스였습니다. -_- 여러분이 차트를 보고 느끼신 점은 무엇인가요?</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><br></font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4">오유에서 보시기 힘들면 imgur에 올려둔 미러를 참조해 주세요.</font></div> <div style="text-align:left;"><font face="맑은 고딕" size="4"><a target="_blank" href="http://imgur.com/a/JTu4X" target="_blank">https://imgur.com/a/JTu4X</a></font></div>
    출처 직접 만들었습니다. 이 외에도 다른 글이 궁금하시거나 관련 내용으로 연락하실분은 sungryeol.com 또는 [email protected]으로 연락 부탁드립니다.

    이 게시물을 추천한 분들의 목록입니다.
    [1] 2018/04/03 09:28:20  110.47.***.251  Young.K  25347
    [2] 2018/04/03 11:10:12  108.162.***.71  정겨울  423595
    [3] 2018/04/04 11:50:17  223.39.***.205  데이얀  563026
    [4] 2018/04/04 23:06:34  14.12.***.224  고수찾아  67638
    [5] 2018/04/05 09:27:12  61.85.***.246  공돌봇  171744
    [6] 2018/04/05 14:48:37  143.248.***.39  AdS/CFT  562936
    [7] 2018/04/06 07:16:26  106.161.***.14  오두기  731
    푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
    (단,비공감수가 추천수의 1/3 초과시 해당없음)

    죄송합니다. 댓글 작성은 회원만 가능합니다.

    번호 제 목 이름 날짜 조회 추천
    [인포그래픽+빅데이터]한국 힙합 빅데이터 조사 - 누가 제일 창의적일까? [5] 창작글 rabelais 18/04/03 02:29 147 7
    13
    한국 커뮤니티 인기 갤러리에서 가장 많이 사용되는 단어들 창작글 rabelais 18/03/07 04:06 185 4
    12
    한자 문화권 언어 유사성 비교 차트(한국/중국/일본/베트남) [5] 창작글 rabelais 18/02/07 16:56 128 14
    11
    [인포그래픽]대한민국 최저시급과 물가의 변화 [4] 창작글 rabelais 17/08/10 01:49 91 4
    10
    알파고의 완벽한 번역이 불가능한 이유 - 외국어의 존댓말 [42] 창작글 rabelais 17/04/29 05:59 191 13
    9
    [인포그래픽]한국의 웹사이트 카테고리별 순위 [7] 창작글 rabelais 17/04/03 04:44 168 10
    8
    외계인이 사람을 만난다면... [8] 창작글펌글 rabelais 17/02/07 02:15 70 10
    7
    [인포그래픽]영어를 세계의 언어라고 하는 이유(데이터주의) [4] 창작글 rabelais 16/10/16 18:23 126 12
    6
    이번 허리케인 매슈가 강타하기 전 미국 텔레비전에 나왔던 내용 [25] rabelais 16/10/07 23:20 73 11
    5
    [인포그래픽]목성의 대기에 우주복을 입고 점프하면 무슨 일이 일어날까? [38] 창작글 rabelais 16/08/17 20:34 76 10
    4
    [인포그래픽/용량주의]우리는 원숭이가 맞나요? [7] 창작글 rabelais 16/08/17 20:04 57 11
    3
    [언어]아이들이 외국어를 더 빨리 배우는 이유 [7] rabelais 16/03/24 23:46 76 10
    2
    알파고(딥러닝)의 인공지능은 완벽한 번역이 가능할까? [9] rabelais 16/03/15 13:26 63 2
    1
    [언어]한국어가 위대하지 않은 이유/단어 암기책 사지 마! [9] rabelais 16/02/26 15:09 98 11
    [1]
    단축키 운영진에게 바란다(삭제요청/제안) 운영게 게시판신청 자료창고 보류 개인정보취급방침 청소년보호정책 모바일홈