안녕하세요. <div><br></div> <div>프로그래밍에 ㅍ자도 모르는 제가 관련데이터를 수집하고자</div> <div><br></div> <div>파이썬을 공부하고 이리저리 짜집기해서 크롤링에 입문을 하려......고 발버둥 치는 학생입니다.</div> <div><br></div> <div>제가 원하는 데이타는 해당 keyword에 맞는 youtube 동영상 정보를 크롤링 하는 것입니다.(날짜와 조회수 정도입니다.)</div> <div><br></div> <div>그런데 2가지 문제점이 생겨 이러지도.. 못해.. 저리지도.. 못해... 무지한 저를 탓할뿐입니다...</div> <div><br></div> <div>우선 제가 구글링하고 독학으로 진도를 나간 코드부터 올릴게요..</div> <div><br></div> <div><br></div> <div><br></div> <div><div>from bs4 import BeautifulSoup</div> <div>import lxml</div> <div>import requests</div> <div><br></div> <div>eminem_video_info = {</div> <div> 'title':'',</div> <div> 'video_link':'',</div> <div> 'img_link':'',</div> <div> 'play_time':'',</div> <div> 'hits' : '',</div> <div> 'updated_time':''</div> <div>}</div> <div><br></div> <div>def get_eminem_video_link(target_url):</div> <div> response = requests.get(target_url)</div> <div> soup = BeautifulSoup(response.text, "lxml")</div> <div> lis = soup.find_all('li', {'class' : 'channels-content-item yt-shelf-grid-item'})</div> <div> for li in lis :</div> <div> </div> <div> title = li.find('a', {'title' : True})['title']</div> <div> video_link = '<a target="_blank" href="https://www.youtube.com">https://www.youtube.com</a>' + li.find('a', {'href' : True})['href']</div> <div> img_link = li.find('img', {'src' : True})['src']</div> <div> </div> <div> play_time = li.find('span', {'class' : 'video-time'}).text</div> <div> </div> <div><br></div> <div> hits = li.find_all('li')[2].text</div> <div> updated_time = li.find_all('li')[3].text</div> <div> eminem_video_info = {</div> <div> 'title' : title,</div> <div> 'video_link' : video_link,</div> <div> 'img_link' : img_link,</div> <div> 'play_time' : play_time,</div> <div> 'hits' : hits,</div> <div> 'updated_time' : updated_time</div> <div> }</div> <div> print(eminem_video_info)</div> <div> return eminem_video_info</div> <div><br></div> <div>target_url = '<a target="_blank" href="https://www.youtube.com/user/Autodesk/videos">https://www.youtube.com/user/Autodesk/videos</a>'</div> <div>get_eminem_video_link(target_url)</div></div> <div><br></div> <div><br></div> <div><br></div> <div><br></div> <div><br></div> <div><br></div> <div>---------------------------</div> <div><br></div> <div>제가 짠 코드는 1도 없지만 그나마 이해하고 긁어와 실행까지 한 코드입니다...ㅜㅜ</div> <div><br></div> <div>위 코드는 채널에 들어가서 그 채널에 있는 동영상 data를 수집합니다.</div> <div><br></div> <div>제 문제점은 </div> <div><br></div> <div>1. youtube 특성상 동영상이 페이지를 넘겨서 재생성을 하지 않고 끝영상까지 내리면(Reload?) 하위 동영상이 나타난다는 점입니다.</div> <div><br></div> <div>그래서 Target URL을 입력하면 해당 URL 마지막 동영상 까지 Reload(?) 되기 전까지만 data를 수집하고 멈춘다는 것입니다.</div> <div><br></div> <div>2. youtuvbe 검색엔진에서 검색하는 동영상 data를 따오기위한.. 코드를 만드는 것이 너무 어렵습니다.... 코딩은.. 정말.. 딴 세상 얘기더라고요..ㅜ</div> <div><br></div> <div>프로그래밍에 1도 모르는 제가 구글링과 유튜브 고수님들 영상을 보고 파이썬 설치만 반나절을 날린... 코드를 긁어와서.. 실행까지 2일이 걸린..</div> <div><br></div> <div>물어볼 사람이 없어 조언을 구하고자 글을 올립니다...ㅜ</div> <div><br></div> <div>사실 크롤링을 꼭 이용해야하는 것은 아니지만 해당 keyword에 대한 관심도(?)의 변화 추이를 그래프화 시키고 싶어 찾아본 방법중 가장 좋은거 같아</div> <div><br></div> <div>열심히... 노력... 중.. 입니다..ㅎ</div> <div><br></div> <div>구글 트렌드도 건드려봤지만.. 원하는 데이타가 나오지 않았습니다...ㅜ</div> <div><br></div> <div>감사합니다.</div> <div><br></div> <div>무더운 여름 물 많이 드시고 건강유의하세요..</div> <div><br></div> <div>P.S - 사례 꼭 하겠습니다!! 고수님들 조언 부탁드립니다.</div> <div><br></div> <div><br></div>
댓글 분란 또는 분쟁 때문에 전체 댓글이 블라인드 처리되었습니다.