[자바에요]인터넷 신문기사 내용을 가져와서 저장하는건데요 크릉

오유인페이지

개인차단 상태

칸나찡님의
개인페이지입니다

가입 : 07-07-02

방문 : 3467회

닉네임변경 이력

일반게시판
베스트게시판
베스트오브베스트
댓글목록

회원차단

회원차단해제

게시물ID : programmer_577

작성자 : 글냥이★

추천 : 0

IP : 124.197.***.248

댓글 : 6개

등록시간 : 2014/01/19 01:25:18

http://todayhumor.com/?programmer_577

모바일

[자바에요]인터넷 신문기사 내용을 가져와서 저장하는건데요 크릉

네이버나 다음이나 인터넷 기사 내용을 가져와서 저장하고 싶어요.

근데 그냥 읽어오면 소스코드 그대로 긁어오게 되어버려서요...

본문 내용만 가져오구 싶어요ㅠㅠ

인터넷 기사 페이지 소스코드를 보면

(부분만 가져왔습니당. 실제로는 http://media.daum.net/politics/newsview?newsid=20140118183306795 에요)

<div id="mArticle" role="main">
    <div id="newsWrap">
        <div class="news_wrap">
            
            <div class="section_subject">
                                <div id="newsTitle">
                    <h3 class="tit_subject" id="newsTitleShadow">박원순 서울시장 "자치단체장은 갈등 조정자"</h3>
                    <span class="tit_subtit"></span>
                    <span class="info_data">
                    <span class="data">연합뉴스</span> </span>
                </div>
            </div>
            
            <div id="newsToolBox"></div>
            
            <div class="section_content" id="contentsWrapper">
                <h4 class="screen_out" id="newsBodyShadow">(안양=연합뉴스) 이복한 기자 = 박원순 서울시장은 18일 "현장에 답이 있고 소통하면 해결점이 보인다"고 말했다.<br><br>박 시장은 이날 오후 5시 안양시청 대강당에서 열린 명사 초청 강연회에서 '소통이 답이고, 밥이고, 일자리입니다'라는 주제의 강연을 통해 이같이 밝혔다.<br><br>박 시장은 "올해는 말띠해인데 진짜 훌륭한 말은 말귀를 잘 알아듣는 말, 즉 소통"이라며 "현장에 답이 있고 대화가 소통"이라고 강조했다.<br><br><div class="image" style="width:500px;"><p class="img"><img src="http://i2.media.daumcdn.net/svc/image/U03/news/201401/18/yonhap/20140118213206813.jpg" width="500" height="369" alt=""></p><p class="txt">↑ 강연하는 박원순 서울시장    (안양=연합뉴스) 이복한 기자 = 박원순 서울시장이 18일 오후 안양시청 대강당에서 '소통'을 주제로 강연하고 있다. 2014.1.18    [email protected]</p></div><div class="image" style="width:500px;"><p class="img"><img src="http://i2.media.daumcdn.net/svc/image/U03/news/201401/18/yonhap/20140118213206866.jpg" width="500" height="393" alt=""></p><p class="txt">↑ 강연하는 박원순 서울시장    (안양=연합뉴스) 박원순 서울시장이 18일 오후 안양시청 대강당에서 '소통'을 주제로 강연하고 있다. 2014.1.18  << 안양시청 제공 >>   [email protected]</p></div>그는 은평뉴타운 문제, 동대문 거리상점(노점상) 해결 등을 예로 들며 "자치단체장은 갈등 조정자로 시민들과의 소통 속에 아이디어가 나왔다"고 소개했다.<br><br>그는 "21세기 행정은 시민들의 이야기를 잘 들어야 한다"며 "지역 발전은 멀리 있는 것이 아니라 자세히 보면 다 그 안에 답이 있다"고도 했다.<br><br>박 시장은 소통의 중요성을 강조했으나 정치 문제와 관련해서는 언급하지 않았다.<br><br>[email protected]<br><br>(끝)<br><br><dl><dd><br><br></dd><dt></dt></dl><저작권자(c)연합뉴스. 무단전재-재배포금지.><br><br></h4>
                <div class="screen_out" id="newsCopyrightShadow">저작권자(c)연합뉴스. 무단전재-재배포금지</div>
                <div id="banner250"></div>
                
                <div class="video" id="medipotArea"></div>
                
                <div id="newsBody"></div>
                
                <div id="cpRelatedNewsList"></div>
                <div id="cpRealtimeMainNewsList"></div>
                
                <div class="news_footer" id="newsFooter"></div>
                
                <div class="news_btn">
    <a class="btn_news btn_recomm" id="recommendBtn" data-rankup-object-type="MediaNews" data-rankup-object-id="20140118183306795" href="#none">
        <span class="inner_recomm">
            <span class="screen_out">추천 </span>
            <span class="txt_num"></span>
        </span>
    </a>
</div>

id="newsBodyShadow">를 기점으로 본문내용이 시작됩니다.

저걸 이용해서 처음 가져올 때 본문 내용만 가져올 수 없나...싶은데요

어케 해야 할까요?ㅠㅠ

밑에 자바코드는 지금까지 만든 코드입니당. ㅜㅜ

/*
* 이 프로그램은 인터넷 신문 기사 내용을 저장하기 위해 만들었습니당.
* Daum의 경우 신문 기사 url은 보통
* http://media.daum.net/society/?newsId=20140118211405428
* 형식으로 되어있습니다.
* 맨 뒤의 수를 1씩 증가시켜가면서 각 인터넷 기사의 소스코드에 있는 "본문" 부분을 가져올거에요.
*/

import java.io.*;
import java.net.*;

public class Boogi {
    public static void main(String[] args) {
        // urlName = urlNameDir + urlNameNum; 이런 식으로...
        String urlNameDir = "http://media.daum.net/society/?newsId=";
        long urlNameNum = 20140118211405428L;
        String urlName = null;

        // outFileName = dirName + fileName + count + fileFormat; 이런 식으로...
        // result1.txt, result2.txt, ... 이런 형식으로 저장할거에요.
        String dirName = "c:/users/woongjin/desktop/data/";
        String fileName = "result";
        int count = 0;
        String fileFormat = ".txt";
        String outFileName = null;


        URL url; // 여기서 InputStream을 가져올거에요.
        BufferedInputStream bis;
        BufferedOutputStream bos;
        FileOutputStream fos;


        try {
            for(int i = 0; i < 10; i++) { // 신문기사 몇 개를 가져올건지 정할 수 있어요.
                // url로부터 InputStream을 가져오구요
                urlName = urlNameDir + String.valueOf(urlNameNum);
                url = new URL(urlName);
                bis = new BufferedInputStream(url.openStream());

                // 각 기사에 따라 count를 1씩 늘려가며 새로운 파일을 만들어요.
                outFileName = dirName + fileName + (++count) + fileFormat;
                fos = new FileOutputStream(outFileName);
                bos = new BufferedOutputStream(fos);

                // 읽어오고 저장합니당. '\\r'은 안하면 이상하게 나오더라구요 킁...
                int data = 0;
                while((data = bis.read()) != -1) {
                    if(data == '\\n')
                        bos.write('\\r');
                    bos.write(data);
                }

                bis.close();
                bos.close();
                urlNameNum++;
            }
        } catch(Exception e) {
            e.printStackTrace();
            System.exit(0);
        }
    }
}

글냥이의 꼬릿말입니다

이 게시물을 추천한 분들의 목록입니다.

푸르딩딩:추천수 3이상 댓글은 배경색이 바뀝니다.
(단,비공감수가 추천수의 1/3 초과시 해당없음)

죄송합니다. 댓글 작성은 회원만 가능합니다.

번호

제 목

이름

날짜

조회

추천

분류	게시판
베스트	베스트오브베스트 베스트 오늘의베스트
유머	유머자료 유머글
이야기	자유 고민 연애 결혼생활 좋은글 자랑 공포 멘붕 사이다 꿈 똥 군대 밀리터리 미스터리 술한잔 오늘있잖아요 투표인증 새해
이슈	시사 시사아카이브 사회면 사건사고
생활	패션 패션착샷 아동패션착샷 뷰티 인테리어 DIY 요리 커피&차 육아 법률 동물 책 지식 취업정보 식물 다이어트 의료 영어 맛집 추천사이트 해외직구
취미	사진 사진강좌 카메라 만화 애니메이션 포니 자전거 자동차 여행 바이크 민물낚시 바다낚시 장난감 그림판
학술	경제 역사 예술 과학 철학 심리학
방송연예	연예 음악 음악찾기 악기 음향기기 영화 다큐멘터리 국내드라마 해외드라마 예능 팟케스트
방송프로그램	무한도전 더지니어스 개그콘서트 런닝맨 나가수
디지털	컴퓨터 프로그래머 IT 안티바이러스 애플 안드로이드 스마트폰 윈도우폰 심비안
스포츠	스포츠 축구 야구 농구 바둑
야구팀	삼성 두산 NC 넥센 한화 SK 기아 롯데 LG KT 메이저리그 일본프로야구리그
게임1	플래시게임 게임토론방 엑스박스 플레이스테이션 닌텐도 모바일게임
게임2	던전앤파이터 롤 마비노기 마비노기영웅전 하스스톤 히어로즈오브더스톰 gta5 디아블로 디아블로2 피파온라인2 피파온라인3 워크래프트 월드오브워크래프트 밀리언아서 월드오브탱크 블레이드앤소울 검은사막 스타크래프트 스타크래프트2 베틀필드3 마인크래프트 데이즈 문명 서든어택 테라 아이온 심시티5 프리스타일풋볼 스페셜포스 사이퍼즈 도타2 메이플스토리1 메이플스토리2 오버워치 오버워치그룹모집 포켓몬고 파이널판타지14 배틀그라운드
기타	종교 단어장 자료창고
운영	공지사항 오유운영 게시판신청 보류
임시게시판	메르스 세월호 원전사고 2016리오올림픽 2018평창올림픽 코로나19 2020도쿄올림픽