Python newspaper library 실습 / 웹사이트에서 뉴스(제목,요약,사진 등) 간단하게 가져오기 / google colaboratory

2020. 7. 3. 10:01

python 을 처음 접할 때 설치, 등 여러 가지 문제를 줄이면서 간편하게 빨리 python을 실행해볼 수 있는 것이 google colaboratory입니다.(사용법 : https://ndb796.tistory.com/312 )(제약은 있지만 GPU, TPU 실습도 가능...)

대부분 웹에서 정보를 가져오려고 할 때 beatifulsoup를 이용해서 각 사이트에 맞게 잘라서 가져오는 방법을 주로 사용합니다.

뉴스 형식의 데이터를 가져오는 python newspaper라는 library를 이용하면 어떻게 작업을 쉽게 할 수 있는지 살펴보고자 합니다.

일단 사용법을 살펴보고 블로그 등 일반 사이트에도 적용해서 실습해 보겠습니다.

참고사이트

- https://holwech.github.io/blog/Automatic-news-scraper/

- https://github.com/codelucas/newspaper

실습 내용

- https://colab.research.google.com/drive/13vdr-le3jzjGWpKMbBRkijJ8mfthdU_J?usp=sharing

정리

- newspaper library를 이용해서 간단하게 웹페이지 내용을 가져올 수 있습니다.

- 사용법

from newspaper import Article

url = 'https://news.chosun.com/site/data/html_dir/2020/07/02/2020070204391.html'
article = Article(url)
article.download()
article.parse()
article.nlp()

# 제목
article.title

# 저자
article.authors

# 날짜
article.publish_date

# 내용
article.text

# 주요 이미지
article.top_image

# 동영상
article.movies

# 키워드
article.keywords

# 요약
article.summary

- 네이버 블로그는 잘 안되고, tistory는 잘 작동합니다.

저작자표시 (새창열림)

'프로그래밍' 카테고리의 다른 글

[make app] #앱인벤터 드래그로 순서 변경 목록, aia 프로그램 소스 제공 (0)	2020.07.06
[make app] #앱인벤터 화면을 벗어나는 큰 이미지 스크롤, aia 프로그램 소스 제공 (0)	2020.07.03
[make app] #앱인벤터 이미지 단어 연결 유아용게임, aia 프로그램 소스 제공 (1)	2020.06.26
[make app] #앱인벤터 #퍼즐게임 기억력 향상, aia 프로그램 소스 제공 (0)	2020.06.24
[make app] #앱인벤터 #Firebase 이미지 file 가져오기 및 휴대폰 file 저장, aia 프로그램 소스 제공 (1)	2020.06.24

sfex tistory blog

Python newspaper library 실습 / 웹사이트에서 뉴스(제목,요약,사진 등) 간단하게 가져오기 / google colaboratory

'프로그래밍' 카테고리의 다른 글

+ Recent posts

티스토리툴바