반응형
python 을 처음 접할 때 설치, 등 여러 가지 문제를 줄이면서 간편하게 빨리 python을 실행해볼 수 있는 것이 google colaboratory입니다.(사용법 : https://ndb796.tistory.com/312 )(제약은 있지만 GPU, TPU 실습도 가능...)
대부분 웹에서 정보를 가져오려고 할 때 beatifulsoup를 이용해서 각 사이트에 맞게 잘라서 가져오는 방법을 주로 사용합니다.
뉴스 형식의 데이터를 가져오는 python newspaper라는 library를 이용하면 어떻게 작업을 쉽게 할 수 있는지 살펴보고자 합니다.
일단 사용법을 살펴보고 블로그 등 일반 사이트에도 적용해서 실습해 보겠습니다.
참고사이트
- https://holwech.github.io/blog/Automatic-news-scraper/
- https://github.com/codelucas/newspaper
실습 내용
- https://colab.research.google.com/drive/13vdr-le3jzjGWpKMbBRkijJ8mfthdU_J?usp=sharing
정리
- newspaper library를 이용해서 간단하게 웹페이지 내용을 가져올 수 있습니다.
- 사용법
from newspaper import Article
url = 'https://news.chosun.com/site/data/html_dir/2020/07/02/2020070204391.html'
article = Article(url)
article.download()
article.parse()
article.nlp()
# 제목
article.title
# 저자
article.authors
# 날짜
article.publish_date
# 내용
article.text
# 주요 이미지
article.top_image
# 동영상
article.movies
# 키워드
article.keywords
# 요약
article.summary
- 네이버 블로그는 잘 안되고, tistory는 잘 작동합니다.
반응형
'프로그래밍' 카테고리의 다른 글
[make app] #앱인벤터 드래그로 순서 변경 목록, aia 프로그램 소스 제공 (0) | 2020.07.06 |
---|---|
[make app] #앱인벤터 화면을 벗어나는 큰 이미지 스크롤, aia 프로그램 소스 제공 (0) | 2020.07.03 |
[make app] #앱인벤터 이미지 단어 연결 유아용게임, aia 프로그램 소스 제공 (1) | 2020.06.26 |
[make app] #앱인벤터 #퍼즐게임 기억력 향상, aia 프로그램 소스 제공 (0) | 2020.06.24 |
[make app] #앱인벤터 #Firebase 이미지 file 가져오기 및 휴대폰 file 저장, aia 프로그램 소스 제공 (1) | 2020.06.24 |