PythonでWebスクレイピング:urllibとBeautifulSoupでページ情報を取得する
Python3でwebスクレイピングする方法を解説します。BeautifulSoupというモジュールをあらかじめインストールしてください。
pip3 install beautifulsoup4
まとめ
- urllib.requestのurlopenでサイトにアクセスする
- BeautifulSoupでHTMLを解析する
- タイトルなどの文字列を取得する
入力
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = '/'
html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
print(title)
出力
Irohabook|中学生、高校生、大学生のための学習サイト
このサイトのトップページにアクセスし、タイトルを取得しています。
注意
Python2系はurllib.requestでなくurllib2を使います。