数学講師2870735 views

Computer366668 views

高校物理159066 views

高校化学2918281 views

LaTeX959559 views

いろは2999766 views

中学数学622547 views

MathPython494571 views

高校日本史190183 views

小学理科718485 views

PythonでWebスクレイピング：urllibとBeautifulSoupでページ情報を取得する

Python3でwebスクレイピングする方法を解説します。BeautifulSoupというモジュールをあらかじめインストールしてください。

pip3 install beautifulsoup4

まとめ

urllib.requestのurlopenでサイトにアクセスする
BeautifulSoupでHTMLを解析する
タイトルなどの文字列を取得する

入力

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = ‘/’
html = urlopen(url)
soup = BeautifulSoup(html, ‘html.parser’)
title = soup.title.string
print(title)

出力

Irohabook｜中学生、高校生、大学生のための学習サイト

このサイトのトップページにアクセスし、タイトルを取得しています。

注意

Python2系はurllib.requestでなくurllib2を使います。