ヒストリア284143 views
高校生物549842 views
小学社会308636 views
いろは2986023 views
数学講師2852771 views
高校倫理1433119 views
中学英語808712 views
小学算数1194618 views
高校物理158224 views
雑学1472593 views
Help
Tools

English

PythonでWebスクレイピング:urllibとBeautifulSoupでページ情報を取得する

Python3でwebスクレイピングする方法を解説します。BeautifulSoupというモジュールをあらかじめインストールしてください。

pip3 install beautifulsoup4

まとめ

  • urllib.requestのurlopenでサイトにアクセスする
  • BeautifulSoupでHTMLを解析する
  • タイトルなどの文字列を取得する

入力

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = ‘/’
html = urlopen(url)
soup = BeautifulSoup(html, ‘html.parser’)
title = soup.title.string
print(title)

出力

Irohabook|中学生、高校生、大学生のための学習サイト

このサイトのトップページにアクセスし、タイトルを取得しています。

注意

Python2系はurllib.requestでなくurllib2を使います。