今回はpythonでウエブサイトから情報取得する方法を紹介します。
lxmlインストール
sudo pip3 install lxml
または
sudo pip install lxml
または
sudo pip install lxml
python参考コード
from lxml import etree
import requests
# ヘッダー設定
headers={“user-agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36”}
# html情報取得
response = requests.get(‘url’,headers=headers)
html = etree.HTML(response.content)
# xpathを利用する
ret_list = html.xpath(“xpath”)
# 情報取得
for data in ret_list:
print(data)
import requests
# ヘッダー設定
headers={“user-agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36”}
# html情報取得
response = requests.get(‘url’,headers=headers)
html = etree.HTML(response.content)
# xpathを利用する
ret_list = html.xpath(“xpath”)
# 情報取得
for data in ret_list:
print(data)