今回はxpathの使い方を紹介します。
XPathとは
XML形式の文書から、特定の部分を指定して抽出するための簡潔な構文(言語)です。
xpathhelperのインストール
Chromeを立ち上げてウェブストアに拡張機能を追加します
※XPath HelperをChromeに追加する
XPathの構文
XPathは様々な構文が存在します。まずは、基本的な事柄を、さらに代表的な構文をまとめました。
要素選択
XPathが扱う文書は、以下の種類に分類されます。これらのノードをXPathで取得することができます。
nodename | ノードを選択 | html |
/ | ルートノード または 要素の区切り | /html/body/div |
// | ドキュメント内のすべての要素 | /html//title |
. | 要素 | /html/body/div/. |
.. | 親要素 | /html/body/div/.. |
@ | 属性を取得 | /html/body/div/@id |
text() | テキスト内容取得 | /html/body/div/text() |
特定要素取得
//title/@lang | 指定タグの属性値取得 |
//title[@lang=”ja”] | 属性の値によりタグ取得 |
/html/body/div[3] /html/body/div[last()] /html/body/div[last()-1] /html/body/div[position()>2] |
インデクスでタグ取得 |
//div[span[2]>9] | divに二つ目のspanの内容は9以上の数字のタグ ※子要素の値によりタグ取得 |
//div[contains(@id,”qqq”)] //span[contains(text(),”next page”] |
属性の値に指定した値が含む |
//*[contains(text(),”next page”] | *は任意のタグ |
//td/a|//h2/a | | はorの意味 |