2.3 网页分析方法2：XPath语法_Scrapy网络爬虫实战-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

2.3 网页分析方法2：XPath语法

XPath为XML路径语言（XML Path Language），是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构提供在数据结构树中找寻节点的能力。虽然XPath被设计用来查找定位XML文档，不过在HTML文档中也能很好地工作，而且主流浏览器大多支持通过此功能来查找节点元素。因此，在爬虫开发中，必备技能便是通过XPath提取网页信息。

XPath以节点来解析文档，然后通过路径表达式定位元素，再经过XPath轴和运算符的进一步筛选，达到提取规定数据的目的。

2.3.1 XPath节点

在XPath中，有7种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML文档是被作为节点树来看待的。树的根被称为文档节点或者根节点。

有如下XML文档：

上面的XML文档中包括的节点如下：

　<school>文档节点
　<name>元素节点
　lang="en"属性节点

节点组合在一起便会产生相对应的节点关系，包括父（Parent）、子（Childen）、同胞（Sibling）、先辈（Ancestor）、后代（Descendant）。

　student是name、age、gender的父，school是student的父。
　name、age、gender是student的子，student是school的子。
　name、age、gender都是同胞。
　school、student是name、age、gender的先辈，因此，先辈是节点的父、父的父等。
　school的后代是name、age、gender、student，也就是节点的子、子的子等。

2.3.2 XPath语法

XPath使用路径表达式来选取XML文档中的节点或节点集。节点是通过沿着路径（Path）或者步（Steps）来选取的。通过下面的演示文档来看看如何选取节点：

常用的节点选取路径表达式如表2-1所示。

表2-1 XPath路径表达式

通过使用上面的路径表达式，我们对示例文档中的内容进行选取，如表2-2所示。

表2-2 节点选取示例

表2-2中的表达式选取的都是某一类指定的节点，如果要选取指定的某一个节点，就需要用谓语，也就是特殊的限定条件，使用方法如表2-3所示。

表2-3 选取指定节点

在XPath中，使用通配符“*”来匹配未知元素。表2-4列出了一些通配元素路径表达式以及匹配结果。

表2-4 “*”通配符

如果匹配多个路径，则可以使用“|”运算符，使用方式及匹配结果如表2-5所示。

表2-5 “|”运算符

2.3.3 XPath轴

轴（Axis）可定义相对于当前节点的节点集。XPath使用位置路径匹配节点位置，而位置路径类型包括绝对路径与相对路径。绝对路径起始于“/”，相对路径没有限制。在两种情况中，位置路径均包括一个或多个步，每个步均被斜杠分割：绝对路径/step/step/...，相对路径step/step/...。每个步均根据当前节点集中的节点进行计算，轴的存在可使节点提取变得更加灵活准确。

XPath轴中的节点集如表2-6所示。

表2-6 XPath轴节点

步包括：

　轴（Axis），定义所选节点与当前节点之间的树关系。
　节点测试（Node-Test），识别某个轴内部的节点。
　零个或者更多谓语（Predicate），更深入地提炼所选的节点集。

步的语法为：轴名称::节点测试[谓语]。

使用的测试文档如下，通过此文档进行轴的示例分析：

通过演示文档操作示例如表2-7所示。

表2-7 步的使用示例

2.3.4 XPath运算符

XPath表达式可返回节点集、字符串、逻辑值以及数字。表2-8列出了可用在XPath表达式中使用的运算符。

表2-8 XPath运算符