网站首页 > 技术文章 正文
目录
- 使用XPath解析库
@(这里写自定义目录标题)
使用XPath解析库
1.简介
??XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。
??优点:提供了非常简洁明了的路径选择表达式。还提供了超过100个内建函数,可以匹配大部分的节点。
??官网
??准备工作:需要安装lxml库。
2.常用规则
表达式功能nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取直接子孙节点.选取当前节点..选取当前节点的父节点@选取属性
3.etree模块解析网页简介
??etree是lxml库中的函数,可以自动修正HTML文本。下面是两种导入方法:
??直接读取网页代码进行解析:
from lxml import etree text = ''' HTML文本 ''' # 将HTML文本转化为可以用etree解析的对象, html = etree.HTML(text) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码
??读取文本文件进行解析(这里既会自动修正文件,又会补充DOCTYPE声明):
from lxml import etree html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码
??用tostring()方法即可输出修正后的HTML代码。
4.选取所有节点,子节点和父节点
(1)选取所有节点
??一般用//开头的XPath规则,就会选择从当前节点开始的所有子孙节点,也就是所有节点。所以要匹配所有的节点代码如下:
a = html.xpath('//*') # 选取所有的节点 b = html.xpath('//a') # 选取所有的a节点,是一个例子
??这里的a和b,也就是xpath方法的返回值是一个列表,每个元素是Element类型,后面跟着节点的名称,是一个可迭代对象。要取出某一个对象,就需要用处理列表的方法进行。
(2)选取子节点
??选取子节点只需要在后面加上/节点名称(选择直接子节点,也就是与其相邻的第一个子节点),如果直接子节点没有就会报错,或者//节点名称(选择所有子孙节点),例子如下:
c = html.xpath('//li/a') # 选取li节点的直接a子节点 d = html.xpath('//li//a') # 选取li节点的所有a子节点
(3)选取父节点
??获取某个节点的父节点有两个方法,一个是用..,另一个是用parent::。
同理,如果没有父节点,就会报错,例子如下:
e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点 f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点 g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的所有a节点
5.属性匹配,文本获取和属性多值匹配
(1)属性匹配
??在选取节点的时候,可以用@符号进行属性过滤,用[@属性名="属性值"]进行实现,例子如下:
s = html.xpath('//li[@class="ming"]') # 选取属性值class="ming"的所有li节点
??要注意的是里面的括号和外面的括号尽量一个用双引号,一个用单引号。
(2)文本获取
??我们用Xpath中的text()方法即可获取节点中的文本。要注意的是获取到的数据可能包括换行符'\n'。
(3)属性多值匹配
??要是属性有多个值的话,用上面的方法就无法匹配了。需要用到contains()函数,包含两个参数,即@属性名和属性值,例子如下:
# 源代码中为<li class="ming1 ming2"> s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的所有li节点 s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的所有li节点
6.属性获取和多属性匹配
(1)属性获取
??属性获取直接用@获取即可,例子如下:
s = html.xpath('//li/a/@href]') # 获取所有li节点下的直接a子节点的href属性
(2)多属性匹配
??有时候需要根据多个属性值确定一个节点,就需要同时匹配多个属性。要用and进行连接,可以把contains(@属性名,"属性名")和@属性名="属性值"混合使用,例子如下:
# 选取所有属性值class="a"和_target="ming"的li节点下的所有a节点的href属性 two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"]//a/@href')
7.按次序选择
??有时候选择到的某些属性可能同时匹配了多个节点,但是要想得到其中的某一个节点,该如何获取呢?可以用中括号传入索引的方法获取特定次序的节点。下面是一些常用方法的总结:
方法功能[n]选取第n个节点,序号是以1开头的[last()]选取最后一个节点[position() < n]选取位置小于n的节点,这里可以用算术运算符进行选择[last() - n]选取倒数第n+1个节点,由于last()是倒数第一个,则last() - n就是倒数第n+1个
8.节点轴选择
??由于网页代码是一个DOM树,因此可以用相对的位置进行选择节点的子节点,兄弟节点,父节点或者祖先节点等。python的节点轴选择常用的如下:
节点轴选择节点ancestor:: *获取所有祖先节点ancestor::条件获取指定条件的祖先节点attribute:: *获取节点的所有属性attribute::属性名获取节点的指定属性child:: *获取所有子节点child::条件获取指定条件的子节点descendent:: *获取所有的子孙节点descendent::条件获取指定条件的子孙节点following:: *获取当前节点之后的所有节点following:: *[n]获取当前节点之后的第n个节点following-sibing:: *获取当前节点之后的所有同级节点following-sibing::条件获取当前节点之后指定条件的所有同级节点
9.开发者工具查看xpath选择器路径
??用F12打开开发者工具,按才Copy->Copy Xpath就可以把该段代码的XPath路径代码复制下来,很方便。
最后,小编想说:我是一名python开发工程师,整理了一套最新的python系统学习教程,想要这些资料的可以关注私信小编“01”即可,希望能对你有所帮助。
猜你喜欢
- 2024-11-14 Playwright自动化测试工具之元素定位实战
- 2024-11-14 利器 | AppCrawler 自动遍历测试实践(二):定制化配置
- 2024-11-14 java组件HuTool相关工具类的使用二
- 2024-11-14 手把手教你爬取热门小说《诡秘之主》
- 2024-11-14 Python爬虫之xpath用法全解析(py xpath)
- 2024-11-14 怎么用xpath写drissionpage?或者用相对位置?
- 2024-11-14 通过python+Xpath实现抓取某网站推荐的歌曲
- 2024-11-14 Python自动化工具(python写自动化工具)
- 2024-11-14 web自动化测试——xpath常用案例(web自动化测试平台)
- 2024-11-14 手把手教你如何用Python爬取网站文本信息
- 最近发表
- 标签列表
-
- cmd/c (57)
- c++中::是什么意思 (57)
- sqlset (59)
- ps可以打开pdf格式吗 (58)
- phprequire_once (61)
- localstorage.removeitem (74)
- routermode (59)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- log.warn (60)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- resttemplateokhttp (59)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- reader.onload (61)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- java是值传递还是引用传递 (58)
- 无效的列索引 (74)