网站首页 > 技术文章 正文
BeautifulSoup简称BS4(其中4表示版本号)是一个Python第三方库,它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解BS4的基本语法。
BS4下载安装
由于BautifulSoup是第三方库,因此需要单独下载,下载方式非常简单,执行以下命令即可安装:
pip install bs41复制代码类型:[python]
由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库:
pip install lxml1复制代码类型:[python]
Python也自带了一个文档解析库html.parser,但是其解析速度要稍慢于lxml。除了上述解析器外,还可以使用html5lib解析器,安装方式如下:
pip install html5lib1复制代码类型:[python]
该解析器生成HTML格式的文档,但速度较慢。
“解析器容错”指的是被解析的文档发生错误或不符合格式时,通过解析器的容错性仍然可以按照既定的正确格式实现解析。
BS4解析对象
创建BS4解析对象是万事开头的第一步,这非常地简单,语法格式如下所示:
#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(html_doc, 'html.parser')1234复制代码类型:[python]
BS4常用语法
下面对爬虫中经常用到的BS4解析方法做详细介绍。
BeautifulSoup将HTML文档转换成一个树形结构,该结构有利于快速地遍历和搜索HTML文档。下面使用树状结构来描述一段HTML文档:
<html><head><title>开课吧广场</title></head><h1>topic.kaikeba.com</h1><p><b>一个学习编程的网站</b></p></body></html>1复制代码类型:[python]
树状图如下所示:
文档树中的每个节点都是Python对象,这些对象大致分为四类:Tag,NavigableString,BeautifulSoup,Comment。其中使用最多的是Tag和NavigableString。
Tag:标签类,HTML文档中所有的标签都可以看做Tag对象。
NavigableString:字符串类,指的是标签中的文本内容,使用text、string、strings来获取文本内容。
BeautifulSoup:表示一个HTML文档的全部内容,您可以把它当作一个人特殊的Tag对象。
Comment:表示HTML文档中的注释内容以及特殊字符串,它是一个特殊的NavigableString。
1)Tag节点
标签(Tag)是组成HTML文档的基本元素。在BS4中,通过标签名和标签属性可以提取出想要的内容。
遍历节点
Tag对象提供了许多遍历tag节点的属性,比如contents、children用来遍历子节点;parent与parents用来遍历父节点;而next_sibling与previous_sibling则用来遍历兄弟节点。
find_all()与find()
find_all()与find()是解析HTML文档的常用方法,它们可以在HTML文档中按照一定的条件(相当于过滤器)查找所需内容。find()与find_all()的语法格式相似,希望大家在学习的时候,可以举一反三。
BS4库中定义了许多用于搜索的方法,find()与find_all()是最为关键的两个方法,其余方法的参数和使用与其类似。
1)find_all()
find_all()方法用来搜索当前tag的所有子节点,并判断这些节点是否符合过滤条件,最后以列表形式将符合条件的内容返回,语法格式如下:
find_all(name,attrs,recursive,text,limit)
参数说明:
name:查找所有名字为name的tag标签,字符串对象会被自动忽略。
attrs:按照属性名和属性值搜索tag标签,注意由于class是Python的关键字吗,所以要使用"class_"。
recursive:find_all()会搜索tag的所有子孙节点,设置recursive=False可以只搜索tag的直接子节点。
text:用来搜文档中的字符串内容,该参数可以接受字符串、正则表达式、列表、True。
limit:由于find_all()会返回所有的搜索结果,这样会影响执行效率,通过limit参数可以限制返回结果的数量。
2)find()
find()方法与find_all()类似,不同之处在于find_all()会将文档中所有符合条件的结果返回,而find()仅返回一个符合条件的结果,所以find()方法没有limit参数。
CSS选择器
BS4支持大部分的CSS选择器,比如常见的标签选择器、类选择器、id选择器,以及层级选择器。BeautifulSoup提供了一个select()方法,通过向该方法中添加选择器,就可以在HTML文档中搜索到与之对应的内容。
- 上一篇: CSS中的定位(postion)详解
- 下一篇: CSS面试题——隐藏元素的方法
猜你喜欢
- 2025-01-06 CSS实现常见元素水平、垂直居中
- 2025-01-06 采用后端代码方式实现对Html元素封装与输出
- 2025-01-06 HTML页面基本结构和加载过程
- 2025-01-06 带你了解用5个div让你闯进弹性布局
- 2025-01-06 前端入门——浮动float
- 2025-01-06 简析JS中Document与CSS
- 2025-01-06 CSS样式优先级怎样划分?【CSS优先级规则】
- 2025-01-06 谷歌F12开发者工具面板解析操作
- 2025-01-06 这8个卡片设计方法,你还真不一定知道
- 2025-01-06 「CSS三种居中方案全解」CSS垂直居中常用方法集结
- 02-21走进git时代, 你该怎么玩?_gits
- 02-21GitHub是什么?它可不仅仅是云中的Git版本控制器
- 02-21Git常用操作总结_git基本用法
- 02-21为什么互联网巨头使用Git而放弃SVN?(含核心命令与原理)
- 02-21Git 高级用法,喜欢就拿去用_git基本用法
- 02-21Git常用命令和Git团队使用规范指南
- 02-21总结几个常用的Git命令的使用方法
- 02-21Git工作原理和常用指令_git原理详解
- 最近发表
- 标签列表
-
- cmd/c (57)
- c++中::是什么意思 (57)
- sqlset (59)
- ps可以打开pdf格式吗 (58)
- phprequire_once (61)
- localstorage.removeitem (74)
- routermode (59)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- log.warn (60)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- resttemplateokhttp (59)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- reader.onload (61)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- java是值传递还是引用传递 (58)
- 无效的列索引 (74)