网络爬虫之提取
Beautiful Soup库入门
安装:pip install beautifulsoup4
遇到的问题:
和上一篇一样,又遇到了同样的问题,然后又在百度找解决方法,发现了我也曾经因安装库而抓狂,直到我遇到了这篇文章,直到这个时候我才意识到,我之前安装的Anaconda3包含了几百个第三方库(详细介绍可以看看这篇文章)。
解决方法:
在Anaconda3的目录下找到beautifulsoup4 的文件包,直接复制粘贴到python下的第三方库的文件夹就行了
Beautiful Soup库的基本元素
demo.html
import requests
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text
.png)
.png)
遍历方式:
.png)
下行遍历:
.png)
上行遍历:
.png)
平行遍历:
.png)
.png)
.png)
让HTML内容更加“友好”的显示:
.png)
.png)
三种信息标记形式
XML:最早的通用信息标记语言,可扩展性好,但繁琐;Internet上的信息交互与传递
JSON:信息有类型,时候程序处理(js),较XML简洁;移动应用云端和节点的信息通信,无注释
YAML:信息无类型,文本信息比利最高,可读性好;各类系统的配置文件,有注释易读
参考资料
https://www.icourse163.org/learn/BIT-1001870001?tid=1206951268#/learn/content