爬虫入门(二)


网络爬虫之提取

Beautiful Soup库入门

安装:pip install beautifulsoup4

遇到的问题:

上一篇一样,又遇到了同样的问题,然后又在百度找解决方法,发现了我也曾经因安装库而抓狂,直到我遇到了这篇文章,直到这个时候我才意识到,我之前安装的Anaconda3包含了几百个第三方库(详细介绍可以看看这篇文章)。

解决方法:

在Anaconda3的目录下找到beautifulsoup4 的文件包,直接复制粘贴到python下的第三方库的文件夹就行了

Beautiful Soup库的基本元素

demo.html

import requests
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text

.png)

.png)

遍历方式:

.png)

下行遍历:

.png)

上行遍历:

.png)

平行遍历:

.png)

.png)

.png)

让HTML内容更加“友好”的显示:

.png)

.png)

三种信息标记形式

XML:最早的通用信息标记语言,可扩展性好,但繁琐;Internet上的信息交互与传递

JSON:信息有类型,时候程序处理(js),较XML简洁;移动应用云端和节点的信息通信,无注释

YAML:信息无类型,文本信息比利最高,可读性好;各类系统的配置文件,有注释易读

参考资料

https://www.icourse163.org/learn/BIT-1001870001?tid=1206951268#/learn/content


文章作者: Amonologue
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Amonologue !
  目录