爬虫入门(二)

无标签

数据挖掘

发布日期: 2020-03-06

更新日期: 2021-11-19

文章字数: 328

阅读时长: 1 分

阅读次数:

网络爬虫之提取

安装：pip install beautifulsoup4

遇到的问题：

和上一篇一样，又遇到了同样的问题，然后又在百度找解决方法，发现了我也曾经因安装库而抓狂，直到我遇到了这篇文章，直到这个时候我才意识到，我之前安装的Anaconda3包含了几百个第三方库(详细介绍可以看看这篇文章)。

解决方法：

在Anaconda3的目录下找到beautifulsoup4 的文件包，直接复制粘贴到python下的第三方库的文件夹就行了

demo.html

import requests
r=requests.get("http://python123.io/ws/demo.html")
demo=r.text

.png)

遍历方式：

.png)

下行遍历：

.png)

上行遍历：

.png)

平行遍历：

.png)

让HTML内容更加“友好”的显示：

.png)

XML：最早的通用信息标记语言，可扩展性好，但繁琐；Internet上的信息交互与传递

JSON：信息有类型，时候程序处理(js)，较XML简洁；移动应用云端和节点的信息通信，无注释

YAML：信息无类型，文本信息比利最高，可读性好；各类系统的配置文件，有注释易读

Amonologue

https://a-egoist.com/posts/24058a9b/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Amonologue !

无标签

2020-03-07 深度学习 TensorFlow

linear regression

2020-03-05 数据挖掘