如何用Python爬取数据?

方法/步骤

在抓取数据之前,需要下载安装两个东西,一个是urllib,一个是python-docx。

请点击输入图片说明。

然后在python的编辑器中输入导入选项,提供这两个库的服务。

请点击输入图片说明。

Urllib主要负责抓取网页的数据。简单抓取网页的数据其实很简单。输入如图所示的命令,后跟一个链接。

请点击输入图片说明。

抓下来的,不算,必须读,否则无效。

请点击输入图片说明。

接下来就是抢码了,不翻码是保存不了的。解码read函数。随便再标一个,比如XA。

请点击输入图片说明。

最后再输入三句话。第一句话的意思是创建一个新的空白word文档。

第二句话的意思是给文档添加一个文本段落,介绍变量XA抓取的是什么。

第三句是保存文档docx的意思,名字在括号里。

请点击输入图片说明。

这是源代码,如果还需要过滤,需要自己添加各种正则表达式。