如何用Python爬取数据?
方法/步骤
在抓取数据之前,需要下载安装两个东西,一个是urllib,一个是python-docx。
请点击输入图片说明。
然后在python的编辑器中输入导入选项,提供这两个库的服务。
请点击输入图片说明。
Urllib主要负责抓取网页的数据。简单抓取网页的数据其实很简单。输入如图所示的命令,后跟一个链接。
请点击输入图片说明。
抓下来的,不算,必须读,否则无效。
请点击输入图片说明。
五
接下来就是抢码了,不翻码是保存不了的。解码read函数。随便再标一个,比如XA。
请点击输入图片说明。
六
最后再输入三句话。第一句话的意思是创建一个新的空白word文档。
第二句话的意思是给文档添加一个文本段落,介绍变量XA抓取的是什么。
第三句是保存文档docx的意思,名字在括号里。
请点击输入图片说明。
七
这是源代码,如果还需要过滤,需要自己添加各种正则表达式。