python爬虫和测试的区别
爬行动物的基本过程
发起请求
通过HTTP库向目标站点发送请求,即发送一个请求,可以包含附加的头等信息,等待服务器响应。
获取响应内容
如果服务器能正常响应,就会得到响应,响应的内容就是要获取的页面内容,可能是HTML、Json字符串、二进制数据(图片或视频)等类型。
解析内容
内容可能是HTML,可以用正则表达式和页面解析库解析,Json,可以直接转换成Json对象解析,也可能是二进制数据,可以保存或进一步处理。
保存数据
保存有多种形式,如保存为文本、保存到数据库或保存特定格式的文件。