python爬虫用什么库?

Python crawler,全称Python web crawler,是按照一定的规则自动抓取万维网上信息的程序或脚本。主要用于抓取证券交易数据、天气数据、网站用户数据、图片数据等。为了支持网络爬虫的正常功能,Python内置了大量的库,主要有几种类型。下面的文章就给大家介绍一下。

一、Python爬虫网络库

Python爬虫网络库主要包括:urllib、requests、grab、pycurl、urllib3、:云执行R、Python和matlab代码。

十二。电子邮件

●侧翼:电子邮件地址和Mime解析库;

● talon: mailgun库用于提取消息的引用和签名。

十三。网站和网址操作

●furl:一个小的Python库,简化了url的操作;

●purl:简单不可更改的url和干净的API进行调试和操作;

●网址。解析:用于打破统一资源定位符(URL)组件之间的划分,将组件组合成一个URL字符串,并将“相对URL”转换为绝对URL,称为“基本URL”;

●tldextract:将TLD与URL的注册域和子域精确分离,使用公共后缀列表;

●etaddr:用于显示和操作网络地址的Python库。

十四。网页内容抽取

●ewspaper:用Python进行新闻抽取、文章抽取和内容策展;

●HTML2text:将HTML转换成Markdown格式文本;

● Python-Goose: HTML内容和文章提取器;

●lassie:人性化的网页内容检索工具;

●micawber:从网站中提取丰富内容的小型库;

●sumy:自动汇总文本文件和HTML页面的模块;

●Haul:一个可扩展的图像爬行器;

●Python-可读性:ARC 90可读性工具的快速Python接口;

●scrapely:从HTML页面提取结构化数据的库;

●youtube-dl:从youtube下载视频的小命令行程序;

●You-get:Python 3的YouTube、Youku/Niconico视频下载器;

●WikiTeam:下载和保存维基的工具。

十五、WebSocket

●Crossbar:一款开源应用消息路由器;

●AutobahnPython:提供WebSocket协议和WAMP协议的Python实现并开源;

●WebSocket-for-Python:Python 2、3和PyPy的web socket客户端和服务器库。

十六、DNS解析

●dnsyo:在全球1500多台DNS服务器上查看自己的DNS;

●py cares:c-ares的界面。

十七、计算机视觉

●OpenCV:开源计算机视觉库;

●SimpleCV:用于相机、图像处理、特征提取和格式转换的介绍和可读接口;

●mahotas:一种快速的计算机图像处理算法,完全基于numpy的数组作为其数据类型。

十八。代理服务系统

●shadowsocks:可以帮助你穿透防火墙的快速隧道代理;

● tproxy: tproxy是一个简单的TCP路由代理,基于Gevent,用Python配置。

十九。其他Python工具列表

●牛逼——python

●pycrumbs

●python-github-项目

●python_reference

●pythonidae