python爬虫用什么库?
一、Python爬虫网络库
Python爬虫网络库主要包括:urllib、requests、grab、pycurl、urllib3、:云执行R、Python和matlab代码。
十二。电子邮件
●侧翼:电子邮件地址和Mime解析库;
● talon: mailgun库用于提取消息的引用和签名。
十三。网站和网址操作
●furl:一个小的Python库,简化了url的操作;
●purl:简单不可更改的url和干净的API进行调试和操作;
●网址。解析:用于打破统一资源定位符(URL)组件之间的划分,将组件组合成一个URL字符串,并将“相对URL”转换为绝对URL,称为“基本URL”;
●tldextract:将TLD与URL的注册域和子域精确分离,使用公共后缀列表;
●etaddr:用于显示和操作网络地址的Python库。
十四。网页内容抽取
●ewspaper:用Python进行新闻抽取、文章抽取和内容策展;
●HTML2text:将HTML转换成Markdown格式文本;
● Python-Goose: HTML内容和文章提取器;
●lassie:人性化的网页内容检索工具;
●micawber:从网站中提取丰富内容的小型库;
●sumy:自动汇总文本文件和HTML页面的模块;
●Haul:一个可扩展的图像爬行器;
●Python-可读性:ARC 90可读性工具的快速Python接口;
●scrapely:从HTML页面提取结构化数据的库;
●youtube-dl:从youtube下载视频的小命令行程序;
●You-get:Python 3的YouTube、Youku/Niconico视频下载器;
●WikiTeam:下载和保存维基的工具。
十五、WebSocket
●Crossbar:一款开源应用消息路由器;
●AutobahnPython:提供WebSocket协议和WAMP协议的Python实现并开源;
●WebSocket-for-Python:Python 2、3和PyPy的web socket客户端和服务器库。
十六、DNS解析
●dnsyo:在全球1500多台DNS服务器上查看自己的DNS;
●py cares:c-ares的界面。
十七、计算机视觉
●OpenCV:开源计算机视觉库;
●SimpleCV:用于相机、图像处理、特征提取和格式转换的介绍和可读接口;
●mahotas:一种快速的计算机图像处理算法,完全基于numpy的数组作为其数据类型。
十八。代理服务系统
●shadowsocks:可以帮助你穿透防火墙的快速隧道代理;
● tproxy: tproxy是一个简单的TCP路由代理,基于Gevent,用Python配置。
十九。其他Python工具列表
●牛逼——python
●pycrumbs
●python-github-项目
●python_reference
●pythonidae