2.信息提取:Regex
, BeautifulSoup
, Lxml
3.抓取图片:获取地址,open保存位置,write字节即可。或者用urllib.request.urlretrieve保存图片文件。
4.增加头部:使用requests库,直接header={}即可
5.多线程抓取:官方的threading库,或concurrent.futures库。
7.模拟登陆:在header中增加cookie,或者使用session发起请求
8.浏览器登陆:selenium库
9.自动化操作:selenium库
11.验证码之OCR:切换cookie和host等,使用pyocr、pillow库,加tesseract-ocr。
12.验证码之机器学习
13.验证码之滑动验证码
14.分布式抓取
15.爬虫教程总结