爬虫的学习纲要 – bkd的驿站

2.信息提取：Regex , BeautifulSoup , Lxml
3.抓取图片：获取地址，open保存位置，write字节即可。或者用urllib.request.urlretrieve保存图片文件。
4.增加头部：使用requests库，直接header={}即可
5.多线程抓取：官方的threading库，或concurrent.futures库。
7.模拟登陆：在header中增加cookie，或者使用session发起请求
8.浏览器登陆：selenium库
9.自动化操作：selenium库
11.验证码之OCR：切换cookie和host等，使用pyocr、pillow库，加tesseract-ocr。
12.验证码之机器学习
13.验证码之滑动验证码
14.分布式抓取
15.爬虫教程总结