爬虫19:分布式爬虫 爬虫•目录 爬虫•类别 分布式爬虫 博主个人能力有限,错误在所难免.如发现错误请不要吝啬,发邮件给博主更正内容,在此提前鸣谢.Email: 2019-01-22 Spider 爬虫Spider 分布式 redis 爬虫17:爬虫框架Scrapy05 爬虫•目录 爬虫•类别 爬虫框架Scrapyscrapy shell使用 代码 含义 scrapy shell URL 地址 2019-01-22 Spider 爬虫Spider Scrapy shell 爬虫16:爬虫框架Scrapy04 爬虫•目录 爬虫•类别 爬虫框架Scrapy图片管道 继承了框架内已经搭建好的图片管道类,并重写它的方法.pipelines.py文件的代 2019-01-22 Spider 图片 爬虫Spider 动态 Scrapy 爬虫18:OCR光学识别 爬虫•目录 爬虫•类别 OCR光学识别unbutusudo apt-get install tesseract-ocrmacbrew in 2019-01-22 Spider 爬虫Spider OCR pytesseract 验证码识别 爬虫15:爬虫框架Scrapy03 爬虫•目录 爬虫•类别 爬虫框架Scrapy警告级别/日志文件LOG_LEVEL = ‘’LOG_FILE = ‘文件名.log’ LOG 2019-01-22 Spider 爬虫Spider Scrapy 警告信息 CSV 爬虫14:爬虫框架Scrapy02 爬虫•目录 爬虫•类别 爬虫框架Scrapyyield 把1个函数当作1个生成器来使用 让函数暂停,等待下一次调用 记录执行的位置,每次开 2019-01-22 Spider 爬虫Spider Scrapy Python 爬虫13:爬虫框架Scrapy 爬虫•目录 爬虫•类别 爬虫框架Scrapy异步处理框架,可配置和可扩展程度非常高高,python中使用最广泛的爬虫框架详细 Scrap 2019-01-22 Spider 爬虫Spider 框架 Scrapy 爬虫12:BeautifulSoup解析 爬虫•目录 爬虫•类别 BeautifulSoup解析 依赖于lxmlAnaconda Prompt:conda install beau 2019-01-22 Spider 解析 爬虫Spider BeautifulSoup 爬虫11:多线程爬取 爬虫•目录 爬虫•类别 多线程爬取 队列 from multiprocessing import Queue put() get( 2019-01-22 Spider 爬虫Spider 线程 局部页面刷新 爬虫10:selenium phantomjs/Chrome 爬虫•目录 爬虫•类别 selenium phantomjs/Chromeseleniumweb自动测试化工具 Anaconda Pro 2019-01-22 Spider 爬虫Spider Selenium 无界面浏览器 爬虫09:动态加载网站数据抓取 爬虫•目录 爬虫•类别 动态加载网站数据抓取 滚动鼠标滑轮时加载的内容抓取浏览器F12 Network->QueryStringPa 2019-01-22 Spider 爬虫Spider Ajax 动态 豆瓣电影 爬虫08:xpath解析 爬虫•目录 爬虫•类别 xpath解析在XML文档中查找信息的语言,同样适用于HTML文档的检索 xpath工具Chrom插件 Xpath 2019-01-22 Spider 解析 requests 图片 xpath