爬虫17:爬虫框架Scrapy05

爬虫•目录 爬虫•类别


爬虫框架Scrapy

scrapy shell使用

代码  含义
scrapy shell URL 地址
request.headers 请求头 字典
request.meta 定义代理等相关信息 字典
request.text 字符串
response.body 字节流
response.xpath(‘’) 搜索

scrapy.Request()常用参数

url 地址
callback 回调函数
headers 请求头
meta 代理等相关信息
dont_filter 是否忽略域组限制 Ture不检查allowed_domains=[''],默认False
encoding 默认utf-8

下载器中间件(随机User-Agent)

操作文件 配置命令
setting.py(少量User-Agent) USER_AGENT = ‘’
DEFAULT_REQUEST_HEADRES = {}
  • setting.py(少量User-Agent)
    USER_AGENT = ‘’
    DEFAULT_REQUEST_HEADRES = {}
  • middlewares.py设置中间件
    1.项目目录新建useragets.py,存放agent
      uaList = ['', '' ,'',...]
    
    2.middlewares.py中创建中间件类
      from xxx.useragents import *
      class RandomUAmiddleware(boject):
          def process_request(self, request, spider):
              # 此处注意headers属性
              request.headers['User-Agent'] = ...
    
    3.开启中间件
      setting.py设置
      DOWNLOADER_MIDDLEWARES = 
    

升级Scrapy

  • 安装pip
    官网下载pip解压
    cd到解压路径 执行python setup.py install
  • 升级
    python -m pip install –upgrade Scrapy

博主个人能力有限,错误在所难免.
如发现错误请不要吝啬,发邮件给博主更正内容,在此提前鸣谢.
Email: JentChang@163.com (来信请注明文章标题,如果附带链接就更方便了)
你也可以在下方的留言板留下你宝贵的意见.


上一篇
爬虫18:OCR光学识别 爬虫18:OCR光学识别
爬虫•目录 爬虫•类别 OCR光学识别unbutusudo apt-get install tesseract-ocrmacbrew install tesseract tesseract test1.jpg test1 如果想要更强大
2019-01-22
下一篇
爬虫15:爬虫框架Scrapy03 爬虫15:爬虫框架Scrapy03
爬虫•目录 爬虫•类别 爬虫框架Scrapy警告级别/日志文件LOG_LEVEL = ‘’LOG_FILE = ‘文件名.log’ LOG_LEVEL值:  级别 值 表示 结果 1 CRITICAL 严重错误 显示CRIT
2019-01-22
目录