爬虫•目录 爬虫•类别
爬虫框架Scrapy
scrapy shell使用
代码 |
含义 |
scrapy shell URL |
地址 |
request.headers |
请求头 字典 |
request.meta |
定义代理等相关信息 字典 |
request.text |
字符串 |
response.body |
字节流 |
response.xpath(‘’) |
搜索 |
scrapy.Request()常用参数
|
|
url |
地址 |
callback |
回调函数 |
headers |
请求头 |
meta |
代理等相关信息 |
dont_filter |
是否忽略域组限制 Ture不检查allowed_domains=[''],默认False |
encoding |
默认utf-8 |
下载器中间件(随机User-Agent)
操作文件 |
配置命令 |
setting.py(少量User-Agent) |
USER_AGENT = ‘’ |
|
DEFAULT_REQUEST_HEADRES = {} |
- setting.py(少量User-Agent)
USER_AGENT = ‘’
DEFAULT_REQUEST_HEADRES = {}
- middlewares.py设置中间件
1.项目目录新建useragets.py,存放agent uaList = ['', '' ,'',...]
2.middlewares.py中创建中间件类 from xxx.useragents import *
class RandomUAmiddleware(boject):
def process_request(self, request, spider):
# 此处注意headers属性
request.headers['User-Agent'] = ...
3.开启中间件 setting.py设置
DOWNLOADER_MIDDLEWARES =
升级Scrapy
- 安装pip
官网下载pip解压
cd到解压路径 执行python setup.py install
- 升级
python -m pip install –upgrade Scrapy
博主个人能力有限,错误在所难免.
如发现错误请不要吝啬,发邮件给博主更正内容,在此提前鸣谢.
Email: JentChang@163.com (来信请注明文章标题,如果附带链接就更方便了)
你也可以在下方的留言板留下你宝贵的意见.