剑客
关注科技互联网

标签:Scrapy

技术教程

Scrapy定向爬虫教程(五)——保持登陆状态

阅读(116)评论(0)

在访问网站的时候,我们经常遇到有些页面必须用户登录才能访问。这个时候我们之前写的傻傻的爬虫就被ban在门外了。所以本节,我们给爬虫配置cookie,使得爬虫能保持用户已登录的状态,达到获得那些需登录才能访问的页面的目的。

技术教程

scrapy_redis 和 docker 实现简单分布式爬虫

阅读(80)评论(0)

在使用 scrapy 爬取 IT桔子公司 信息,用来进行分析,了解 IT 创业公司的一切情况,之前使用 scrapy 写了一个默认线程是10的单个实例,为了防止被 ban IP 设置了下载的速度,3万多个公司信息爬了1天多才完成,现在想到使...