爬虫的几个问题，请教一下大佬，

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2433 天前的主题，其中的信息可能已经有所发展或是发生改变。

爬取一个网站

1，会出现一个 5 位的数字+字母的干扰线验证码，请问哪里有可以学习这种识别验证码的文章或者源码。（已经百度，但是都是用 tesseract 最低级的验证码破解。我试了，识别不了）。

2，这个网站需要增量爬取。静态页面，页数 3w+ 怎么才能有快捷的方法实现增量呢（想到：重新爬一遍，然后和数据库对比）

3，定时爬取，（每天晚上 11 点）

验证码

增量

tesseract

页数

12 条回复

soli

2018-04-15 09:24:58 +08:00

验证码简单的话，可以试试机器学习搞。图省事儿的话，用打码平台。

winsky

2018-04-15 10:00:16 +08:00

增量：每次从最新的开始爬，校验获取的数据是不是已经有了，如果已经存在（或者已经有的数据超过一定条数），就直接结束

qwertyegg

2018-04-15 10:06:11 +08:00

@soli 我有跟 lz 同样的疑问，现在我已经抓下来很多验证码的例子了，问题是怎么训练呢，用什么数据来训练比较好？

Rufeer

2018-04-15 10:15:16 +08:00 via iPhone

通常网站用的第三方的验证码方案，你可以看看源码里面的验证码怎么出来的，然后用这个可以生成足够的图片，参考 mnist 手写识别进行机器学习

sheep3

2018-04-15 10:23:08 +08:00

1. 验证码接打码平台
2. 你这个数据量不就是判断有没有，没有就抓去插入吗
3. corntab 了解一下

xuxueli

2018-04-15 10:32:56 +08:00 via Android

分布式爬虫: https://github.com/xuxueli/xxl-crawler

任务调度: https://github.com/xuxueli/xxl-job/

（验证码接云识别服务）

lihongming

2018-04-15 10:49:27 +08:00 via Android

简单的验证码用开源识别算法搞定，复杂的扔给扔给打码兔之类的平台搞定。能用钱解决的问题都不要花费时间，除非你想做研究而不是用于生产

lvsemi1

2018-04-15 12:51:13 +08:00 via Android

我的做法，做成交互式的，验证码识别丢给实习生

alvin666

2018-04-15 13:46:49 +08:00 via Android

5 楼正解，另外如果验证码不是生成的可以全爬下来做个数据库，有新的验证码直接在数据库里面找（ 12306 的验证码识别就是这么干的）

cyy564

2018-04-15 14:12:12 +08:00

图像处理之后再用 tesseract 识别

golmic

2018-04-15 17:22:27 +08:00 via Android

验证码识别：
https://www.zhihu.com/answer/120141781

如果需要可以联系我，方式见微信公众号 pydatame。

增量抓取可以采用数据库对比或者本地记录爬取过的 url 等方式实现。

jeffreychiu95

2018-04-15 23:55:01 +08:00

1. 搜索引擎、github 上面找一下是否已有关于目标网站验证码的代码实现。如果没有，可以看看有没有别的网站用同类型的验证码，再搜索。如果有研究的兴趣，学习图像处理和机器学习的相关知识。接入打码平台很便宜，同时你可以获取到标注好的数据集。之后自己训练模型去识别。
2. 如果是像微博、知乎用户动态等 feed 流的，有明显的先后顺序的，可以考虑每次取出已有的最新的 id(或者其它标识)，开始爬取，当爬到这个 id 时就停止。如果想获取像 v 站新发的帖子，新发布的网页这种的。数据量小的话，可以将已有的 url/id 读取到内存，看是否已经有。数据量大的话，Redis 了解一下~
3. corntab