V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
yixiugegegege
V2EX  ›  Python

爬虫的几个问题,请教一下大佬,

  •  1
     
  •   yixiugegegege · 2018-04-15 09:17:34 +08:00 · 4541 次点击
    这是一个创建于 2433 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬取一个网站

    1,会出现一个 5 位的 数字+字母的 干扰线验证码,请问哪里有可以学习这种识别验证码的文章或者源码。(已经百度,但是都是用 tesseract 最低级的验证码破解。我试了,识别不了)。

    2,这个网站需要增量爬取。静态页面 ,页数 3w+ 怎么才能有快捷的方法实现增量呢(想到:重新爬一遍,然后和数据库对比)

    3,定时爬取,(每天晚上 11 点)

    soli
        1
    soli  
       2018-04-15 09:24:58 +08:00
    验证码简单的话,可以试试机器学习搞。图省事儿的话,用打码平台。
    winsky
        2
    winsky  
       2018-04-15 10:00:16 +08:00   ❤️ 1
    增量:每次从最新的开始爬,校验获取的数据是不是已经有了,如果已经存在(或者已经有的数据超过一定条数),就直接结束
    qwertyegg
        3
    qwertyegg  
       2018-04-15 10:06:11 +08:00
    @soli 我有跟 lz 同样的疑问,现在我已经抓下来很多验证码的例子了,问题是怎么训练呢,用什么数据来训练比较好?
    Rufeer
        4
    Rufeer  
       2018-04-15 10:15:16 +08:00 via iPhone
    通常网站用的第三方的验证码方案,你可以看看源码里面的验证码怎么出来的,然后用这个可以生成足够的图片,参考 mnist 手写识别进行机器学习
    sheep3
        5
    sheep3  
       2018-04-15 10:23:08 +08:00
    1. 验证码接打码平台
    2. 你这个数据量不就是判断有没有,没有就抓去插入吗
    3. corntab 了解一下
    xuxueli
        6
    xuxueli  
       2018-04-15 10:32:56 +08:00 via Android
    分布式爬虫: https://github.com/xuxueli/xxl-crawler

    任务调度: https://github.com/xuxueli/xxl-job/

    (验证码接云识别服务)
    lihongming
        7
    lihongming  
       2018-04-15 10:49:27 +08:00 via Android
    简单的验证码用开源识别算法搞定,复杂的扔给扔给打码兔之类的平台搞定。能用钱解决的问题都不要花费时间,除非你想做研究而不是用于生产
    lvsemi1
        8
    lvsemi1  
       2018-04-15 12:51:13 +08:00 via Android
    我的做法,做成交互式的,验证码识别丢给实习生
    alvin666
        9
    alvin666  
       2018-04-15 13:46:49 +08:00 via Android
    5 楼正解,另外如果验证码不是生成的可以全爬下来做个数据库,有新的验证码直接在数据库里面找( 12306 的验证码识别就是这么干的)
    cyy564
        10
    cyy564  
       2018-04-15 14:12:12 +08:00
    图像处理之后再用 tesseract 识别
    golmic
        11
    golmic  
       2018-04-15 17:22:27 +08:00 via Android
    验证码识别:
    https://www.zhihu.com/answer/120141781

    如果需要可以联系我,方式见微信公众号 pydatame。

    增量抓取可以采用数据库对比或者本地记录爬取过的 url 等方式实现。
    jeffreychiu95
        12
    jeffreychiu95  
       2018-04-15 23:55:01 +08:00   ❤️ 1
    1. 搜索引擎、github 上面找一下是否已有关于目标网站验证码的代码实现。如果没有,可以看看有没有别的网站用同类型的验证码,再搜索。如果有研究的兴趣,学习图像处理和机器学习的相关知识。接入打码平台很便宜,同时你可以获取到标注好的数据集。之后自己训练模型去识别。
    2. 如果是像微博、知乎用户动态等 feed 流的,有明显的先后顺序的,可以考虑每次取出已有的最新的 id(或者其它标识),开始爬取,当爬到这个 id 时就停止。如果想获取像 v 站新发的帖子,新发布的网页这种的。数据量小的话,可以将已有的 url/id 读取到内存,看是否已经有。数据量大的话,Redis 了解一下~
    3. corntab
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4500 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:48 · PVG 17:48 · LAX 01:48 · JFK 04:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.