V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
wellhome
V2EX  ›  问与答

为什么诸位老哥的爬虫的都是自己写的,不用 scrapy 呢?

  •  
  •   wellhome · 2019-09-18 08:23:23 +08:00 · 5481 次点击
    这是一个创建于 1904 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我研究了半天 scrapy 发现搞的太复杂了。 除非大规模的爬, 一般 爬个几个站 不若自己写的方便。 不知是不是我打开 scrapy 的方式有问题。 我看到大家都在推崇 scrapy。

    26 条回复    2019-09-18 17:11:26 +08:00
    forgottencoast
        1
    forgottencoast  
       2019-09-18 08:26:59 +08:00 via iPhone
    标题和内容冲突啊?
    sanjusss
        2
    sanjusss  
       2019-09-18 08:28:05 +08:00
    我用的.net core 写爬虫,和你差不多。总感觉 dotnetspider 框架太复杂,写个简单的功能要绕弯好远,有的功能直接不能实现。最后自己写,部分功能直接 copy 框架。
    gimp
        3
    gimp  
       2019-09-18 08:32:37 +08:00
    设问句?
    nevin47
        4
    nevin47  
       2019-09-18 08:33:31 +08:00 via Android
    我也觉得 scrapy 太复杂了,但是工程化开发肯定 scrapy 好,自己写点小东西随便用用 urllib 就完事儿了,但是大规模爬的时候吃力感就出来了
    sadfQED2
        5
    sadfQED2  
       2019-09-18 08:37:31 +08:00 via Android
    你自己都说了,大规模爬虫用,另外你用熟了小项目用其实也很方便
    php01
        6
    php01  
       2019-09-18 08:40:20 +08:00
    先问是不是,再问为什么。
    yinjy
        7
    yinjy  
       2019-09-18 08:40:29 +08:00
    小项目也是 scrapy 方便啊,基础代码不用自己写
    qsnow6
        8
    qsnow6  
       2019-09-18 08:45:36 +08:00 via iPhone
    如何定义小规模
    patx
        9
    patx  
       2019-09-18 08:49:07 +08:00 via Android
    nodejs 写爬虫
    killerv
        10
    killerv  
       2019-09-18 09:02:16 +08:00   ❤️ 1
    简单的用 requests,
    稍微上点规模的就用框架了,自己造轮子多麻烦
    keith1126
        11
    keith1126  
       2019-09-18 09:08:26 +08:00   ❤️ 1
    因为直接用 requests 已经可以满足大部分需求了,而且简单快捷
    ljspython
        12
    ljspython  
       2019-09-18 09:25:39 +08:00
    requests 已满足基本小需求了
    bonfy
        13
    bonfy  
       2019-09-18 09:28:01 +08:00
    requests 就可以了,为什么要去学个重量级的框架呢,学习不要成本的么?
    tozp
        14
    tozp  
       2019-09-18 09:39:01 +08:00
    我只用 Go
    wellhome
        15
    wellhome  
    OP
       2019-09-18 09:42:26 +08:00
    @gimp 好多人推崇, 但是老哥们开的项目都是自己写的, 所以矛盾, 不知道是不是自己的打开方式不对。
    ClarkAbe
        16
    ClarkAbe  
       2019-09-18 09:49:24 +08:00 via Android
    @tozp #14 同 go...设置好重复踢出然后一记狗肉挺,CPU 全核心多线程工作,简直不要太恐怖
    fank99
        17
    fank99  
       2019-09-18 09:57:46 +08:00
    写到最后。。你会发现你写的东西越来越像“scrapy”
    这时候,你会问自己,我当时咋想的,为啥不直接用 scrapy 呢
    coolair
        18
    coolair  
       2019-09-18 10:01:32 +08:00
    看文档的时间已经写好了。
    alphardex
        19
    alphardex  
       2019-09-18 10:08:56 +08:00 via iPhone
    自己写了个小型框架 looter,比 scrapy 轻便多了,地址: https://github.com/alphardex/looter
    zqjilove
        20
    zqjilove  
       2019-09-18 10:48:54 +08:00
    如果考虑到后期分布式的便携性。scrapy 是很好的选择,如果只是单机跑跑,其实上不上 scrapy 都可以
    chengxiao
        21
    chengxiao  
       2019-09-18 10:52:01 +08:00
    小规模用 scrapy 才快吧......几句业务 就 ok 了
    BooksE
        22
    BooksE  
       2019-09-18 10:59:09 +08:00
    我十几个站都用 scrapy 爬的。。scrapy 很好用
    WuMingyu
        23
    WuMingyu  
       2019-09-18 11:07:50 +08:00
    可以写个 scrapy 的模版,用的时候 copy 下,再改改一些业务代码
    ClericPy
        24
    ClericPy  
       2019-09-18 11:22:35 +08:00
    自己的 async await, 为什么要折腾 twisted, 后者作者倒是挺厉害... 能把 guido 老爹气出门去
    d5
        25
    d5  
       2019-09-18 12:15:06 +08:00
    小折腾用 requests + pyquery 梭哈
    niknik
        26
    niknik  
       2019-09-18 17:11:26 +08:00
    emmm,就我目前的站点数据,都用不上 scrapy。。。。直接脚本了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3500 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 10:48 · PVG 18:48 · LAX 02:48 · JFK 05:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.