V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
sagaxu
V2EX  ›  Python

Python 爬虫改成 go,性能提高 5 倍?

  •  
  •   sagaxu · 2018-12-03 09:28:17 +08:00 via Android · 17907 次点击
    这是一个创建于 2201 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2018-12-03 12:50:37 +08:00
    原作被你们评论到 404 了,神马情况😳
    107 条回复    2018-12-04 11:02:50 +08:00
    1  2  
    locoz
        101
    locoz  
       2018-12-03 18:42:53 +08:00
    @est #98
    yangyaofei
        102
    yangyaofei  
       2018-12-03 18:45:33 +08:00 via Android
    scrapy 用 scrapy-redis 做多进程,可以跑满 cpu,把数据库跑成瓶颈
    mingyun
        103
    mingyun  
       2018-12-03 22:15:54 +08:00
    来晚了 都 404 了
    largecat
        104
    largecat  
       2018-12-03 22:36:38 +08:00 via Android
    404 看不到了,
    不过看楼上很多人评论,spider 里采集数据同时入库,
    我猜这个人肯定不会 scrapy 框架。瞎 jb 写的。

    scrapy 用 spider 爬取,
    数据处理在 pipeline 里,
    全部一溜的 IO 异步,

    怎么可能等入库好了再采下一个,,
    zkeeper
        105
    zkeeper  
       2018-12-04 02:59:25 +08:00
    @congeec 同意你说的, Python 社区好像整体不怎么在意性能, 所有与之相关的改进优先级都放到很低. 一个 GIL 都多少年了, 我看都成了面试必问问题了, 这有多尴尬.
    hasbug
        106
    hasbug  
       2018-12-04 09:25:51 +08:00
    我想学 go 有人说没啥用,看本地就业情况,一搜没有,想转 python,自己折腾点东西,有人说就是一自行车,项目要想维护下去 最好不要选···

    我还能学什么?
    locoz
        107
    locoz  
       2018-12-04 11:02:50 +08:00   ❤️ 1
    @hasbug #106 编程语言很多东西都是共通的,所以语言并不是关键,看哪个好找工作就学哪个
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   923 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:22 · PVG 03:22 · LAX 11:22 · JFK 14:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.