V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
fdsfsdfsdf3334
V2EX  ›  问与答

企业级云爬虫应用如何架构?

  •  
  •   fdsfsdfsdf3334 · 2014-05-25 13:41:08 +08:00 · 3035 次点击
    这是一个创建于 3853 天前的主题,其中的信息可能已经有所发展或是发生改变。
    谢谢
    领导让我实现一个东西,我思考良久,觉得还是再请教下各位前辈,请大家指点,谢谢你们

    环境如下:
    数据库使用postgresql
    主要语言是python
    系统ubuntu
    使用的云主机是阿里云
    使用python里的web框架flask来分析查看数据

    目前购买了5台阿里云主机,内存都是1G的 也都是1核的,

    目前的架构思路如下[我也会在思路中描述出需求,请大家帮忙优化下架构]:

    通过web前台,添加任务,比如要采集某个XXX,当任务添加后,把任务XXX存入postgresql,然后服务器上的守护程序检测到数据库里添加了新任务,并且状态是未完成,立刻获取任务,然后把任务进一步细化,然后分配给另外4个机器上的爬虫,然后爬虫接到任务,开始执行,得到任务结果后,把任务传给主服务器上的守护程序,守护程序把数据存入数据库,改变任务状态为[已完成],

    这样就完成了一次任务,但有时候某些任务,是需要24小时X7天 每间隔10秒执行一次,或者每间隔几分钟执行一次,这样的话,爬虫就是永不停歇的工作

    下面,我说出我的困惑,请大家帮忙指点下

    请问我的架构思路有什么地方可以优化吗,如何优化?如果让您来完成这些功能,您会如何做?




    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4395 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 10:00 · PVG 18:00 · LAX 02:00 · JFK 05:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.