[招募] 萌否业余项目——网页爬虫，招募 node.js 开发者

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4134 天前的主题，其中的信息可能已经有所发展或是发生改变。

几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ，里面有关于我们的介绍，这里就不再多写了。

上次招到了一个可♂爱的开发者，不过还是不够。最近我稍微有了点点时间，希望能够尽快将萌否 Beta4 推上线，所以还要再找个同好帮忙推进后端的开发。

现在要做的功能是：网页爬虫。更进一步，是指 ACG 媒体网站的爬虫。
我们后台已经运行有一些爬虫了，这些爬虫也是针对具体网站来写的。现在，我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
由于各种原因，我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
同时，我也认为同是 ACGer 才能更好地融入我们团队。

还是要注明的是，我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入～

联系方式：
Email: ariagle [at] moefou.org
QQ: 910437475
Twitter: @Ariagle

(・ω< )★

爬虫

Node

43 条回复 • 2013-09-02 17:25:48 +08:00

jasya

2013-08-10 11:42:37 +08:00

_(:3」∠)_来写写练练手可以吗

kenneth

2013-08-10 11:46:52 +08:00

@Ariagle 我可以提供全套的抓取解决方案，范例：www.mvmap.com

chengyuhui

2013-08-10 11:50:51 +08:00

喵w

davepkxxx

2013-08-10 11:53:30 +08:00

惊现圆长

Ariagle

2013-08-10 11:54:41 +08:00

@jasya 这是要上生产环境的，要是你觉得不太难，也可以当作是练手= =

@kenneth 谢谢～不过现在还是想写套适用于我们自己实际情况的代码，你的方案是否属于通用型爬虫？

kenneth

2013-08-10 11:57:20 +08:00

@Ariagle 没有我爬不了的网站，只需要告诉我，你要爬那些网站，那些结构化数据即可，我提供服务器直接入你数据库都可以。

Ariagle

2013-08-10 12:01:09 +08:00

@kenneth 厉害，听着像是商业服务的程度了 Σ( ° △ °|||)︴

kenneth

2013-08-10 12:06:59 +08:00

@Ariagle 爬的同时，可以帮你把图片生成各种尺寸，按路径规则保存，等比例缩略+水印。爬虫全自动，无人值守，自动更新。mvmap就是全自动更新，不需要维护的。

Ariagle

2013-08-10 12:13:29 +08:00

@kenneth 是用什么写的呢？从长远来说，还是部署到自己服务器上比较好。

kenneth

2013-08-10 12:17:27 +08:00

@Ariagle 爬虫Python开发效率高，运行效率也不错。可以帮你部署到你的服务器，配置定时任务，全自动抓取。

jasya

2013-08-10 12:17:34 +08:00

来了个高端人士...匿了..(´･ω･｀)

kenneth

2013-08-10 12:19:30 +08:00

@Ariagle 如果你用亚马逊AWS，可以帮你配置爬虫集群，快速闪电抓取，以最短的时间，完成海量数据抓取。

jasya

2013-08-10 12:30:31 +08:00

@kenneth 突然有个问题,大哥能抓新浪微博全站吗,求解决方案

Ariagle

2013-08-10 12:42:19 +08:00

@kenneth 我们这边没什么人熟 python ，以后维护起来不方便……

gullon

2013-08-10 13:38:40 +08:00

@kenneth 用的是scrapy？
我想请我一下，有什么适合爬虫待着的vps推荐呢？

kenneth

2013-08-10 13:55:51 +08:00

@gullon 我会各种各样的爬虫，各种各样的语言的爬虫方案。Scrapy只是一个方案，mvmap用的不是这个方案。爬虫的难点在于，分布式，异步，并发，队列，数据管道，数据持久化等，考虑的点有很多。但是灵活的用。

fetchcoin

2013-08-10 14:02:32 +08:00

不就一定向采集吗？为啥不用火车头，耗费人力物力自己写？

kenneth

2013-08-10 14:04:58 +08:00

@fetchcoin 我要管理100万的域，5万的论坛，10万的博客，这么多规则，你用火车头，你觉得行吗？

fetchcoin

2013-08-10 14:06:59 +08:00

@kenneth 你自己定向采集，结构化数据，不也需要对每个点配置规则吗，别说智能结构化数据

gullon

2013-08-10 21:48:02 +08:00

@kenneth 多谢指教。
但分布式，异步，并发，队列，数据管道，数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧？对普通的数据采集需要考虑这么多因素么？

huazhouji

2013-08-10 22:04:40 +08:00 via iPhone

@kenneth 高手啊，一个人管那么多站，牛逼

lewisc402

2013-08-11 00:06:54 +08:00

@kenneth 问个问题：假设我想用爬虫访问 a.html，结果服务器会重定向到 redirect.html?url=a.html，而redirect.html中是一些javascript代码，用来写cookie，那么我该怎么办才能访问到原网页呢？一般有哪几种方案可以解决这个问题？？

binux

2013-08-11 11:40:13 +08:00

@kenneth 分布式，异步，并发，队列，数据管道，数据持久化都不是难点
难点在于页面数据结构化，人工不算

chengyuhui

2013-08-12 00:21:15 +08:00

@binux 一般的站点用jsdom甚至更简单的一些HTML Parser就能搞定
最蛋疼的就是那些各种AJAX的Web App.....

binux

2013-08-12 00:56:50 +08:00

@chengyuhui 我指的是，对不同的网站“自动”提取结构化数据

clowwindy

2013-08-12 01:32:08 +08:00

@kenneth 链接发现是怎么做的？

isayr

2013-08-12 05:01:45 +08:00

@clowwindy @kenneth 同问链接发现是怎么做的？

F0ur

2013-08-12 11:54:03 +08:00

搬凳子听讲课。。平时爬虫接触的真心不多

emohacker

2013-08-24 23:49:03 +08:00

用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作，server端用jQuery操作dom获取指定内容，极大降低了门槛，不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
请问楼主选择node是否处于这方面的考虑？

Ariagle

2013-08-24 23:58:34 +08:00

@emohacker 是的，若原本就懂类JQuery的选择器操作，那会有天然的优势。另外就是相对诸如Python等其他后端语言，我们对JS更熟一些。

xieren58

2013-08-25 09:54:07 +08:00

用上node的cheerio，我和我的小伙伴们都惊呆了～～

gdzdb

2013-08-29 15:08:04 +08:00

我也来推荐一个node的爬虫模块：https://github.com/cgiffard/node-simplecrawler

ling0322

2013-08-29 15:26:43 +08:00

咱报个名呢> <

jinwyp

2013-08-30 11:33:08 +08:00

没人用phamtomjs? 和node phamtom

martinbruce

2013-08-30 15:13:06 +08:00

@kenneth 这方面的高手啊！求携带，最近一直在研究crawler

kenneth

2013-08-30 15:20:29 +08:00

@martinbruce 欢迎来我网站和我交流mvmap.com，或者直接加我QQ:50009371

kenneth

2013-08-30 18:03:25 +08:00

@clowwindy
@isayr
影大指的的爬虫的链接发现？这要看是盲爬，还是定向爬了。定向爬是用正则写规则，盲爬就是深度优先和广度优先，还有控制爬取的深度。

clowwindy

2013-08-30 22:14:03 +08:00

@kenneth 非定向抓取去重是个难题，我们以前的搜索项目也遇到了，没有很好的解决。比如爬淘宝，如何发现商品，如果顺着链接忙爬，会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的，结果条目也大量重复。我们虽然尝试用一些模型去学习和预测，但效果很差。最后只能单纯限制抓取深度。

binux

2013-08-30 22:18:02 +08:00

@clowwindy
1、去除无效参数
2、泛滥控制
3、翻页索引识别
4、链接发现能力挖掘
等等等等。。

TimePower

2013-08-31 20:17:51 +08:00

你们服务器被墙了~？

Ariagle

2013-08-31 20:52:07 +08:00

@ling0322 可QQ联系。

@TimePower 没有，可能是你的网络问题吧？

crny520

2013-08-31 21:04:50 +08:00

@kenneth 哥,牛吹太大了,你的PY也不是会太久.

kenneth

2013-09-02 17:25:48 +08:00

@crny520 我一直都是小菜鸟。没有吹牛，只是贡献爬虫思路而已。