V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bget
V2EX  ›  程序员

推荐一款轻量级的爬虫软件,希望能给大家工作带来帮助

  •  
  •   bget · 2017-06-08 17:14:04 +08:00 · 5127 次点击
    这是一个创建于 2736 天前的主题,其中的信息可能已经有所发展或是发生改变。

    神采采集器,软件体积很小、无需安装

    1、支持智能采集(不用配规则)、可视化采集配置(不用看源文件)

    2、支持导出到 MySQL、SQL Server、Oracle、Excel、Access

    3、支持二次开发、调用自己的算法

    下载地址(左上角下载):www.sensite.cn/bget

    与各位一样,也是一个码农。各位兄弟如果遇到使用问题,或二次开发问题,可留言给我,一起交流学习。

    23 条回复    2017-06-20 07:04:43 +08:00
    mikulch
        1
    mikulch  
       2017-06-09 01:16:55 +08:00
    界面太丑了。请个 UI 这么难吗?
    还有为啥没 mac 版啊
    bget
        2
    bget  
    OP
       2017-06-09 03:25:35 +08:00
    @mikulch 请不起 UI 啊。。mac 版目前没有的,不会写 iOS 的代码。。你可以装双系统啊? 一个 win7,一个 iOS。。
    cctrv
        3
    cctrv  
       2017-06-09 06:02:28 +08:00
    這樣的界面。
    Mac 用戶路過。
    我寧願自己用 Python 寫一次。
    zetary
        4
    zetary  
       2017-06-09 08:42:14 +08:00
    审美确实硬伤…
    ye10010
        5
    ye10010  
       2017-06-09 10:55:11 +08:00
    这界面也不错啊,标准的 win 风格.
    问下 LZ 免费版本有什么限制?也支持二开吗?
    yjxjn
        6
    yjxjn  
       2017-06-09 11:41:14 +08:00
    楼主棒棒哒!

    但是这个网址前端。。。感觉是 XP 时代。。。哈哈哈,稍微改点 CSS,会好很多啊。
    bget
        7
    bget  
    OP
       2017-06-09 12:48:59 +08:00
    @ye10010 没有太多的区别,例如导出条数没有任何限制,商业版本主要是帮用户做二次开发。都是支持二次开发的,有现成的接口( IBget.dll ),如果有需要,去网站加我 QQ,我发一个 DEMO 代码给你。。
    oiken
        8
    oiken  
       2017-06-09 15:23:19 +08:00
    下载来试用了一下从聚合阅读网站抓取文章,结果还是很不错的。界面还好啦,容易上手是关键。 @bget 帮助信息是否可以多加点实例,我看了帮助文档没搞好,还是跑去看免费账号的例子才搞好了。另外采集时次序会影响到能否采集到内容,这个坑我是摸了一阵子才爬出来,可能需要在帮助文件里声明一下。你帮有需要的用户做二次开发,可能一时也就赚个辛苦费。我提个建议:可以考虑让用户设置试用条款后把他调试好的规则共享出来,其他用户可以通过送咖啡的形式进行鼓励,你的网站做个介绍页面和排行榜之类的,可以赚人气和佣金。做个能用的产品不容易,赞一个。
    bget
        9
    bget  
    OP
       2017-06-09 19:21:40 +08:00
    @oiken 谢谢 oiken。。采集规则使用前后标志时必须按顺序,这个在鼠标放到“采集规则列表”时会有 ToolTip 提示,我会再写到明显的位置,例如在“入门采集示例”中用粗体标出。规则市场这个建议非常好,可能需要一种积分制,我觉得可以理解为:让有需求的神采用户,方便找到另一些神采用户做规则或二次开发。
    oiken
        10
    oiken  
       2017-06-10 09:27:11 +08:00
    @bget 客气了。规则市场是聚集人气,让一般需求不必重复劳动,过滤出来的重型用户自然会找你做更有价值的二次开发。这行业不容易,但生意各人做,你加油。另外我想问问如何设置登录账号和密码,有一些网站会要求你登录后才能看到更多的页面。
    oiken
        11
    oiken  
       2017-06-10 09:34:59 +08:00
    我看到规则的设置页面:常规设置-》网站登录 这里是灰掉,不知如何打开。是付费版本才能设置的吗?
    oiken
        12
    oiken  
       2017-06-10 09:38:16 +08:00
    是的,是我没仔细看 ToolTip,提示方面你做的挺好了。
    bget
        13
    bget  
    OP
       2017-06-10 18:50:30 +08:00
    @oiken 请加我的 QQ (网站第一个 QQ ),告诉我你是 oiken 就可以。我们一起交流一些技术问题。

    另外,软件今天升级了:
    1、优化了历史记录功能,可批量进行启用、禁用操作,以及只有请求成功后再入历史记录列表(之前是提取网址时)。
    2、可标记“任务不可用”,方便团队协作。例如网站改版后,使用者把任务标记一下,由其它技术人员负责修改任务。
    3、修复 bug:任务队列中,任务排队运行时,软件窗口总是抢焦点。
    iszero
        14
    iszero  
       2017-06-11 05:44:26 +08:00 via Android
    喜欢这种简朴的界面
    Damaidaner
        15
    Damaidaner  
       2017-06-11 07:32:11 +08:00 via Android
    界面还好,感谢分享
    eseeker
        16
    eseeker  
       2017-06-11 10:28:15 +08:00
    现在的人就是矫情,这界面有什么不好,XP 时代不大多这样的界面么,好用才是王道。
    lixuda
        17
    lixuda  
       2017-06-11 19:32:48 +08:00 via Android
    不错,以后会开源吗
    bget
        18
    bget  
    OP
       2017-06-12 01:34:20 +08:00
    @lixuda 我目前努力的方向是,帮用户解决问题,给用户带来好的体验。。神采有成熟的二次开发接口,目前有 20 个接口,分布到不同的环节,例如:加载入口 URL ( URL 中,可带搜索关键词)、请求 URL、采集、发布、过滤数据、下载文件等,如果深入研究一下,几乎可以重写一个爬虫。有需要的话,可以去网站加我 QQ,我发二次开发的 DEMO 代码给你( C#代码)。或者等我整理好 DEMO 代码,发布到这里。
    NaVient
        19
    NaVient  
       2017-06-12 09:39:17 +08:00
    @bget 看到郑州大学新闻网, 难道跟楼主是校友?
    bget
        20
    bget  
    OP
       2017-06-12 14:38:43 +08:00
    @NaVient 貌似跟代码无关。。
    lixuda
        21
    lixuda  
       2017-06-12 16:28:22 +08:00 via Android
    要注册才能用?如果万一楼主网站不继续了。这个软件就无法打开?
    bget
        22
    bget  
    OP
       2017-06-12 19:43:24 +08:00
    @lixuda 是的,要注册的。。如果网站不继续,可能是因为我被饿死了。。所以为了避免楼主被饿死,你要支持一下下。
    bget
        23
    bget  
    OP
       2017-06-20 07:04:43 +08:00
    昨天发布了一个新版本( V6.1.22 ),修复了几处 bug:
    1、修复 bug:在 win2003 或 win7 经典主题下,加载任务时,进度条有时会卡死。
    2、修复 bug:winxp、win2003 上打不开内置浏览器,影响可视化采集、登录采集、捕获 POST 参数等。
    3、修复 bug:配置文件( Config.xml )和历史记录( HistoryUrls.xml )中,如果时间带有汉字(如“周六”),会加载失败。
    4、修复 bug:个别机器,检查更新时出错 Identifier '口' is not CLS-compliant parameter name: ident
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1029 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:19 · PVG 06:19 · LAX 14:19 · JFK 17:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.