V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
V2EX  ›  Telegram

Telegram 的网页主要内容提取真是一个黑科技

  •  1
     
  •   Livid · 2015-06-07 12:18:49 +08:00 · 9905 次点击
    这是一个创建于 3476 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家可以试试把各种链接(微博,Twitter,V2EX……)发到聊天框里,Telegram 似乎总是可以提取到页面上最重要的内容。
    16 条回复    2015-06-08 00:46:25 +08:00
    hjc4869
        1
    hjc4869  
       2015-06-07 12:24:53 +08:00
    自己试了一下,这个是在服务端采集的,所以具体细节无从得知了。。
    oott123
        2
    oott123  
       2015-06-07 12:32:26 +08:00 via Android
    这算法不难吧,Readability 啊 Pocket 之类的不就有类似的嘛。
    isaced
        3
    isaced  
       2015-06-07 12:33:09 +08:00
    真厉害,试了下 cnBeta、36Kr、SegmentFault,甚至连我一个人博客随便一篇文章都能识别出来...
    wy315700
        4
    wy315700  
       2015-06-07 12:35:27 +08:00
    这不就是搜索引擎的技术吗,
    also24
        5
    also24  
       2015-06-07 12:36:36 +08:00
    以前似乎是直接抓取 description 的,不知道现在是怎样
    Livid
        6
    Livid  
    MOD
    OP
       2015-06-07 12:39:28 +08:00
    @also24 谢谢提醒,我找一些没有 desc 的页面试试。
    Livid
        7
    Livid  
    MOD
    OP
       2015-06-07 12:42:05 +08:00
    好吧,看起来,确实和 desc 有关系:

    http://vagabond.github.io/rants/2015/06/05/a-year-with-go/
    czheo
        8
    czheo  
       2015-06-07 12:46:57 +08:00
    @also24 现在好像也基本上是这样
    Laforet
        9
    Laforet  
       2015-06-07 14:59:27 +08:00
    现在机械语义分析可用性已经很高了,比如下面这个bot

    https://www.reddit.com/user/bitofnewsbot

    还有上次推特财报被提前公布也是用了爬虫+语义分析,跳过人工审阅直接发新闻。
    xhacker
        10
    xhacker  
       2015-06-07 15:09:39 +08:00
    @also24 @Livid: desc 是什么?
    binux
        12
    binux  
       2015-06-07 15:21:17 +08:00
    xhacker
        13
    xhacker  
       2015-06-07 15:26:26 +08:00
    @orzfly: 比如我在单条推的页面没有看到这个 attribute 啊……
    icedx
        14
    icedx  
       2015-06-07 17:30:11 +08:00 via Android
    Verizon 家的Message+ 表示不服
    inmyfree
        15
    inmyfree  
       2015-06-07 23:59:55 +08:00
    哈哈,推荐我写的一个小东东哈,基于readability
    比如我的一个[博客](http://www.mk5i.com/opensource_workplan/)
    [效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/)
    [开源项目git地址](https://github.com/inmyfree/readability)
    0x17e
        16
    0x17e  
       2015-06-08 00:46:25 +08:00
    新闻类的页面的正文提取是最简单的,包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX,如果能把每个回复都单独提取出来合并成正文,那么才算是厉害的算法,可惜目前主流的笔记软件好像还没有这样的功能,除了某些采集软件。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   978 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 18:51 · PVG 02:51 · LAX 10:51 · JFK 13:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.