V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
macroideal
V2EX  ›  程序员

有 10T+的数据, 怎么对其做一个搜索引擎

  •  
  •   macroideal · 2017-03-21 10:13:47 +08:00 · 5000 次点击
    这是一个创建于 2816 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在初步是 50T 的数据存在 Mongodb 里, 数据都是统一结构, 现在要对这些数据做一个搜索引擎, 有什么好的方案? 问题比较笼统哈.

    20 条回复    2017-03-21 23:00:48 +08:00
    liangdi
        1
    liangdi  
       2017-03-21 10:15:05 +08:00
    murmur
        2
    murmur  
       2017-03-21 10:17:15 +08:00
    es 或者 lucene 是全文索引,结构化搜索不太适合,我记得我当年用这类索引的时候所有字段都被转成字符串了,现在估计会好些
    LeeSeoung
        3
    LeeSeoung  
       2017-03-21 10:18:00 +08:00
    es 分布式
    Zuckonit
        4
    Zuckonit  
       2017-03-21 10:19:38 +08:00
    es ,最好的选择
    iot
        5
    iot  
       2017-03-21 10:22:22 +08:00
    es+1
    misaka19000
        6
    misaka19000  
       2017-03-21 10:34:09 +08:00
    请问一下楼上各位, es 该怎么学啊?文档看得我好晕的说😢
    server
        7
    server  
       2017-03-21 10:35:52 +08:00
    es 有支持 mysql 语法插件
    laxenade
        8
    laxenade  
       2017-03-21 10:55:21 +08:00
    竟然没有人提 solr 真是江河日下啊
    LeeSeoung
        9
    LeeSeoung  
       2017-03-21 11:21:43 +08:00
    #8 说完 es 想说 solr 的给忘了哈哈
    slixurd
        10
    slixurd  
       2017-03-21 11:33:33 +08:00
    @murmur 自行配置 Schema 就行了...
    如果没有配置 Schema,它会自动根据第一个写入的 Document 去猜...
    猜错了那也是没办法的事情...
    不过在结构化查询上的确效率不算太好,至少比常见的关系型数据库慢一个量级....
    PythonAnswer
        11
    PythonAnswer  
       2017-03-21 11:56:55 +08:00
    顺便问下, kibana 有办法呈现 field 中的 html 吗?

    es 有没有能呈现 html 的 gui ?懒得自己实现了。。。
    murmur
        12
    murmur  
       2017-03-21 12:41:19 +08:00
    @laxenade 用 solr 不如直接上 lucene ,更 geek ,可以从底层玩出花
    byfar
        13
    byfar  
       2017-03-21 12:48:38 +08:00
    sphinx 不能吗
    artandlol
        14
    artandlol  
       2017-03-21 15:00:10 +08:00
    京东的数据?
    foo2bar
        15
    foo2bar  
       2017-03-21 16:15:37 +08:00
    elk
    foo2bar
        16
    foo2bar  
       2017-03-21 16:16:48 +08:00   ❤️ 1
    fuxiaopang
        17
    fuxiaopang  
       2017-03-21 16:19:05 +08:00 via iPad
    zacard
        18
    zacard  
       2017-03-21 16:52:02 +08:00
    elasticsearch
    sunsulei
        19
    sunsulei  
       2017-03-21 16:57:36 +08:00
    @artandlol 搞事情搞事情。
    lyram
        20
    lyram  
       2017-03-21 23:00:48 +08:00
    数据结构统一的情况下, 10T 的数据用 ELK 还行,在硬件资源有瓶颈限制的情况下,比 ELK 好玩的还有 Hadoop 之流,当然还是要自身的场景需求来调整~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5731 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 02:54 · PVG 10:54 · LAX 18:54 · JFK 21:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.