V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
monway
V2EX  ›  数据库

求教 V 友一个关于大量数据导入及查询的问题

  •  
  •   monway · 2017-12-25 18:53:19 +08:00 · 1294 次点击
    这是一个创建于 2536 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有个 txt 大约 5G 左右,差不多有 1 亿多条数据,数据的格式为

    2312313 123123123 1231231 qqqqqqq iiiii 1111111

    请问大神们使用什么技术能实现快速导入及查询呢,需要模糊查询。。。(个人 PC 机处理( mac pro )) 集群什么的搞不起。。。。

    15 条回复    2017-12-26 11:41:52 +08:00
    linuxchild
        1
    linuxchild  
       2017-12-25 19:01:40 +08:00
    分割了然后导入数据库?

    或者单机 spark ?
    stiekel
        2
    stiekel  
       2017-12-25 19:39:11 +08:00 via Android   ❤️ 1
    用 elasticsearch 吧,快速上手,查询也快。
    stiekel
        3
    stiekel  
       2017-12-25 19:39:39 +08:00 via Android
    导入有 logstash。
    gouchaoer
        4
    gouchaoer  
       2017-12-25 19:56:53 +08:00 via Android
    5 个 g 而且才一亿条数据,单机 mysql 随便搞
    gouchaoer
        5
    gouchaoer  
       2017-12-25 19:57:32 +08:00 via Android
    模糊查询扫表也能扫完吧
    zhx1991
        6
    zhx1991  
       2017-12-25 22:32:22 +08:00
    es 应该可以
    likuku
        7
    likuku  
       2017-12-26 02:06:55 +08:00
    mac pro 有 16G 内存呢,5G 全放内存了事。
    monway
        8
    monway  
    OP
       2017-12-26 09:24:25 +08:00
    @stiekel 谢谢,我试试
    monway
        9
    monway  
    OP
       2017-12-26 09:24:41 +08:00
    @likuku 以后还有数据呢
    monway
        10
    monway  
    OP
       2017-12-26 09:24:58 +08:00
    @gouchaoer 导入进数据库太慢
    monway
        11
    monway  
    OP
       2017-12-26 09:28:12 +08:00
    @zhx1991 试试,谢谢
    annielong
        12
    annielong  
       2017-12-26 09:35:03 +08:00
    仅仅导入应该快,我现在遇到一个每一条记录要先查询 3 个不同表,如果不存在还要保存 3 次,速度根本提不上去
    2ME
        13
    2ME  
       2017-12-26 09:47:57 +08:00
    txt 分割 分割的区块拼接 sql 直接批量插进去 速度挺快的 确实是单机 mysql 随便搞
    gouchaoer
        14
    gouchaoer  
       2017-12-26 10:27:21 +08:00   ❤️ 1
    @monway 你直接插入才 5 个 G 的数据很快的啊,用 batch insert 啊
    idcspy
        15
    idcspy  
       2017-12-26 11:41:52 +08:00
    请问有不用数据库的方法没,查询速度慢点都行,导入整理太繁琐了,有个火眼金睛大数据,不过限定了特定行业才能试用。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5699 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 03:02 · PVG 11:02 · LAX 19:02 · JFK 22:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.