V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
linkbg
V2EX  ›  Python

Python 操作大文件更新 MongoDB 的操作

  •  
  •   linkbg · 2017-04-04 15:52:51 +08:00 · 2653 次点击
    这是一个创建于 2809 天前的主题,其中的信息可能已经有所发展或是发生改变。

    题目的表达可能有些问题。 情况是这样的: 现有已经存在大量数据的 MongoDB 集合,现在要添加一个新的字段,然后这样字段的值来自于一个 json 文件。不过这样文件特别大( 4.5G )在使用 Python 中 json 的 loads ()来操作会卡死,因为 12G 的内存更本弄不了。我还想过 split 来处理 json 文件,但是生成的文件太多,造成在遍历文件的时候卡主了。 至于为什么不用 MongoDB 自带的处理 json ,是因为 json 有些字段不需要。

    不过我想想,目前要是能导入进去就可以了。

    问题就是怎么去更新呢?

    谢谢

    8 条回复    2017-04-04 18:36:35 +08:00
    minvacai
        1
    minvacai  
       2017-04-04 16:24:26 +08:00 via Android
    这个不太懂,不过如果没有其它好办法的话能不能用 MongoDB 自带的先导入到一个临时库里再去掉不需要的部分?
    hareandlion
        2
    hareandlion  
       2017-04-04 16:45:38 +08:00
    使用游标读取数据,手动设置一次更新的数据条数,时间换空间,另外这种可以考虑一下协程或者多进程操作的吧?
    golmic
        3
    golmic  
       2017-04-04 17:08:35 +08:00
    你这问题应该和 mongodb 无关吧,主要问题是如何用 python 操作大的 json 文件读写数据
    crayygy
        4
    crayygy  
       2017-04-04 17:12:33 +08:00 via iPhone
    之前遇到过类似的问题,从一个超大的文本文件倒入到数据库,比你这个还大, 10G 每个文件,本来用的 mongodb ,测了一次以后我转到 postgresql 去了……
    oulongqi
        5
    oulongqi  
       2017-04-04 17:33:53 +08:00
    MongoDB 有 aggregate pipeline / bulk 操作, up 可以查一查
    wangxn
        6
    wangxn  
       2017-04-04 17:40:13 +08:00
    不生成文件对应的 JSON 对象,直接解析 .json 文件,使用正则表达式或者其他什么手段来提取数据。
    billlee
        7
    billlee  
       2017-04-04 17:51:27 +08:00
    你是说用 split(1) 处理?如果可以用分行处理,那也可以直接用 python 的 for line in file_object 来逐行处理啊
    cxbig
        8
    cxbig  
       2017-04-04 18:36:35 +08:00
    既然 Python 都参与了,没有对数据做 pagination 么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5039 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 08:27 · PVG 16:27 · LAX 00:27 · JFK 03:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.