本地百万级别小文件存储有什么优化空间吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 967 天前的主题，其中的信息可能已经有所发展或是发生改变。

存储的内容全部是图片，每张图片大约 100kb ，目前磁盘使用的 1T 的三星 SSD 硬盘，NTFS 格式。

目前问题

1 、Windows 操作系统根本打不开文件夹

2 、Linux 系统执行不了 ls 命令，使用 Linux 桌面也进不去文件夹

注：

1 、为啥要存到本地

因为都是机器学习的训练集，存在本地才能读取

2 、为啥要打开文件夹

因为要做图片预处理，比如去背景这类似的操作，预处理完要大致浏览一般所有样本

3 、为啥不使用 xxxx

因为不打算改代码，目前代码全部都是直接读磁盘文件，换一下存储方案改动非常多（真的非常非常多，图片预处理脚本就有几十个，然后是各种训练脚本，再加上各种测试脚本）

脚本

文件

Linux

图片

18 条回复 • 2022-04-13 19:47:15 +08:00

murmur

2022-04-12 11:31:39 +08:00

为啥不分层存储呢分三级，建子文件夹，到时候遍历进去就可以啊

OysterQAQ

2022-04-12 11:33:15 +08:00 via iPhone

Minio

3dwelcome

2022-04-12 11:36:11 +08:00 via Android

同楼上，用 hash 头分组文件夹就可以了。
web 后端的附件图片上传文件系统，大多都是这种结构。

LeslieLeung

2022-04-12 11:36:34 +08:00 via iPhone

满足不了打开文件夹预览的方法我倒是想到一个，用 pickle 存，然后封装读写方法给训练和测试脚本，代码改动不大。（这个方法减小了碎片化读取，能节省读取时间）

dickie

2022-04-12 11:37:58 +08:00

其实百万不算多问题是你没有分文件夹分三层一层十个文件夹能解决

dickie

2022-04-12 11:41:42 +08:00

然后的话其实改存储如果代码变动很大那是代码的问题不管从本地还是网络存储读完文件应该统一，面向接口而不是面向具体

ClericPy

2022-04-12 11:49:00 +08:00

1 、为啥要存到本地

这个问题前面有人提到 minio 搞个对象存储其实改动不大, 不过既然已经选了本地文件还不想动太多代码. 要么像前面说的文件夹分层, 做多层哈希前缀, 遇到文件夹里文件数量不均衡参考下环形哈希? 要么就先不动, 日常不要运行 ls. 很早以前工作存放视频本地缓存文件时候搞过类似的, 反正别轻易遍历(当时才四五十万就崩了)

2 、为啥要打开文件夹

预览就不要用系统自带的方式了, 自己搞个脚本取样几个文件可以么. 毕竟去背景时候是有日志的, 把文件名记下来, 逐行消费日志取样你想要的文件名, 然后直接把这些取样复制出来或者渲染到 HTML 里用浏览器看

3 、为啥不使用 xxxx

怕麻烦就别改. 反正原型项目确实奥卡姆剃刀没毛病, 以后正式环境再考虑复杂设计

总结就是, 想不花成本解决问题基本没戏, 绕开问题更换解决思路吧