新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 2181 天前的主题，其中的信息可能已经有所发展或是发生改变。

要求不解压,直接读取,而且需要按压缩包内文件目录分层分区,求大神解疑

读取

文件

hdfs

tar

8 条回复 • 2018-12-14 20:55:00 +08:00

luny

2018-12-14 10:12:35 +08:00

不懂 spark 和 hdfs，但是觉得这个需求和 2 者没有关系，应该是自行实现的。
比如找到 tar.gz 文件，用 tar tf 可以遍历内容。

capric

2018-12-14 10:33:54 +08:00

https://stackoverflow.com/questions/36604145/read-whole-text-files-from-a-compression-in-spark

douglas1997

2018-12-14 10:43:46 +08:00 via iPhone

用类似 mxnet 的 rec 吧

qqq8724

2018-12-14 11:16:48 +08:00

@capric @douglas1997 @luny 感谢你们的回答这个需求是确实要用到 spark 和 hdfs 的目前看来#2 的回答很接近,正在分析：)

fxxkgw

2018-12-14 11:46:04 +08:00

我碰到一个问题，hdfs 挂载到本机目录，python 起多进程，读 hdfs 下一个简单的文件，有概率导致挂载的 hdfs 进程占用 CPU 100%, hdfs hang 住。

kex0916

2018-12-14 13:49:24 +08:00

要按照压缩包文件目录分层分区要在 driver 侧就能拿到目录结构然后划分 partitions,然后每个 partition 读取该目录下的数据，但是压缩文件默认一般都是不 splitable 的，每个 partition 读取的时候也得完全解开后读取该分区的指定目录，这样各个分区都会有重复的工作。我建议是:
driver 侧将 tar.gz 先解压到临时目录，多个压缩文件可以按文件路径下发 task 来分布式解压，得到解压后的临时目录后，自己重写 FileInputFormat 来划分 split 然后采用 newAPIhadoopRDD 或者自己实现 RDD，按照临时目录下的目录来划分分区，执行完后把临时目录删除。
至于你说的不解压直接读，只要读还是得解压吧，可能只是在内存中完成解压而没有写到磁盘上。

qqq8724

2018-12-14 18:05:39 +08:00

@kex0916 哈哈,又是你，我上一次问的问题你就回答过，很感谢，你这个方法很有道理，我会试试的

kex0916

2018-12-14 20:55:00 +08:00

@qqq8724 😀