基本情况: 1. 数据量 TB 级 数据基于 HTTP 协议、KAFKA 、日志文件等方式进行传输(暂不考虑直接从数据库等存储中抽取数据的情况) 2. 数据格式可能是 Json 、syslog 、xml 、有固定格式的文本日志如 Nginx 日志 3. 编程语言 Python(能力所限,大佬勿喷,可拓展), 中间件是开源就行 需求: 1. 可以通过编写配置文件的方式,对异构数据进行采集及格式的统一化。 2. 对上一条的补充说明,实际工作中需要对接的设备会比较多,并会在未来的时间里对接很多的不同种类的设备。所以现在希望写一套能减轻这部分工作成本的代码 /系统。
跪求思路,请大佬们不吝赐教 祝身体健康,工作顺利!
1
ursash 2021-03-21 21:26:18 +08:00
datax,flinkx,nifi ?
|
2
zagfai 2021-03-22 00:13:20 +08:00
TB 算啥量级。。。随便来个 txt 都能完事
|
3
whenov 2021-03-22 00:22:25 +08:00 via Android
对于配置文件的规范,以及统一化的格式,要记得做版本控制
|
4
c6h6benzene 2021-03-22 08:56:25 +08:00
听起来就是个 ETL 的过程……
|