1
qiyilai 197 天前 1
数仓用 doris
|
2
SbloodyS 197 天前 1
一般衡量的标准有预算、数据团队大小、业务体量(数据量)、需求,有了这些才好进一步评估
|
3
NoobPhper 197 天前 1
tdengine 不是时序性数据库吗, 轻量级 OLAP 应该能做, 但是稍微复杂点的这玩意不好做, 不要把架构整这么复杂, 如果是云上服务的话 建议 买云服务, 因为现在的 无论是 HTAP Database 还是纯 OLAP database 如果自建 , 运维(安全稳定)都是极大的心里负担
|
4
hero1874 197 天前 1
我看 tdengine 也是针对物联网的,也许会比较契合你们物联网数据中台的业务,但还是像 2 楼说的那样才更好评估,如果你们没有实时性的要求,其实也没太大必要投入服务器成本和运维成本去搞一套 flink 集群,用 dolphinscheduler 海豚调度去配合 datax 其实也是可以的,如果没有对时序数据库的需求,可以调研看下 doris 和 starrocks ,起码这两个运维会好很多
|
5
RedBeanIce OP |
6
RedBeanIce OP @qiyilai 好的!我去和领导聊一下,,,目前定的是 td
|
7
RedBeanIce OP @NoobPhper 预算约等于无,都是自己搭建的。
|
8
jiakme 197 天前
1. 梳理需求背景和当前现状:a. 人员素养 b. 数据量,冷热情况,TPS/QPS c. 未来数据清洗情况
|
9
jiakme 197 天前
1. 梳理需求背景和当前现状:a. 人员素养 b. 数据量,冷热情况,TPS/QPS c. 未来数据清洗情况,数据分析维度 d. 当下硬件条件,网络情况,技术栈
2. 结合前述条件分析引入技术栈情况:如果数据局部热,大部分冷,完全可以采用冷数据写入方式,只要有一个热点数据接收即可,无须引入 cdc ; TPS 和数据量少,直接用 mysql 抗,高版本 mysql/pgsql ,简单数据 TPS 200 ,几千万数据量随便用;中间件需要取舍一下轻量级和重量级,flink cdc 比较轻量,可以直接内嵌 springboot 使用,无须作为 flink task 集成,datax 有点重 3. 编写 demo ,流程可行性确认,成本确认 4. 方案实现和上线 |
10
xueling 197 天前 1
你说的物联网的数据中台,我觉得应该有两方面作用:1 是物联网设备上报的原始消息的读写,2 是相关数据指标的统计监控,我觉得第一部分的功能选择时序性数据库还可以,但第二部分的功能其实很牵强,虽然时序数据库也可能有这方面的功能,但性能不会很强。我建议您了解一下我的开源项目: https://github.com/xl-xueling/xl-lighthouse ,虽然是大数据项目但后期维护其实非常简单。支持一键部署、数据自动备份、可以灵活扩容,轻量级使用,可以快速实现大批量数据指标。
|
11
xianzhe 197 天前
不要 ALL in 一个地方,物联网数据上报和分析显然一个写入要求高,一个读取要求高,没有哪个数据库能做到既要又要的。你应该选择一个写入很快的数据库,LSM 类型的都可以,这里面保存原始数据。数据通过 ETL 后存入另一个 OLAP 数据库,这样起码做到了读写分离。
|
12
zhonj 197 天前
@RedBeanIce #7 优化一个开发,你就会发现服务器有丰富的预算了,每个月 2 万块钱投入云服务器,速度不仅块,服务也有保障🤣,很多东西直接一把梭就好了,系统复杂性,可维护性都会有很大的提升😊
|
13
RedBeanIce OP @xueling 非常感谢!我去试试!
|
14
RedBeanIce OP |
15
RedBeanIce OP @zhonj ~~~~~
|
16
haimianbihdata 197 天前 via Android
@qiyilai 物联网这块应该用的比较多的是一些时序数据库吧。doris 在这一块也好使吗?
|
17
levelworm 197 天前 via Android 1
业务上数仓的需求是啥?选型和开发都是跟着需求走。
|
18
humbass 196 天前
redis 队列缓冲下 --> TDEngine.
|
19
kk2syc 196 天前
先考虑 raw_data 统一格式存储,确保不会漏掉任何一条上报数据。那么,剩下的都是小事情,哪怕不同需求、不同团队甚至不同数据库重构都可以。
|
20
RedBeanIce OP @levelworm 如 append 所示
|
21
512357301 196 天前 via Android 1
只说一句,免费 0 预算不建议用国产,因为使用体验并不好。。。(文档缺失或不通顺,使用案例少)
0 预算建议用国外的,或者行业热门的,资料、文档多的。 |
22
ZGame 196 天前
相比较时序数据库 我觉得关系型数据库+es 缓存 这种更方便把...
|
23
Dream95 196 天前 1
没有信创要求,Postgresql+Timescaledb 吧更省事
|
25
brant2ai 196 天前 1
TDEngine 只适合存放数据,到使用的时候还是需要 OLAP ,TDEngine 不太适合查询
|
26
NoobPhper 196 天前 1
@RedBeanIce 看你的需求 , 第一个需求只要迁移数据就好了, 数据体量 还有 前端业务 是影响数据库选型的唯一标准,
第二个需求, 前置套个队列, 然后写个程序 处理 后转成 metrics , 放到 prometheus , 然后 配合 grafana embed dashboard ,你们前端开发量都能省一大半 |
27
hero1874 196 天前 1
@RedBeanIce #5 这样看的话,可以看下 doris starrocks ,当然如果没有时序相关需求,有的话,这俩就不大合适了
|
28
qiyilai 196 天前 1
@haimianbihdata 推测一下,这种类似的项目一般都是对接多种数据源,数据处理后展示在大屏,或者对接 bi ,以及做机器学习,数据挖掘分析之类的;会涉及到复杂的聚合查询,td 适合去对接传感器数据的存储,不适合做为数仓使用
|
29
Karte 196 天前 1
td engine 虽然是很适合物联网数据, 但是极其不稳定, 很不推荐. bug 没人修, 版本升级问题, 驱动问题.
|
30
raywong 196 天前 1
自建投入生产使用过一段时间的 TD ,当时使用的版本是 3.0.2.x ,碰到过好几个问题:
1. 乱序、重复写入数据会导致性能下降 2. 业务上是在 TD 的子表查询,某些子表出现过以下问题: - 由于数据涉及到更新(覆盖写入),导致数据无法查询最新状态 - 查询总数量 COUNT(*) 失败 3. 3 个节点的集群出现过宕机,集群无法恢复工作 4. 数据设置了 TTL 后只是逻辑删除,数据还是保留在磁盘上,需要手动执行命令才会清空磁盘 ----------------------------- 以上问题目前最新版本可能已经修复了(未关注)。由于是自建集群,碰到问题后只能升级版本解决,但是线上环境升级数据库是个风险很大的操作,而且不可能每次一有问题就升级版本,折腾了一段时间最后还是停用了 TD 。 选择什么数据库要考虑数据类型、数据量、数据写入、查询方式以及运维成本,如果 OP 想要自建,考虑好遇到问题要怎么升级版本。 |
31
tuotuolala 196 天前
交给乙方
|
32
MoYi123 196 天前 1
反正数据量这么小, 不如在 mysql 和 postgresql 里挑一个, 可以保证在数据库上一定不会出问题. 能用的工具也很多.
|
33
janus77 196 天前
只查询不修改?我觉得这个需求后期大概率会变。我建议用主流的 mysql 。各种 feature 成熟,后期扩展性高
|
34
QWE321ASD 196 天前 1
不可能不修改,我们也做过类似的,经常因为一些原因要修改数据
|
35
QWE321ASD 196 天前 1
我们懒得搞那么复杂,就单纯一个 mysql 然后同步到 clickhouse 里面,一年多没事
|
36
xuhui54 196 天前
先评估数据体量,qps ,数据情况、业务情况,再定技术。
|
38
yinxs2003 196 天前 via Android
Datax 可以,挺稳定的,优势是不用开发,多种数据源接入数仓。td 没听过估计不太行。看你提到数据接入,那估计就得在 hive clickhouse es 这里选型
|
39
VoiceEXONE 196 天前 via iPhone 1
如 append2 中的需求,你会选择直接拉取 TD 或者 influxdb 中的数据做分析还是 先把这些数据转存 OLAP ( postgresql )进行分析?
|
40
yinxs2003 196 天前 via Android 1
同意楼上,如果量不大,一个 clickhouse 是不是就能搞定
|
41
RedBeanIce OP @VoiceEXONE 猜想的是,直接查询 td 数据,然后进行数据分析。
|
42
hero1874 196 天前
@yinxs2003 #40 楼主公司在运维投入不会太多,clickhouse 要考虑运维啥的,我们从 clickhouse 转 doris 其中一个原因就是 clickhouse 运维的问题
|
44
yinxs2003 196 天前 via Android
@RedBeanIce 数据分析不都是 hive 吗?难道还有别的选择……
|
49
yinxs2003 196 天前 via Android
顺便说一句,可以考虑 mongo 集群,这个作为成本应该比较低,数据量千万级别应该可以支撑,我猜的
|