我们在项目上放置了一个工控机,上面部署了一个 Java 服务,用于接收项目上 200 个左右摄像头的 http 请求信息,然后 Java 服务接手以后,进行相应处理,最后通过 tcp 发送到我们的云端系统。每个摄像头的请求频率为三十秒一次。tcp 消息发送为五秒一次。
部署初期没有问题,运行三四个月后,偶尔会出现摄像头推送到工控机的 http 请求延迟非常大,甚至有些会达到 http 请求后过了五分钟,Java 服务中才打印出相应日志。目前,这个问题出现的频率越来越高。并且伴随着这个问题,还发现了一些其他问题。如:
1
Mianmiss 216 天前
1 、http 请求延迟时间有特征吗? 比如在每天的几点左右,延迟时间段大概多久?
2 、机器的网络是否正常,网线是否有问题,WiFi 是否稳定。 3 、工控机资源图 是出现异常情况的吗? 感觉也不高。 建议是在异常时间 tcpdump 抓个包看看。 |
2
defunct9 216 天前
开 ssh ,让我上去看看
|
4
gkair OP @Mianmiss
1 、目前未发现任何特征,延迟无规律。 2 、网络正常,网线正常,未使用 wifi 。 3 、是,这个工控机只有这么几个服务,资源占用其实很低。 另外,目前的情况是,网络延迟现象较之前变得频繁;但是这个工控机操作的迟钝感一直存在,无法通过重启来缓解。 |
6
Kinnice 216 天前
ip 冲突,
|
7
pota 216 天前
工控机重启时间非常长,大概 7.8 分钟 这条考虑是硬盘问题?
|
8
ruidoBlanco 216 天前 1
CPU 内存都没有压力,load average 很低,所以我猜想 IO delay 也应该可以忽略不计。
那么问题在大概在网络层面了。 网络而言,需要看的就挺多的。是我的话,首先会看下面这几个地方,然后再缩小范围 ethtool -S <网卡>. # 网卡丢包,ring buffer ?你这个 irq 不大可能了 /proc/net/softnet_stat # 第二三列有没有数字很大? netdev_budget 不够? netstat -s # tcp exception ,会不会是 socket buffer ? ss -ntmp 怎么说? 几句话说不清,每次弄起这些来我自己也得再查。 还有可能就是你有内核报错,网卡驱动有问题啊什么的,看日志就可以发现了。 |
9
hingle 216 天前
1. MAC 地址重启后是否会变
2. 系统时间是否正常 |
11
gkair OP @ruidoBlanco 首先,感谢这位老哥提出的思路。但是,我们俩软件开发实在是搞不了这种专业性很强的问题排查,我们公司又没有这种专业的底层运维人员,我只能说先尝试一下吧。不行的话也不费力气了,直接换个新的工控机跑跑再看看吧。
|
12
gkair OP |
13
crc8 216 天前
换工控机
|
14
Immunize 216 天前
reboot 都不响应,机器坏了吧....dmesg 有错误信息么,跑一跑 MEMTEST 看看内存是不是有问题?
|
15
sinx003 216 天前
我们最近有个类似的问题,也是一开始运行咩有问题,最近才出现.最后排查了好久,发现是硬盘速度太低导致的,我想你接受这么多的数据,硬盘读写的数据少不了,建议检查一下硬盘速度
|
16
Richared 216 天前 1
朋友之前加盟在线教育,后来总部倒闭了,他从别的渠道搞来课程,我们几个发小帮忙搭建了一套服务,服务器部署在教室,后来莫名其妙网络延迟,卡顿,接口超时。ssh 进不去,因为我们不在现场,看不到机器的情况,每次都是重启解决,后来去了他那才知道,这哥们给服务器锁在了一个箱子里。运行一段时间过热 cpu 降频。。。
|
17
dode 216 天前
这些摄像头划分 vlan 隔离了吗
|
18
dode 216 天前
感觉工控机设备有问题吗,硬盘状态,网络占用,USB 接口
|
19
a0xbd4CX0DHC1EuT 216 天前
@gkair ssh 连接等待时间非常长,1.2 分钟,这个我遇到过,/etc/ssh/sshd_config 改成 UseDNS no GSSAPIAuthentication yes ,然后 systemctl restart sshd.service 重启。
|
20
Mandy0 216 天前
网卡芯片是什么型号,某些 Intel 在 Centos 上兼容会有问题,内核版本太老导致的
|
21
xiaoranj 216 天前
如果排除掉网络问题的话,有点像硬盘快坏了或者过热导致的
|
22
gkair OP @sinx003 其实我们接受的数据主要在 Java 程序中就处理完成了,完成之后暂存一点统计信息到 redis ,然后就是每隔几秒通过 tcp 发送给业务系统了。基本上没多少磁盘读写。
|
23
gkair OP @crc8 已经准备换了,到时候重新刷一下系统。
@ukec 目前是这样的 #UseDNS yes 该行目前为注释状态 GSSAPIAuthentication yes @Immunize https://img2.imgtp.com/2024/05/09/3ux2L21U.png 看着好像一堆错误。 |
24
a0xbd4CX0DHC1EuT 216 天前
@gkair #UseDNS yes 要取消注释并改成 no ,重启 sshd 服务
|
25
hahahahahahahah 216 天前
感觉是硬件出问题了
|
26
iloveayu 216 天前
综合分析应该是磁盘的问题
|
27
hefish 216 天前
别猜了,硬件问题, 换新之后故障消除。
|
28
stcQ2G13k9yxep40 216 天前
free -h ,top 看下,大概率是 CPU 资源消耗殆尽了。我遇到过好几次类似的情况,ssh 连接非常非常慢,经常断,有时候还会报错 fork:retry:Resource temporarily unavailable ,基本上系统资源不足造成的。硬重启以后,问题解决。
|
29
gordon96 215 天前
ssh 慢可能 dns 问题,我记着之前遇到过类似
|