记一次服务内存报警排查过程

曾经终败给现在 2023-07-04 14:02 82阅读 0赞

早上起来，看到群里机器人发的服务报警信息，仔细一看是自己负责的项目在报警，并且持续报警了20分钟左右

{“pod_name”:“xxxxxxx-xxxxxxx”} 最近3分钟求平均 >= 80.0, 当前值81.9331,
报警名称:生产环境_POD内存报警

可看出是内存报警，而不是CPU报警。所以要先确认一下内存占用情况和内存配置是否合理。

内存报警：比如一个请求上传的数据量太多会直接进到内存，我发上来1G的数据你就撑不住了

内存资源的配置为512MiB（request和limit一样），当时内存占用为483.62MiB。
接下来我们要分析为什么会有这样一波请求，确认是正常请求？客户端极端情况重复请求？坏人恶意请求？

正常请求？，因为这是凌晨3点，所以不应该有用户正常请求。
客户端极端请求？，和前端沟通了解到，确实在某种极端情况下会有重复请求，但是和这次报警的情况不同。
坏人恶意请求？，在分析了nginx日志后，可以判断是重客户端发起的请求。
查看日志中每个请求中的参数特点，继续分析请求的可能性
由于每个请求参数中都会带设备的唯一性标识，然后我取出所有的标识，去数据库查了标识的合法性。意外的发现这些标识所处的地理位置都是国外！然后恍然大悟。
得出最终原因

我们的终端，每天在晚上8点的时候会自动进行数据备份。之前已经用队列处理了北京时间晚上8点的请求。这次的报警恰恰是其他地区时区的终端在当地晚上8点发起的备份请求。由于终端数量不多，但是备份内容较大，导致内存报警。

发表评论取消回复

表情：

评论列表（有 0 条评论，82人围观）

还没有评论，来说两句吧...

相关阅读

相关记一次服务器内存报警的解决

服务器内存报警 * * 事件背景 * 查找报警内存 * 分析报警原因 * 问题解决 * * 补充： ...

以你之姓@/ 2024年04月18日 14:44/ 0 赞/ 178 阅读

相关记一次服务内存报警排查过程

早上起来，看到群里机器人发的服务报警信息，仔细一看是自己负责的项目在报警，并且持续报警了20分钟左右 > \{“pod\_name”:“xxxxxxx-xxxxxxx”\}

曾经终败给现在/ 2023年07月04日 14:02/ 0 赞/ 83 阅读

相关记一次内存溢出排查过程

有一个服务经常会停止服务，一开始没特别注意，出问题就重新部署。后来有一次重启前看了眼 GC，发现一直在 Full GC: [149644.445s][info][

不念不忘少年蓝@/ 2023年06月30日 12:55/ 0 赞/ 243 阅读

相关 golang 记一次data race排查过程

golang 记一次data race排查过程背景 data race 现场解决思路经验总结 data race在写并发代码时候经常遇到，

╰半夏微凉°/ 2023年06月23日 12:51/ 0 赞/ 118 阅读

相关记一次阿里云木马排查过程

https://blog.csdn.net/dreamer2020/article/details/98652888 https://blog.csdn.net/weixin

快来打我*/ 2023年06月13日 09:24/ 0 赞/ 106 阅读

相关记一次Harbor问题排查过程

Harbor 背景在低版本的harbor 1.X.X 版本的时候，harbor在GC的时候。会导致推送镜像会失败。我们在harbor的后台查看没有GC的任务。但是定期还

水深无声/ 2022年12月17日 08:38/ 0 赞/ 302 阅读

相关【线上】记一次kafka排查过程

问题上线后发现，经常有个页面显示的信息有缺失，研究代码发现只有收不到kafka消息时，才会这样排查消费端等待30s，原则上时间上是比较充足的，后面确认kaf

迷南。/ 2022年09月07日 12:23/ 0 赞/ 386 阅读

相关记一次堆外内存溢出排查过程

一、内存溢出现象异常堆栈: ![异常堆栈][70] top 信息: ![top信息][top] 现象描述: 服务器发布/重启后，进程占用内存 21

超、凢脫俗/ 2022年05月10日 23:26/ 0 赞/ 595 阅读

相关记一次TcpListenOverflows报警解决过程

[http://blog.csdn.net/puma\_dong/article/details/46669499][http_blog.csdn.net_puma_dong_

「爱情、让人受尽委屈。」/ 2022年01月09日 23:49/ 0 赞/ 1110 阅读

相关记一次线上内存泄漏问题的排查过程

近期需要对公司的接口做线上的巡查监控，需要写一个脚本放到服务器上，定时运行脚本监测线上接口是否正常。测试的接口不是HTTP协议，而是公司基于TCP协议开发的私有协议，因此

旧城等待，/ 2021年10月19日 03:01/ 0 赞/ 872 阅读