TCP/IP 不要被惯性扼杀了思维:为什么监听状态的 SOCKET 会产生 TIME-WAIT 状态? TIME-WAIT 状态是 TCP 四次挥手中的状态,在我的认知中,它是客户端 socket 的状态。但是最近遇到了个问题是:服务端上某个处于监听状态的 socket 有很多连接都处于这个状态。 当然在某些特定的场... 04 月 04 日544评论排障经验 阅读全文
Linux cannot create temp file for here-document: No space left on device 一、问题现象 调用命令的时候,出现报错:cannot create temp file for here-document: No space left on device 从错误的日志来看,应该是磁... 03 月 27 日1,137评论排障经验 阅读全文
Linux apache 错误:cannot create SSLMutex with file '/var/run/ssl_mutex' 一、问题现象 昨晚大半夜 apache 挂了起不来了,查看错误日志信息为: 最开始错误日志只有 Configuration Failed,并没有下面那四行,是把错误级别调成 debug 才出来的。 二、解决办法... 03 月 23 日557评论apache 排障经验 阅读全文
程序员 system 和 popen 返回 ENOMEM 问题 一、我为什么不喜欢 system 和 popen 要说到我为什么不喜欢 system 和 popen 这两个函数,这个说来就话长了。最开始,我还是很喜欢用这两个函数的,直到后来发现了太多因为滥用导致的程序异常后,它... 03 月 21 日1,000评论排障经验 阅读全文
程序员 我给微信找 BUG 系列:微信代理引起的负载问题排查过程 本周处理了好几例负载高问题,原因竟然都是因为微信对代理场景的支持不好导致的。 回顾十分曲折的排查过程,记录下来!顺带吐槽一下微信。 一、问题描述 背景:我们的设备作为客户处的上网出口,代理内网用户上网... 03 月 14 日1,5731 排障经验 阅读全文
TCP/IP 一次孤儿 socket 过多导致负载高的问题排查过程 一、问题现象 客户报障,说使用了我们的网关设备后网络经常中断。具体的情形是用我们设备做代理上网后,流量图显示流量每隔两分钟就会直线下跌一次,同时就伴随着内网用户断网。 经过排查后发现问题原因是设备负载... 03 月 03 日3,452评论排障经验 阅读全文
程序员 一次 pidof 命令卡住导致业务中断引发的设计思考 一、问题回顾 问题现象:线上业务,某个进程被卡住了,所有任务都不响应,导致业务中断。 问题原因:程序中调用了 system 命令,执行了一次 pidof 命令,然而作者万万没想到这个 pidof 命令会卡住了,导... 10 月 21 日1,104评论排障经验 阅读全文
Linux 一次主机被黑导致的系统负载高问题排查记录 一、问题描述 某天,在 QQ 空间看到大学同学发了一个求助帖: 求助安装一个 ffmpeg 软件 ((linux 平台下开源的音视频转码工具),本着助人为乐的想法准备提供一下帮助,了解之后才发现她想做的根本不是安... 07 月 03 日240评论排障经验 阅读全文
计算机网络 一次运营商网络抖动导致的上网慢问题分析 下午客户打电话过来说 QQ 总是掉线,怀疑 (一口咬定) 是我们设备 (我们的是路由设备,放在出口) 故障导致的,态度十分强硬。从客户提出问题的第一秒起就已经可以断定是运营商网络问题了,为什么呢: 对路由器来说,... 06 月 17 日1,119评论排障经验 阅读全文