国内最专业的IT技术学习网

办公软件

当前位置:主页 > 办公软件 >

银河官网:一份十分完整的CPU 100%排查优化指南

发布时间:2019/09/06标签:   CPU      优化      服务器    点击量:

原标题:银河官网:一份十分完整的CPU 100%排查优化指南

从猫蛇之战三看内核戏CPU

银河官网:一份十分完整的CPU 100%排查优化指南

CPU工艺与性能是一种什么样的关系?

跑了一分钟,发现 CPU 的使用率一直都比较平稳而且不高。

总结

因此初步判断为大量线程执行 yield 函数之后互相竞争导致 CPU 使用率增高,而通过对堆栈发现是和使用 Disruptor 有关。

通过查询 Disruptor 官方文档发现:

银河官网:一份十分完整的CPU 100%排查优化指南

还真是想什么来什么,前些天还故意把某些服务器的负载提高(没错,老板让我写个 Bug!),不过还好是不同的环境,互相没有影响。

同时发现配置的消费等待策略为 YieldingWaitStrategy 这种等待策略确实会执行 yield 来让出 CPU。

发现这是 Disruptor 的一个堆栈,前段时间正好解决过一个由于 Disruptor 队列引起的一次 OOM,没想到又来一出。

所以我们的调整方式如下:

银河官网:一份十分完整的CPU 100%排查优化指南

银河官网:一份十分完整的CPU 100%排查优化指南

银河官网:一份十分完整的CPU 100%排查优化指南

定位问题

银河官网:一份十分完整的CPU 100%排查优化指南

初步看来和这个等待策略有很大的关系。

线上CPU飚高(死循环,死锁...)?帮你迅速定位代码位置

我在上面 100% 的线程中随机选了一个 pid=194283 转换为 16 进制(2f6eb)后在线程快照中查询,因为线程快照中线程 ID 都是 16 进制存放。

于是在和之前同样的条件下将等待策略换为 BlockingWaitStrategy。

创建了 15 个 Disruptor 队列,同时每个队列都用线程池来往 Disruptor 队列里面发送 100W 条数据。

利用CPU缓存实现高性能程序

本地模拟

银河官网:一份十分完整的CPU 100%排查优化指南

创建线程池的方式也是核心线程数、***线程数是一样的,导致一些空闲的线程也得不到回收;这样会有很多无意义的资源消耗。

假设现在有 7 个业务类型,那就等于是创建 2*7=14 个 Disruptor 队列,同时每个队列有一个消费者,也就是总共有 14 个消费者(生产环境更多)。

同时查阅到其他的等待策略 BlockingWaitStrategy (也是默认的策略),它使用的是锁的机制,对 CPU 的使用率不高。

而后我查看了代码,银河官网,发现是根据每一个业务场景在内部都会使用 2 个 Disruptor 队列来解耦。

和刚才的 CPU 对比会发现到后面使用率会有明显的降低;同时 Dump 线程后会发现大部分线程都处于 Waiting 状态。

为了验证,我在本地创建了 15 个 Disruptor 队列同时结合监控观察 CPU 的使用情况。

当消费线程(Event Handler threads)的数量小于 CPU 核心数时推荐使用该策略。

所以也会结合业务将创建线程池的方式调整一下,将线程数降下来,尽量的物尽其用。

银河官网:一份十分完整的CPU 100%排查优化指南

同时 Dump 线程发现和生产的现象也是一致的:消费线程都处于 Runnable 状态,同时都在执行 yield。

由于是在一台服务器上运行,所以 CPU 资源都是共享的,银河网上开户,这就会导致 CPU 的使用率居高不下。

代码如下:

最近又收到了运维报警:表示有些服务器负载非常高,让我们定位问题。

其中有一项菜单展示了所有消耗 CPU 的线程,我仔细看了下发现几乎都是和上面的堆栈一样。

为了快速缓解这个问题,先将等待策略换为 BlockingWaitStrategy,可以有效降低 CPU 的使用率(业务上也还能接受)。

银河官网:一份十分完整的CPU 100%排查优化指南

接着使用 top -Hp pid 将这个进程的线程显示出来。输入大写的 P 可以将线程按照 CPU 使用比例排序,于是得到以下结果:

优化解决

银河官网:一份十分完整的CPU 100%排查优化指南

解决问题

也就是说都是 Disruptor 队列的堆栈,同时都在执行 java.lang.Thread.yield 函数。

银河官网:一份十分完整的CPU 100%排查优化指南

银河官网:一份十分完整的CPU 100%排查优化指南

所以排查到此可以有一个结论了,想要根本解决这个问题需要将我们现有的业务拆分;现在是一个应用里同时处理了 N 个业务,每个业务都会使用好几个 Disruptor 队列。

但留意到官方对 YieldingWaitStrategy 的描述里谈到:当消费线程(Event Handler threads)的数量小于 CPU 核心数时推荐使用该策略。

消费程序仅仅只是打印一下:

YieldingWaitStrategy 是一种充分压榨 CPU 的策略,使用自旋 + yield 的方式来提高性能。

第二步就需要将应用拆分(上文模拟的一个 Disruptor 队列),一个应用处理一种业务类型;然后分别单独部署,这样也可以互相隔离互不影响。

版权信息Copyright ? 银河官网 版权所有??? ICP备案编号:鲁ICP备09013610号