对应用程序来说,动态内存的分配和回收,很容易发送各种各样的“事故”,比如:
那么,内存泄露到底是怎么发生的呢?以及发生内存泄露之后该怎么排查和定位呢?
受到内存泄露,就要先从内存的分配和回收说起了。
进程分为用户空间和内核空间,而用户空间内存包括多个不同的内存段,比如只读段、数据段、堆、栈以及文件映射区。这些内存段是应用程序使用内存的基本方式:
内存泄露的危害非常大,这些忘记释放的内存,不仅应用程序自己不能访问,系统也不能把它们再次分配给其他应用。内存泄露不断累积,甚至会耗尽系统内存。
虽然,系统最终可以通过OOM(Out of Memory)机制杀死进程,但进程在OOM前,可能已经引发了一连串的反应,导致严重的性能问题。
比如,其他需要内存的进程,可能无法分配新的内存;内存不足,又会触发系统的缓存回收以及swap机制,从而进一步导致IO的性能问题等。
内存泄漏的危害这么⼤,那我们应该怎么检测这种问题呢?
接下来,我们就⽤⼀个计算斐波那契数列的案例,来看看内存泄漏问题的定位和处理⽅法
# install sysstat docker
sudo apt-get install -y sysstat docker.io
# Install bcc
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 4052245BD4284CDD
echo "deb https://repo.iovisor.org/apt/bionic bionic main" | sudo tee /etc/apt/sources.list.d/iovisor.list
sudo apt-get update
sudo apt-get install -y bcc-tools libbcc-examples linux-headers-$(uname -r)
启动案例:
$ docker run --name=app -itd feisky/app:mem-leak
确认案例应⽤已经正常启动。如
$ docker logs app
2th => 1
3th => 2
4th => 3
5th => 5
6th => 8
7th => 13
从输出中,我们可以发现,这个案例会输出斐波那契数列的⼀系列数值。实际上,这些数值每隔 1 秒输出⼀次。
知道了这些,我们应该怎么检查内存情况,判断有没有泄漏发⽣呢?你⾸先想到的可能是 top ⼯具,不过,top 虽然能观察系统和进程的内存占⽤情况,但今天的案例并不适合。内存泄漏问题,我们更应该关注内存使⽤的变化趋势。
可以使用vmstat。运⾏下⾯的 vmstat ,等待⼀段时间,观察内存的变化情况
# 每隔3秒输出⼀组数据
$ vmstat 3
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 0 0 6601824 97620 1098784 0 0 0 0 62 322 0 0 100 0 0
0 0 0 6601700 97620 1098788 0 0 0 0 57 251 0 0 100 0 0
0 0 0 6601320 97620 1098788 0 0 0 3 52 306 0 0 100 0 0
0 0 0 6601452 97628 1098788 0 0 0 27 63 326 0 0 100 0 0
2 0 0 6601328 97628 1098788 0 0 0 44 52 299 0 0 100 0 0
0 0 0 6601080 97628 1098792 0 0 0 0 56 285 0 0 100 0 0
从输出中你可以看到:
bbc提供了一个叫做memleak
的工具,是专门用来检测内存泄露的。它可以跟踪系统或者指定进程的内存分配、释放请求,然后定期输出一个未释放内存和相应调⽤栈的汇总情况(默认5 秒)。
# -a 表示显示每个内存分配请求的⼤⼩以及地址
# -p 指定案例应⽤的PID号
$ /usr/share/bcc/tools/memleak -a -p $(pidof app)
WARNING: Couldn't find .text section in /app
WARNING: BCC can't handle sym look ups for /app
addr = 7f8f704732b0 size = 8192
addr = 7f8f704772d0 size = 8192
addr = 7f8f704712a0 size = 8192
addr = 7f8f704752c0 size = 8192
32768 bytes in 4 allocations from stack
[unknown] [app]
[unknown] [app]
start_thread+0xdb [libpthread-2.27.so]
⽐⽅说,在终端中直接运⾏ ls 命令,你会发现,这个路径的确不存在:
$ ls /app
ls: cannot access '/app': No such file or directory
类似的问题, CPU 模块中的 perf 使⽤⽅法中已经提到好⼏个解决思路。
⽐如,你可以运⾏下⾯的命令,把 app ⼆进制⽂件从容器中复制出来,然后重新运⾏ memleak ⼯具:
$ docker cp app:/app /app
$ /usr/share/bcc/tools/memleak -p $(pidof app) -a
Attaching to pid 12512, Ctrl+C to quit.
[03:00:41] Top 10 stacks with outstanding allocations:
addr = 7f8f70863220 size = 8192
addr = 7f8f70861210 size = 8192
addr = 7f8f7085b1e0 size = 8192
addr = 7f8f7085f200 size = 8192
addr = 7f8f7085d1f0 size = 8192
40960 bytes in 5 allocations from stack
fibonacci+0x1f [app]
child+0x4f [app]
start_thread+0xdb [libpthread-2.27.so]
$ docker exec app cat /app.c
\.\.\.
long long *fibonacci(long long *n0, long long *n1)
{
//分配1024个⻓整数空间⽅便观测内存的变化情况
long long *v = (long long *) calloc(1024, sizeof(long long));
*v = *n0 + *n1;
return v;
}
void *child(void *arg)
{
long long n0 = 0;
long long n1 = 1;
long long *v = NULL;
for (int n = 2; n > 0; n++) {
v = fibonacci(&n0, &n1);
n0 = n1;
n1 = *v;
printf("%dth => %lld\n", n, *v);
sleep(1);
}
}
\.\.\.
void *child(void *arg)
{
\.\.\.
for (int n = 2; n > 0; n++) {
v = fibonacci(&n0, &n1);
n0 = n1;
n1 = *v;
free(v); // 释放内存
printf("%dth => %lld\n", n, *v);
sleep(1);
}
}
# 清理原来的案例应⽤
$ docker rm -f app
# 运⾏修复后的应⽤
$ docker run --name=app -itd feisky/app:mem-leak-fix
# 重新执⾏ memleak⼯具检查内存泄漏情况
$ /usr/share/bcc/tools/memleak -a -p $(pidof app)
Attaching to pid 18808, Ctrl+C to quit.
[10:23:18] Top 10 stacks with outstanding allocations:
[10:23:23] Top 10 stacks with outstanding allocations: