前言
C/C++开发者经常会遇到段错误(segfault),定位很困难。在开发环节可以用单元测试等手段,但是在线上环境可能没有基本的开发调试工具,这种情况下就需要一些调试方法。本文介绍在linux下使用core dump和gdb调试 段错误(核心已转储) Segmentation fault (core dumped) 问题。
1. 基础知识
1.1 段错误简介
段错误就是指应用程序访问的内存超出了系统所给的内存空间 。
可能导致段错误的原因有:
- 访问系统数据区,最常见就是操作0x00地址的指针
- 内存越界(数组越界,变量类型不一致等): 访问到不属于你的内存区域
- 栈溢出(Linux一般默认栈空间大小为8192kb,ulimit -s命令查看)
1.2 段错误典型错误代码
1.2.1 访问系统数据区
#include <stdio.h>
int main(void)
{
int*ptr = NULL;
*ptr = 1;// 给0地址写值
return 0;
}
对于指针的使用,以下是指针的典型正确使用:
// main.cpp
// gcc -g main.cpp -o main -lstdc++
// g++ -g main.cpp -o main
#include <stdio.h>
int main(void)
{
int* ptr = NULL; // 1. 指针初始化为NULL(C++11建议使用nullptr)
ptr = new int(); // 2. 为指针申请内存
if(ptr == NULL) // 3. 判断是否申请内存成功
{
printf("memory new error");
return 0;
}
// 4. 使用指针(使用前判空)
if(ptr != NULL)
{
*ptr = 1;
printf("ptr: %d", *ptr);
}
// 5. 释放指针并置空
if(ptr != NULL)
{
delete ptr; // 防止内存泄漏(new与delete成对存在)
ptr = NULL; // 释放后置空,防止野指针
}
return 0;
}
1.2.2 内存越界
#include <stdio.h>
int main(void)
{
char*s ="test";
*s ='a';// 写入只读内存
return 0;
}
#include <stdio.h>
int main(void)
{
char s[1];
printf("%c", s[99999]); // 数组越界访问
return 0;
}
1.2.3 栈溢出
#include <stdio.h>
int main(void)
{
char temp[1024*1024*8] = {0}; // 栈溢出(ulimit -s 默认为8192kb)
return 0;
}
2. 段错误信息获取
#include <stdio.h>
int main(void)
{
int*ptr = NULL;
*ptr = 1;// 给0地址写值
return 0;
}
编译命令
gcc -g main.cpp -o main
2.1 dmesg
dmesg是(显示或驱动程序)消息。它用于检查或控制内核环形缓冲区。
$ dmesg
...
[131196.647617] main[60331]: segfault at 0 ip 00000000004004fd sp 00007ffe3dd49f10 error 6 in main[400000+1000]
字段说明:
segfault at 引起故障的地址 ip 指令的内存地址 sp 堆栈指针地址, 及栈顶指针
error number是由三个字位组成的,从高到底分别为bit2 bit1和bit0,所以它的取值范围是0~7.
bit 2 == 0: kernel-mode access 1: user-mode access
bit 1 == 0: read access 1: write access
bit 0 == 0: no page found 1: protection fault
因此,以上的段错误定位为user-mode access和write access,也就是用户态内存写入访问越界
2.2 系统日志/var/log/messages
系统日志/var/log/messages 包含全局系统消息,包括系统启动期间记录的消息,如mail,cron,daemon,kern,auth等
$ sudo cat /var/log/messages
...
Mar 30 10:49:52 localhost kernel: main[60331]: segfault at 0 ip 00000000004004fd sp 00007ffe3dd49f10 error 6 in main[400000+1000]
3. 段错误的调试
3.1 gdb调试
适用场景:
- 适合于在生产环境下调试程序的段错误
- 当程序很复杂,core文件相当大时,该方法不可用
3.1.1 开启生成core文件
查看生成core文件是否开启(0表示未开启)
$ ulimit -c
0
设置生成core文件
$ ulimit -c unlimited
3.1.2 gdb调试core文件
$ gdb main core.83505
...
Core was generated by `./main'.
Program terminated with signal 11, Segmentation fault.
#0 0x00000000004004fd in main () at main.cpp:5
5 *ptr = 1;// 给0地址写值
Missing separate debuginfos, use: debuginfo-install glibc-2.17-196.el7.ns7.01.x86_64
(gdb) bt
#0 0x00000000004004fd in main () at main.cpp:5
...
3.2 objdump反汇编调试
适用场景
- 不需要-g参数编译,不需要借助于core文件,但需要有汇编基础
- 使用了gcc编译优化参数(-O1,-O2,-O3)时,生成的汇编指令将会被优化,使得调试过程更加复杂
指令地址00000000004004fd,main起始映射地址400000,计算指令的偏移地址:4004fd- 400000= 004fd
objdump -ld main > dumpcode
其中,-l 表示在输出中包含行号和文件名(编译时使用-g生成)
00000000004004ed <main>:
main():
/mnt/hgfs/vm_share/cpp/main.cpp:3
4004ed: 55 push %rbp
4004ee: 48 89 e5 mov %rsp,%rbp
/mnt/hgfs/vm_share/cpp/main.cpp:4
4004f1: 48 c7 45 f8 00 00 00 movq $0x0,-0x8(%rbp)
4004f8: 00
/mnt/hgfs/vm_share/cpp/main.cpp:5
4004f9: 48 8b 45 f8 mov -0x8(%rbp),%rax
4004fd: c7 00 01 00 00 00 movl $0x1,(%rax)
/mnt/hgfs/vm_share/cpp/main.cpp:6
400503: b8 00 00 00 00 mov $0x0,%eax
/mnt/hgfs/vm_share/cpp/main.cpp:7
400508: 5d pop %rbp
400509: c3 retq
40050a: 66 0f 1f 44 00 00 nopw 0x0(%rax,%rax,1)
/mnt/hgfs/vm_share/cpp/main.cpp:5
4004f9: 48 8b 45 f8 mov -0x8(%rbp),%rax
4004fd: c7 00 01 00 00 00 movl $0x1,(%rax)
由此可以确定段错误在main.cpp的第5行*ptr = 1;。
如果是非调试版本,则需要通过汇编来确定代码位置。
3.3 catchsegv
catchsegv命令专门用来捕获段错误,它通过动态加载器(ld-linux.so)的预加载机制(PRELOAD)把一个事先写好的库(/lib/libSegFault.so)加载上,用于捕捉断错误的出错信息。
$ catchsegv ./main
*** Segmentation fault
Register dump:
RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000400510
RDX: 00007fff5e1dfed8 RSI: 00007fff5e1dfec8 RDI: 0000000000000001
RBP: 00007fff5e1dfde0 R8 : 00007fe2e3dd8e80 R9 : 0000000000000000
R10: 00007fff5e1dfbc0 R11: 00007fe2e3a3cb10 R12: 0000000000400400
R13: 00007fff5e1dfec0 R14: 0000000000000000 R15: 0000000000000000
RSP: 00007fff5e1dfde0
RIP: 00000000004004fd EFLAGS: 00010246
CS: 0033 FS: 0000 GS: 0000
Trap: 0000000e Error: 00000006 OldMask: 00000000 CR2: 00000000
FPUCW: 0000037f FPUSW: 00000000 TAG: 00000000
RIP: 00000000 RDP: 00000000
ST(0) 0000 0000000000000000 ST(1) 0000 0000000000000000
ST(2) 0000 0000000000000000 ST(3) 0000 0000000000000000
ST(4) 0000 0000000000000000 ST(5) 0000 0000000000000000
ST(6) 0000 0000000000000000 ST(7) 0000 0000000000000000
mxcsr: 1f80
XMM0: 00000000000000000000000000000000 XMM1: 00000000000000000000000000000000
XMM2: 00000000000000000000000000000000 XMM3: 00000000000000000000000000000000
XMM4: 00000000000000000000000000000000 XMM5: 00000000000000000000000000000000
XMM6: 00000000000000000000000000000000 XMM7: 00000000000000000000000000000000
XMM8: 00000000000000000000000000000000 XMM9: 00000000000000000000000000000000
XMM10: 00000000000000000000000000000000 XMM11: 00000000000000000000000000000000
XMM12: 00000000000000000000000000000000 XMM13: 00000000000000000000000000000000
XMM14: 00000000000000000000000000000000 XMM15: 00000000000000000000000000000000
Backtrace:
/mnt/hgfs/vm_share/cpp/main.cpp:5(main)[0x4004fd]
/lib64/libc.so.6(__libc_start_main+0xf5)[0x7fe2e3a3cc05]
??:?(_start)[0x400429]
...