Linux内核分析方法谈Word格式.docx
《Linux内核分析方法谈Word格式.docx》由会员分享,可在线阅读,更多相关《Linux内核分析方法谈Word格式.docx(33页珍藏版)》请在冰豆网上搜索。
∙而且你还能从对内核源码的分析中,体会到它在解决某个具体细节问题时,方法的巧妙:
如后面将分析到了的Linux通过Botoom_half机制来加快系统对中断的处理。
∙最重要的是:
在源码的分析过程中,你将会被一点一点地、潜移默化地专业化。
一个专业的程序员,总是把代码的清晰性,兼容性,可移植性放在很重要的位置。
他们总是通过定义大量的宏,来增强代码的清晰度和可读性,而又不增加编译后的代码长度和代码的运行效率;
他们总是在编码的同时,就考虑到了以后的代码维护和升级。
甚至,只要分析百分之一的代码后,你就会深刻地体会到,什么样的代码才是一个专业的程序员写的,什么样的代码是一个业余爱好者写的。
而这一点是任何没有真正分析过标准代码的人都无法体会到的。
然而,由于内核代码的冗长,和内核体系结构的庞杂,所以分析内核也是一个很艰难,很需要毅力的事;
在缺乏指导和交流的情况下,尤其如此。
只有方法正确,才能事半功倍。
正是基于这种考虑,作者希望通过此文能给大家一些借鉴和启迪。
由于本人所进行的分析都是基于2.2.5版本的内核;
所以,如果没有特别说明,以下分析都是基于i386单处理器的2.2.5版本的Linux内核。
所有源文件均是相对于目录/usr/src/linux的。
方法之一:
从何入手
要分析Linux内核源码,首先必须找到各个模块的位置,也即要弄懂源码的文件组织形式。
虽然对于有经验的高手而言,这个不是很难;
但对于很多初级的Linux爱好者,和那些对源码分析很有兴趣但接触不多的人来说,这还是很有必要的。
1、Linux核心源程序通常都安装在/usr/src/linux下,而且它有一个非常简单的编号约定:
任何偶数的核心(的二个数为偶数,例如2.0.30)都是一个稳定地发行的核心,而任何奇数的核心(例如2.1.42)都是一个开发中的核心。
2、核心源程序的文件按树形结构进行组织,在源程序树的最上层,即目录/usr/src/linux下有这样一些目录和文件:
◆COPYING:
GPL版权申明。
对具有GPL版权的源代码改动而形成的程序,或使用GPL工具产生的程序,具有使用GPL发表的义务,如公开源代码;
◆CREDITS:
光荣榜。
对Linux做出过很大贡献的一些人的信息;
◆MAINTAINERS:
维护人员列表,对当前版本的内核各部分都有谁负责;
◆Makefile:
第一个Makefile文件。
用来组织内核的各模块,记录了个模块间的相互这间的联系和依托关系,编译时使用;
仔细阅读各子目录下的Makefile文件对弄清各个文件这间的联系和依托关系很有帮助;
◆ReadMe:
核心及其编译配置方法简单介绍;
◆Rules.make:
各种Makefilemake所使用的一些共同规则;
◆REPORTING-BUGS:
有关报告Bug的一些内容;
●Arch/:
arch子目录包括了所有和体系结构相关的核心代码。
它的每一个子目录都代表一种支持的体系结构,例如i386就是关于intelcpu及与之相兼容体系结构的子目录。
PC机一般都基于此目录;
●Include/:
include子目录包括编译核心所需要的大部分头文件。
与平台无关的头文件在include/linux子目录下,与intelcpu相关的头文件在include/asm-i386子目录下,而include/scsi目录则是有关scsi设备的头文件目录;
●Init/:
这个目录包含核心的初始化代码(注:
不是系统的引导代码),包含两个文件main.c和Version.c,这是研究核心如何工作的好的起点之一。
●Mm/:
这个目录包括所有独立于cpu体系结构的内存管理代码,如页式存储管理内存的分配和释放等;
而和体系结构相关的内存管理代码则位于arch/*/mm/,例如arch/i386/mm/Fault.c;
●Kernel/:
主要的核心代码,此目录下的文件实现了大多数linux系统的内核函数,其中最重要的文件当属sched.c;
同样,和体系结构相关的代码在arch/*/kernel中;
●Drivers/:
放置系统所有的设备驱动程序;
每种驱动程序又各占用一个子目录:
如,/block下为块设备驱动程序,比如ide(ide.c)。
如果你希望查看所有可能包含文件系统的设备是如何初始化的,你可以看drivers/block/genhd.c中的device_setup()。
它不仅初始化硬盘,也初始化网络,因为安装nfs文件系统的时候需要网络;
●Documentation/:
文档目录,没有内核代码,只是一套有用的文档,可惜都是English的,看看应该有用的哦;
●Fs/:
所有的文件系统代码和各种类型的文件操作代码,它的每一个子目录支持一个文件系统,例如fat和ext2;
●Ipc/:
这个目录包含核心的进程间通讯的代码;
●Lib/:
放置核心的库代码;
●Net/:
核心与网络相关的代码;
●Modules/:
模块文件目录,是个空目录,用于存放编译时产生的模块目标文件;
●Scripts/:
描述文件,脚本,用于对核心的配置;
一般,在每个子目录下,都有一个Makefile和一个Readme文件,仔细阅读这两个文件,对内核源码的理解很有用。
对Linux内核源码的分析,有几个很好的入口点:
一个就是系统的引导和初始化,即从机器加电到系统核心的运行;
另外一个就是系统调用,系统调用是用户程序或操作调用核心所提供的功能的接口。
对于那些对硬件比较熟悉的爱好者,从系统的引导入手进行分析,可能来的容易一些;
而从系统调用下口,则可能更合适于那些在dos或Uinx、Linux下有过C编程经验的高手。
这两点,在后面还将介绍到。
方法之二:
以程序流程为线索,一线串珠
从表面上看,Linux的源码就象一团扎乱无章的乱麻,其实它是一个组织得有条有理的蛛网。
要把整个结构分析清楚,除了找出线头,还得理顺各个部分之间的关系,有条不紊的一点一点的分析。
所谓以程序流程为线索、一线串珠,就是指根据程序的执行流程,把程序执行过程所涉及到的代码分析清楚。
这种方法最典型的应用有两个:
一是系统的初始化过程;
二是应用程序的执行流程:
从程序的装载,到运行,一直到程序的退出。
为了简便起见,遵从循序渐进的原理,现就系统的初始化过程来具体的介绍这种方法。
系统的初始化流程包括:
系统引导,实模式下的初始化,保护模式下的初始化共三个部分。
下面将一一介绍。
inux系统的常见引导方式有两种:
Lilo引导和Loadin引导;
同时linux内核也自带了一个bootsect-loader。
由于它只能实现linux的引导,不像前两个那样具有很大的灵活性(lilo可实现多重引导、loadin可在dos下引导linux),所以在普通应用场合实际上很少使用bootsect-loader。
当然,bootsect-loader也具有它自己的优点:
短小没有多余的代码、附带在内核源码中、是内核源码的有机组成部分,等等。
bootsect-loader在内和源码中对应的程序是/Arch/i386/boot/bootsect.S。
下面将主要是针对此文件进行的分析。
1.几个相关文件:
<
1>
/Arch/i386/boot/bootsect.S
2>
/include/linux/config.h
3>
/include/asm/boot.h
4>
/include/linux/autoconf.h
2.引导过程分析:
对于Intelx86PC,开启电源后,机器就会开始执行ROMBIOS的一系列系统测试动作,包括检查RAM,keyboard,显示器,软硬磁盘等等。
执行完bios的系统测试之后,紧接着控制权会转移给ROM中的启动程序(ROMbootstraproutine);
这个程序会将磁盘上的第0轨第0扇区(叫bootsector或MBR,系统的引导程序就放在此处)读入内存中,并放到自0x07C0:
0x0000开始的512个字节处;
然后处理机将跳到此处开始执行这一引导程序;
也即装入MBR中的引导程序后,CS:
IP=0x07C0:
0x0000。
加电后处理机运行在与8086相兼容的实模式下。
如果要用bootsect-loader进行系统引导,则必须把bootsect.S编译连接后对应的二进制代码置于MBR;
当ROMBIOS把bootsect.S编译连接后对应的二进制代码装入内存后,机器的控制权就完全转交给bootsect;
也就是说,bootsect将是第一个被读入内存中并执行的程序。
Bootsect接管机器控制权后,将依次进行以下一些动作:
1.首先,bootsect将它"
自己"
(自位置0x07C0:
0x0000开始的512个字节)从被ROMBIOS载入的地址0x07C0:
0x0000处搬到0x9000:
0000处;
这一任务由bootsect.S的前十条指令完成;
第十一条指令“jmpigo,INITSEG”则把机器跳转到“新”的bootsect的“jmpigo,INITSEG”后的那条指令“go:
movdi,#0x4000-12”;
之后,继续执行bootsect的剩下的代码;
在bootsect.S中定义了几个常量:
BOOTSEG=0x07C0bios载入MBR的约定位置的段址;
INITSEG=0x9000bootsect.S的前十条指令将自己搬到此处(段址)
SETUPSEG=0x9020装入Setup.S的段址
SYSSEG=0x1000系统区段址
对于这些常量可参见/include/asm/boot.h中的定义;
这些常量在下面的分析中将会经常用到;
2.以0x9000:
0x4000-12为栈底,建立自己的栈区;
其中0x9000:
0x4000-12到0x9000:
0x4000的一十二个字节预留作磁盘参数表区;
3.在0x9000:
0x4000的一十二个预留字节中建立新的磁盘参数表,之所以叫“新”的磁盘参数表,是相对于bios建立的磁盘参数表而言的。
由于设计者考虑到有些老的bios不能准确地识别磁盘“每个磁道的扇区数”,从而导致bios建立的磁盘参数表妨碍磁盘的最高性能发挥,所以,设计者就在bios建立的磁盘参数表的基础上通过枚举法测试,试图建立准确的“新”的磁盘参数表(这是在后继步骤中完成的);
并把参数表的位置由原来的0x0000:
0x0078搬到0x9000:
0x4000-12;
且修改老的磁盘参数表区使之指向新的磁盘参数表;
4.接下来就到了load_setup子过程;
它调用0x13中断的第2号服务;
把第0道第2扇区开始的连续的setup_sects(为常量4)个扇区读到紧邻bootsect的内存区;
,即0x9000:
0x0200开始的2048个字节;
而这四个扇区的内容即是/arch/i386/boot/setup.S编译连接后对应的二进制代码;
也就是说,如果要用bootsect-loader进行系统引导,不仅必须把bootsect.S编译连接后对应的二进制代码置于MBR,而且还得把setup.S编译连接后对应的二进制代码置于紧跟MBR后的连续的四个扇区中;
当然,由于setup.S对应的可执行码是由bootsect装载的,所以,在我们的这个项目中可以通过修改bootsect来根据需要随意地放置setup.S对应的可执行码;
5.load_setup子过程的唯一出口是probe_loop子过程;
该过程通过枚举法测试磁盘“每个磁道的扇区数”;
6.接下来几个子过程比较清晰易懂:
打印我们熟悉的“Loading”;
读入系统到0x1000:
0x0000;
关掉软驱马达;
根据的5步测出的“每个磁道的扇区数”确定磁盘类型;
最后跳转到0x9000:
0x0200,即setup.S对应的可执行码的入口,将机器控制权转交setup.S;
整个bootsect代码运行完毕;
3.引导过程执行完后的内存印象图:
出于简便考虑,在此分析中,我忽略了对大内核的处理的分析,因为对大内核的处理,只是此引导过程中的一个很小的部分,并不影响对整体的把握。
完成了系统的引导后,系统将进入到初始化处理阶段。
系统的初始化分为实模式和保护模式两部分。
II、实模式下的初始化
实模式下的初始化,主要是指从内核引导成功后,到进入保护模式之前系统所做的一些处理。
在内核源码中对应的程序是/Arch/i386/boot/setup.S;
以下部分主要是针对此文件进行的分析。
这部分的分析主要是要弄懂它的处理流程和INITSEG(9000:
0000)段参数表的建立,此参数表包含了很多硬件参数,这些都是以后进行保护模式下初始化,以及核心建立的基础。
1.几个其它相关文件:
/include/asm/segment.h
5>
/include/linux/version.h
6>
/include/linux/compile.h
2.实模式下的初始化过程分析:
INITSEG(9000:
0000)段参数表:
(参见Include/linux/tty.h)
参数名
偏移量(段址均为0x9000)
长度Byte
参考文件
PARAM_CURSOR_POS
0x0000
2
Arch/i386/boot/video.S
extendedmemSize
0x0002
Arch/i386/boot/setup.S
PARAM_VIDEO_PAGE
0x0004
PARAM_VIDEO_MODE
0x0006
1
PARAM_VIDEO_COLS
0x0007
没用
0x0008
Include/linux/tty.h
PARAM_VIDEO_EGA_BX
0x000a
0x000c
PARAM_VIDEO_LINES
0x000e
PARAM_HAVE_VGA
0x000f
PARAM_FONT_POINTS
0x0010
PARAM_LFB_WIDTH
0x0012
PARAM_LFB_HEIGHT
0x0014
PARAM_LFB_DEPTH
0x0016
PARAM_LFB_BASE
0x0018
4
PARAM_LFB_SIZE
0x001c
暂未用①
0x0020
PARAM_LFB_LINELENGTH
0x0024
PARAM_LFB_COLORS
0x0026
6
暂未用②
0x002c
PARAM_VESAPM_SEG
0x002e
PARAM_VESAPM_OFF
0x0030
PARAM_LFB_PAGES
0x0032
保留
0x0034--0x003f
APMBIOSVersion③
0x0040
BIOScodesegment
0x0042
BIOSentryoffset
0x0044
BIOS16bitcodeseg
0x0048
BIOSdatasegment
0x004a
支持32位标志④
0x004c
BIOScodeseglength
0x004e
BIOSdataseglength
0x0052
hd0参数
0x0080
16
0x0090
PS/2device标志⑤
0x01ff
*注:
①Include/linux/tty.h:
CL_MAGICandCL_OFFSEThere
1.Include/linux/tty.h:
unsignedcharrsvd_size;
/*0x2c*/
unsignedcharrsvd_pos;
/*0x2d*/
③0表示没有APMBIOS
④0x0002置位表示支持32位模式
⑤0表示没有,0x0aa表示有鼠标器
III、保护模式下的初始化
保护模式下的初始化,是指处理机进入保护模式后到运行系统第一个内核程序过程中系统所做的一些处理。
保护模式下的初始化在内核源码中对应的程序是/Arch/i386/boot/compressed/head.S和/Arch/i386/KERNEL/head.S;
以下部分主要是针对这两个文件进行的分析。
1.>
/Arch/i386/boot/compressed/head.S
2.>
/Arch/i386/KERNEL/head.S
3.>
//Arch/i386/boot/compressed/MISC.c
4.>
/Arch/i386/boot/setup.S
5.>
6.>
/arch/i386/kernel/traps.c
7.>
/include/i386/desc.h
8.>
/include/asm-i386/processor.h