Linux内核网络协议栈笔记.docx

资源描述

Linux内核网络协议栈笔记.docx

《Linux内核网络协议栈笔记.docx》由会员分享，可在线阅读，更多相关《Linux内核网络协议栈笔记.docx（15页珍藏版）》请在冰豆网上搜索。

Linux内核网络协议栈笔记.docx

Linux内核网络协议栈笔记

2011-08-1115:

54:

-微型葡萄-点击数:

1641

Linux内核网络协议栈笔记0：

序言（附参考书籍）

自己是研究网络的，但实际上对Linux中网络协议栈的实现知之甚少。

最近看完《深入理解Linux内核》前几章之后（特别是与网络子系统密切相关的软中断），觉得可以而且应该看一下网络协议栈了。

这部分网上的文章大部分都没有什么结构和思路，很少有能够条分缕析的把协议栈讲述明白的。

当然，个人水平有限，还是希望朋友们能够批评指正。

参考书籍《UnderstandingLinuxNetworkInternals》以及《TheLinuxNetworkingArchitectureDesignandImplementationofNetworkProtocolsintheLinuxKernel》，在我的Skydrive里（点这里）可以下到英文chm版。

先大体说说这两本巨著吧。

前者确实是一本关于internals的书，前三个part：

GeneralBackground/SystemInitialization/TransmissionandReception以及第5个part：

IPv4比较有用，而且思路也与本文所采用的吻合：

从系统初始化到数据包的发送与接收。

而后者也确实是一本architecture的书，采用了与TCP/IP协议栈（不是OSI7层）一样的5层架构自底向上讲述了Linux内核的相关内容。

全系列文章都基于Linux内核2.6.11版本，如果最新版本（当前是2.6.30）有较大变化，也会给与标出。

Linux内核网络协议栈笔记1：

协议栈分层/层次结构

大家都知道TCP/IP协议栈现在是世界上最流行的网络协议栈，恐怕它的普及的最重要的原因就是其清晰的层次结构以及清晰定义的原语和接口。

不仅使得上层应用开发者可以无需关心下层架构或者内部机制，从而相对透明的操作网络。

这个明显的层次结构也可以在Linux内核的网络协议栈中观察到。

主要的参考文献是：

Linux网络栈剖析（中文版）/AnatomyofLinuxnetworkingstack（英文原版）byTimJones.

以及：

Linux内核2.4.x的网络接口结构

另外一些参考资料可以从这个页面找到：

http:

//www.ecsl.cs.sunysb.edu/elibrary/linux/network/ （纽约州立大学石溪分校的页面）

Linux内核网络协议栈采用了如下的层次结构：

内核中的五层分别是（从上到下）：

系统调用接口（详见Jones的另一篇文章：

使用Linux系统调用的内核命令）

协议无关接口（BSDsocket层）

网络协议（或者简称网络层。

这是一个协议的集合，从链路层到传输层的协议都包括在内。

不同的协议在/net文件夹下除core以外的子目录下，例如基于IP的协议簇都在/net/ipv4目录下，以太网协议在/net/ethernet目录下）

驱动无关接口（又称通用设备层--genericdevicelayer/驱动接口层/设备操作层--devicehandlinglayer。

属于网络协议栈最核心的部分，文件位于内核/net/core文件夹下，所以又叫网络核心层。

其中包括了核心的数据结构skbuff文件中的sk_buff/dev.c文件中net_device，这些数据结构将在下篇文章中介绍）

设备驱动程序（在/driver/net文件夹内）

不像OSI或者TCP/IP协议栈，事实上并没有一个命名标准，因此在这里，这些层次的名称并不是通用的，但是其语义是清晰的，而且在大多数其他的文章里只是个别字上的差别。

分层详细介绍可以参考Jones的文章。

Linux内核网络协议栈笔记2：

初始化

参考文献《UnderstandingLinuxNetworkInternals》中用了整整一章（partII）来介绍systeminitialization。

本文只提供一个简单的概述，如果需要详细信息，还请看参考文献。

我们这里所说的初始化过程指的是从硬件加电启动，到可以从网络接收或发送数据包之前的过程。

在Linux系统中，网卡拥有双重身份：

struct pci_dev和struct net_device。

pci_dev对象代表通用硬件的性质，是作为一个标准的PCI的设备插入了PCI的卡槽，由驱动程序进行管理；另一方面，net_device对象代表网络传输的性质，与内核的网络协议栈交互，进行数据传输。

因此我们也必须通过两个方面来进行初始化，但是后者是我们的重点。

而且我们并不关心内核与硬件的交互细节，例如寄存器读写与I/O映射等。

内核在初始化时，也会初始化一些与网络相关的数据结构；而且对应我们前面的日志所提及的内核网络协议栈层次结构（点这里），内核也需要一定的初始化工作来建立这种层次结构。

笔者认为初始化最重要的就是重要数据结构（通常用粗体标注）。

因此也希望读者能够记住重要的数据结构的作用。

下面我们将分层，自底向上的分析整个初始化过程：

（一）驱动程序层

本文中以一个realtek8139系列网卡作为例子，因为其驱动只有一个c文件（/drivers/net/8139too.c），比较容易分析。

读者也可以参考e1000网卡的另一篇文章（点这里）。

内核版本基于2.6.11。

驱动程序加载/注册主要包括以下的步骤：

（a）将设备驱动程序（pci_driver）添加到内核驱动程序链表中；

（b）调用每个驱动中的probe函数（其中重要一步就是初始化net_device对象）。

下面进行详细分解。

通常，在Linux中使用insmod命令加载一个驱动程序模块，例如8139too.o目标文件。

加载之后，Linux会默认执行模块中的module_init（rtl8139_init_module）宏函数，其中的参数rtl8139_init_module是一个函数指针，指向在具体的驱动程序8139too.o中声明的rtl8139_init_module函数。

这个函数定义如下：

static int __initrtl8139_init_module（void）

{ return pci_module_init（&rtl8139_pci_driver）;}

pci_module_init是一个宏定义，实际上就等于pci_register_driver函数。

（在2.6.30内核版本中，直接变成了returnpci_register_driver（&rtl8139_pci_driver））。

pci_register_driver函数的注释说明了它的作用：

registeranewpcidriver.Addsthedriverstructuretothelistofregistereddrivers。

也就是把如下的这样一个驱动程序（pci_driver类型）挂到系统的驱动程序链表中：

static struct pci_driverrtl8139_pci_driver = {

.name = DRV_NAME,

.id_table = rtl8139_pci_tbl,

.probe = rtl8139_init_one,

.remove = __devexit_p（rtl8139_remove_one）,

#ifdefCONFIG_PM

.suspend = rtl8139_suspend,

.resume = rtl8139_resume,

#endif

};

这一步我们应该这样理解（熟悉面向对象编程的读者）：

所有的pci_driver应该提供一致的接口（比如remove卸载/suspend挂起）；但是这些接口的每个具体实现是不同的（pci声卡和pci显卡的挂起应该是不同的），所以采用了这样的函数指针结构。

这个pci_driver结构其中最重要的就是probe函数指针，指向rtl8139_init_one，具体后面会解释。

但是pci_register_driver并不仅仅完成了注册驱动这个任务，它内部调用了driver_register函数（/drivers/base/driver.c中）：

int driver_register（struct device_driver * drv）

{

INIT_LIST_HEAD（&drv->devices）;

init_MUTEX_LOCKED（&drv->unload_sem）;

return bus_add_driver（drv）;

}

前两个就是实现了添加到链表的功能，bus_add_driver才是主要的函数（/drivers/base/bus.c中），内部又调用了driver_attach函数，这个函数的主体是一个list_for_each循环，对链表中的每一个成员调用driver_probe_device函数（哈哈，出现了probe！

），这个函数就调用了drv->probe（dev）（drv就是pci_driver类型的对象）！

这样也就调用了驱动程序中的probe函数指针，也就是调用了rtl8139_init_one函数。

函数rtl8139_init_one的主要作用就是给net_device对象分配空间（分配空间由函数rtl8139_init_board完成）并初始化。

分配空间主要是内存空间。

分配的资源包括I/O端口，内存映射（操作系统基本概念，请自行google）的地址范围以及IRQ中断号等。

而初始化主要是设置net_device对象中的各个成员变量及成员函数，其中比较重要的是hard_start_xmit（通过硬件发送数据）/poll（轮训）/open（启动）等函数（粗体标注），代码如下：

static int __devinitrtl8139_init_one（struct pci_dev *pdev, conststruct pci_device_id *ent）

{

struct net_device *dev = NULL;

rtl8139_init_board（pdev, &dev）;

dev->open = rtl8139_open;

dev->hard_start_xmit = rtl8139_start_xmit;

dev->poll = rtl8139_poll;

dev->stop = rtl8139_close;

dev->do_ioctl = netdev_ioctl;

}

整个的调用链如下：

pci_register_driver==>driver_register==>bus_add_driver==>driver_attach==>driver_probe_device==>drv->probe==>rtl8139_init_one（生成net_device）。

一个简单的net_device生命周期示意图如下（左边为初始化，右边为卸载）：

这个net_device数据结构的生成，标志着网络硬件和驱动程序层初始化完毕。

也意味着，网络协议栈与硬件之间的纽带已经建立起来。

。

（二）设备无关层/网络协议层/协议无关接口socket层

Linux内核在启动后所执行的一些内核函数如下图所示：

系统初始化的过程中会调用do_basic_setup函数进行一些初始化操作。

其中2.6.11内核中就直接包括了driver_init（）驱动程序初始化，以及sock_init函数初始化socket层。

然后do_initcalls（）函数调用一组前缀为__init类型（这个宏就表示为需要在系统初始化时执行）的函数。

与网络相关的以__init宏标记的函数有：

net_dev_init初始化设备无关层；inet_init初始化网络协议层。

（fs_initcall和module_init这两个宏也具有类似的作用。

由于这一阶段处于系统初始化，宏定义比较多，欲详细了解各种宏的使用的读者请参阅参考文献《UnderstandingLinuxNetworkInternals》PartIIChapter7）

我们下面详细介绍一下这三个初始化函数都进行了哪些工作。

（a）net_dev_init（在文件/net/core/dev.c中）：

设备操作层

static int __initnet_dev_init（void）

{

if （dev_proc_init（））

if （netdev_sysfs_init（））

INIT_LIST_HEAD（&ptype_all）;

for （i = 0;i < 16;i++）

INIT_LIST_HEAD（&ptype_base[i]）;

for （i = 0;i < ARRAY_SIZE（dev_name_head）;i++）

INIT_HLIST_HEAD（&dev_name_head[i]）;

for （i = 0;i < ARRAY_SIZE（dev_index_head）;i++）

INIT_HLIST_HEAD（&dev_index_head[i]）;

//Initialisethepacketreceivequeues.

for （i = 0;i < NR_CPUS;i++）{

struct softnet_data *queue;

queue = &per_cpu（softnet_data,i）;

skb_queue_head_init（&queue->input_pkt_queue）;

queue->throttle = 0;

queue->cng_level = 0;

queue->avg_blog = 10;

queue->completion_queue = NULL;

INIT_LIST_HEAD（&queue->poll_list）;

set_bit（__LINK_STATE_START, &queue->backlog_dev.state）;

queue->backlog_dev.weight = weight_p;

queue->backlog_dev.poll = process_backlog;

atomic_set（&queue->backlog_dev.refcnt, 1）;

}

open_softirq（NET_TX_SOFTIRQ,net_tx_action,NULL）;

open_softirq（NET_RX_SOFTIRQ,net_rx_action,NULL）;

}

这个函数所做的具体工作主要包括：

初始化softnet_data这个数据结构（每个CPU都有一个这样的队列，表示要交给此CPU处理的数据包）；注册网络相关软中断（参见我关于软中断的文章，点这里）。

（b）inet_init（在文件/net/ipv4/af_inet.c中）：

网络层

由于各种网络协议是按照协议族（protocolfamily，PF或者addressfamily，AF）为单位组织起来的。

我们在这里仅以Internet协议族（AF_INET或者PF_INET，在内核中这二者是等价的）为例。

有时候这一层又被称为INETsocket层（对应的数据结构为structsock），请注意与BSDsocket层区别（对应数据结构为structsocket）：

BSDsocket层提供一组统一的接口，与协议无关；但具体到网络层就必须与协议相关了，因此操作也会有一些不同。

代码如下（有删节）：

static int __initinet_init（void）

{

struct sk_buff *dummy_skb;

struct inet_protosw *q;

struct list_head *r;

rc = sk_alloc_slab（&tcp_prot, "tcp_sock"）;

rc = sk_alloc_slab（&udp_prot, "udp_sock"）;

rc = sk_alloc_slab（&raw_prot, "raw_sock"）;

//TellSOCKETthatwearealive

（void）sock_register（&inet_family_ops）;

//Addallthebaseprotocols.

if （inet_add_protocol（&udp_protocol,IPPROTO_UDP） < 0）;

if （inet_add_protocol（&tcp_protocol,IPPROTO_TCP） < 0）;

for （r = &inetsw[0];r < &inetsw[SOCK_MAX]; ++r）

INIT_LIST_HEAD（r）;

for （q = inetsw_array;q < &inetsw_array[INETSW_ARRAY_LEN]; ++q）

inet_register_protosw（q）;

//SettheARPmoduleup

arp_init（）;

//SettheIPmoduleup

ip_init（）;

tcp_v4_init（&inet_family_ops）;

tcp_init（）;

//dev_add_pack（&ip_packet_type）;

}

module_init（inet_init）;

这个函数中包括的主要函数包括：

sock_register：

在以前的文章中说过，Linux内核网络协议栈采用了分层结构，所以层与层之间肯定是松耦合的。

上层的socket层并不知道下面的网络协议层都具体包括哪些协议。

因此本函数有两个作用：

（a）周知INET协议族；（b）注册到socket模块上。

inet_add_protocol：

在协议族中添加具体的协议。

inet_register_protosw：

各种inet协议族中的协议在内核中是保存在inetsw_array[]数组，其中元素为inet_protosw类型（/include/net/protocol.h文件中），每一个元素对应一个协议。

每一个协议又有两个数据结构：

structproto/structproto_ops。

这两个结构中都是一些函数操作，但proto表示每个协议独特的操作，而proto_ops是通用的socket操作（包含在structsocket中）；这种区别就类似于INETsocket和BSDsocket的区别。

（c）sock_init（在文件/net/socket.c中）：

BSDsocket层

定义如下（代码有删节）：

void __initsock_init（void）

{

//InitializesockSLABcache.

sk_init（）;

//InitializeskbuffSLABcache

skb_init（）;

//Initializetheprotocolsmodule.

init_inodecache（）;

register_filesystem（&sock_fs_type）;

sock_mnt = kern_mount（&sock_fs_type）;

//Therealprotocolinitializationisperformedwhendo_initcallsisrun.

netfilter_init（）;

}

此函数主要执行的工作是：

初始化sock和sk_buff数据结构（这些重要的数据结构在后面的文章中还会涉及）；由于sock属于linux文件系统的一部分，因此要注册成为文件系统；以及如果使用netfilter，也要进行初始化。

Linux内核网络协议栈笔记3：

重要数据结构sk_buff

sk_buff，全称socketbuffers，简称skb，中文名字叫套接字缓存。

它可以称得上是Linux内核网络协议栈中最重要的数据结构，没有之一。

它作为网络数据包的存放地点，使得协议栈中每个层都可以对数据进行操作，从而实现了数据包自底向上的传递。

主要参考资料是《UnderstandingLinuxNetworkInternals》PartI--Chapter2.1中关于sk_buff的介绍。

由于这个结构比较庞大，笔者主要选择比较重要的部分进行介绍，其余的还请看参考资料。

（1）一些重要字段

structsock*sk;

指向拥有这个缓存的那个sock（注意，这里是sock，不是socket，缓存是由具体协议拥有的）。

structnet_device*dev;

接收或者发送这个数据包队列的网络设备。

参见笔者前面所写的文章（点这里）。

（2）sk_buff的创建和销毁

dev_alloc_skb/dev_kfree_skb函数负责sk_buff的创建和销毁，其内部分别调用了alloc_skb/kfree_skb。

其内部实现就不再介绍了，但关于销毁和资源释放有一点需要注意：

由于同一个sk_buff有可能被很多对象使用，所以使用了引用计数（referencecount），当没有人使用之后，才能释放其资源。

（3）布局（Layout）

sk_buff的实现方式是双向链表。

不仅每个节点有next指针指向下一元素，prev指针指向前一元素，又包含一个指向头结点的指针；同时链表的头结点比较特殊，包括了链表长度和一个自旋锁用于同步，因此形成了如下的结构：

关于布局，sk_buff实现的另一个重要功能就是：

当数据包从最底层的数据链路层向上传递到传输层时，进行一些处理。

例如，IP层把数据包交给传输层时，就需要把IP头去掉。

下面的图演示了一个UDP的数据包在发送时添加UDP报头和IP报头的过程：

这个功能还需要另外三个成员变量，分别指向了传输层的头部（h），网络层的头部（nh=networkheader），数据链路层的头部（mac）：

union{...}h

union{...}nh

union{...}mac

在2.6.30内核中这三个字段改为了：

sk_buff_data_t transport_header;

sk_buff_d

展开阅读全文