C 语言的开发.docx

资源描述

C 语言的开发.docx

《C 语言的开发.docx》由会员分享，可在线阅读，更多相关《C 语言的开发.docx（22页珍藏版）》请在冰豆网上搜索。

C 语言的开发.docx

C语言的开发

DennisM.Ritchie

BellLabs/LucentTechnologies

MurrayHill,NJ07974USA

dmr@bell-

翻译：

寒蝉退士

译者声明：

译者对译文不做任何担保，译者对译文不拥有任何权利并且不负担任何责任和义务。

原文：

http:

//cm.bell-

摘要

C编程语言是在1970年代早期作为初创的Unix操作系统的系统实现语言而设计的。

起源于无类型的BCPL语言，它发展出了类型结构；它建立在一个小机器上、作为改善其贫乏的编程环境的工具，它现在已经成为占主导地位的语言之一。

本文研讨它的演变。

注意:

*Copyright1993AssociationforComputingMachinery,Inc.Thiselectronicreprintmadeavailablebytheauthorasacourtesy.ForfurtherpublicationrightscontactACMortheauthor.ThisarticlewaspresentedatSecondHistoryofProgrammingLanguagesconference,Cambridge,Mass.,April,1993.

Itwasthencollectedintheconferenceproceedings:

HistoryofProgrammingLanguages-IIed.ThomasJ.Bergin,Jr.andRichardG.Gibson,Jr.ACMPress（NewYork）andAddison-Wesley（Reading,Mass）,1996;ISBN0-201-89502-1.

介绍

本文专注于C编程语言的开发，它受到的影响，和创造它所处的条件。

出于简要性的原因，我省略了对C语言本身、它的父辈B语言[Johnson73]和它的祖父辈BCPL语言[Richards79]的完整描述，而是集中在每种语言的特征性要素和它们是如何演变的。

C语言形成于1969-1973年之间，平行于Unix操作系统的早期开发；最活跃的时期发生在1972。

另一次变化涌现在1977年和1979年之间达到高峰，此时Unix系统的可移植性被证实了。

在第二个时期的中间，出现了第一个可广泛获得的语言描述:

TheCProgrammingLanguage，它常被称为‘白皮书’或‘K&R’[Kernighan78]。

最后，在1980年代中期，ANSIX3J11委员会正式标准化了这门语言，它做了进一步的改变。

直到1980年代早期，尽管编译器存在于各种机器体系和操作系统之上，C语言几乎还是专门的关联于Unix操作系统；最近，它的使用传播得更加广泛，今天它是整个计算机工业中最常用的语言之一。

历史:

起步

1960年代晚期对于Bell电话实验室的计算机系统研究而言是个喧闹的时期[Ritchie78][Ritchie84]。

公司脱离出了Multics计划[Organick75]，它是作为MIT、GeneralElectric和BellLabs的合资项目发起的；在1969年，BellLabs管理者甚至是研究者，开始相信履行对Multics的承诺太晚了也太昂贵了。

甚至在GE-645Multics机器被从前提中去除之前，主要由KenThompson领导的一个非正式小组就已经开始调研替代者了。

Thompson希望创造一个舒适的计算环境，依据他自己的设计来构造，使用能用上的任何手段。

回顾起来，他的设计结合了很多Multics的创新方面，包括作为控制的处所的明确的进程概念，树状结构的文件系统，作为用户级别程序的命令解释器，文本文件的简单表示，和对设备的一般化访问。

他排除了其他一些东西，比如对内存和文件的统一的访问。

而且在开始时，他和我们中其余的人推延了Multics的另一个先驱性（尽管不是首创）的要素，就是基本上完全用高级语言写成。

Multics的实现语言PL/I不合我们的胃口，我们还使用了其他高级语言，包括BCPL语言，我们遗憾于失去了使用在汇编层次之上的语言的利益，比如易于书写和清晰理解。

那时我们没有重视可移植性；对此的兴趣是后来才唤起的。

Thompson面对的是在当时都是狭促和艰苦的硬件环境:

他在1968年起步时用的DECPDP-7是有8K18-bit字的内存而没有可用的软件的机器。

尽管想要使用一门高级语言，他还是用PDP-7汇编语言写了最初的Unix系统。

在开始时，他甚至没有在PDP-7自身上编程，而是在一个GE-635机器上使用GEMAP汇编器的一组宏。

一个后处理器生成PDP-7可读的纸带。

把这些纸带从GE机器运送到PDP-7上做测试，直到完成了原始的Unix内核、编辑器、汇编器、一个简单的shell（命令解释器）和一些实用工具（例如Unix的rm、cat、cp命令）。

此后，操作系统就自我支持了:

不用借助纸带就可以书写和测试程序了，在PDP-7自身上继续开发了。

Thompson的PDP-7汇编器在简单性上甚至胜过了DEC的；它求值（evaluate）表达式并表述出（emit）相应的二进制位。

这里没有库，没有装载器和连接器:

把程序的全部源代码提供给汇编器，固定名字的输出文件直接就是可执行的。

（a.out这个名字解释了一点Unix语源；它是汇编器的输出。

即使在系统增加了连接器和明确的指定另一个名字的方式之后，它仍被保留为编译后的缺省的可执行的结果。

）

在Unix首次在PDP-7上运行不久，在1969年，DougMcIlroy建立了新系统的第一个高级语言:

McClure的TMG[McClure65]的一个实现。

TMG（更一般的说是TransMoGrifiers）是书写编译器的语言，它采用把上下文无关语法概念和过程性元素组合起来的自顶向下递归下降方式。

McIlroy和BobMorris曾经使用TMG为Multics写过早期的PL/I编译器。

受到McIlroy在重新创作TMG中表现出的技艺的挑战，Thompson决定仍没有命名的Unix也需要一个系统编程语言。

在快速的放弃对Fortran的尝试之后，他转而建立自己的语言，他称之为B语言。

B语言可以被认为是没有类型的C语言；更加准确的说，它是压缩8K字节中的并经过Thompson的大脑过滤后的BCPL语言。

它的名字很可能表示BCPL的缩写，尽管还有一种说法说它是衍生自Bon语言[Thompson69]，它是Thompson在Multics时日中建立的一种无关的语言。

Bon依次要么命名于他的妻子Bonnie，要么依据有着呢喃的巫术仪式的一种宗教来命名的（依据在它的手册中的一个百科全书引用）。

起源:

语言

BCPL语言由MartinRichards在1960年代中期设计，当时他正在访问MIT，并在1970年代早期在一些有趣的项目中使用，包括在Oxford的OS6操作系统[Stoy72]，和XeroxPARC的有重大的影响（seminal）的Alto工作中[Thacker79]。

我们熟悉它是因为Richard在其上工作的MITCTSS系统[Corbato62]被用于Multics开发。

最初的BCPL语言编译器被BellLabs的RuddCanaday和其他人运输到Multics和GE-635GECOS系统上[Canaday69]；在Multics于BellLabs生命的最后剧痛期间和此后不久，它是后来与Unix涉及在一起的这组人所选择的语言。

BCPL语言、B语言和C语言都坚定的归属于以Fortran语言和Algol60语言为代表的传统过程式语言家族。

他们显著的面向于系统编程，都很小并被简洁的描述，和适合用简单的编译器来翻译。

它们都‘贴近于机器’，因为它们介入的抽象都容易的根基于常规的计算机提供的具体数据类型和操作之上，而且它们依靠库例程来来做输入-输出和与操作系统的其他交互。

有着小一些的成功，它们还使用库过程来指定有趣的控制构造比如协同例程（coroutine）和过程闭包（closure）。

同时，它们的抽象位于充分高的层次上，慎重的完成了在机器间的可移植性。

BCPL语言、B语言和C语言在很多细节上有语法上的区别，但在宏观上它们是类似的。

程序由一系列的全局声明和函数（过程）声明构成。

在BCPL中过程可以嵌套，但是对在包含过程中定义的非静态对象是不可引用的。

B和C语言通过施加更严格的限制来避免这种限制:

根本不允许嵌套的过程。

这些语言（除了早期版本的B语言）识别分开的编译，并提供包含指名文件的文本的方式。

BCPL的一些语法和词法机制要比B语言或C语言更加优雅和正规。

例如，BCPL的过程和数据声明有更加一致的结构，并提供更完整的一组循环构造。

尽管BCPL程序在概念上提供无界限的字符流，聪明的规则允许省略结束于行边界的语句之后多数分号。

B和C语言去除了这种便利，以分号终结多数语句。

不管有这些区别，多数BCPL语言的语句和操作符都可以直接映射到对应的B语言和C语言上。

在BCPL语言和B语言之间的某些结构性区别根源于在中介内存上的限制。

例如，BCPL语言声明采用下列形式

letP1becommand

andP2becommand

andP3becommand

...

这里用command表示的程序文本包含完整的过程。

子声明用and连接并同时出现，所以名字P3在过程P1内是可知的。

类似的，BCPL语言可以包装一组声明和语句到一个生成一个值的表达式中，例如

E1:

=valof（declarations;commands;resultisE2）+1

BCPL编译器通过在输出结果之前存储和分析整个程序的解析后的表示于内存中来容易的处理这种构造。

B 编译器的存储限制需要尽可能快的生成输出的一种一趟技术，而使之可能的语法性重新设计被被转接到C语言中。

BCPL语言的某些较少令人愉快的特征归咎于它自身的技术问题，而在B语言设计中被有意的避免了。

例如，BCPL语言为在独立编译的程序之间通信而使用了‘全局向量’机制。

在这种方案中，编程者显式的给每个外部可见的过程和数据对象的名字关联上在全局向量中的数值偏移量；连接是在编译后的代码中通过使用这些数值偏移量来完成的。

B语言最初通过坚持把整个程序一次提供给编译器来躲避了这种麻烦。

后来的B语言实现和所有C语言实现，使用常规的连接器来解析在单独编译的文件中出现的外部名字，而不是把分配偏移量的负担转加给编程者。

在从BCPL语言到B语言的过渡中的其他琐事是作为个人喜好的上事情而引入的，某些仍然有争议，例如决定使用单一字符=来替代:

=用做赋值。

类似的，B语言使用/**/来包围注释，而BCPL语言使用//，来忽略直到行末的文本。

这是明显的PL/I遗迹。

（C++复兴了BCPL语言的注释约定。

）Fortran语言影响了声明的语法:

B语言声明开始于说明符（specifier）比如auto或static，随后是一列名字，C不只是依从这种风格，而且通过在声明的开始处放置类型关键字来修饰它。

在Richard的书[Richards79]中加以文档的BCPL语言和B语言之间的区别不都是故意的；我们开始自BCPL语言的一个早期版本[Richards67]。

例如，当我们在1960年代学习它的时候，从BCPL语言的switchon语句中退出的endcase是不存在的，所以过载（overload）了break关键字来从B语言和C语言的switch语句中退出，这归功于分裂演进而不是有意的变革。

与在建立B语言期间发生的普遍深入的语法变革相对比，BCPL语言的核心语义内容，它的类型结构和表达式求值规则，都完整的保留了。

两种语言都是无类型的，更准确的说是有一个单一的数据类型，‘字（word）’或者叫‘单元（cell）’,它是固定长度的位模式（pattern）。

在这些语言内存由这种单元的一个线形数组构成，单元的内容的意义依赖于应用在其上的操作。

例如+操作符使用机器的整数加法指令来加它的操作数，其他算术操作也不去体察它们的操作数的实际意义。

因为内存是线性数组，可以把在单元中的值解释为这个数组的索引，BCPL语言为此提供了一个操作符。

在最初的语言中它拼写为rv，后来是!

，而B语言使用了一元的*。

所以，如果p是包含另一个单元的索引（地址或指针）的单元，则*p引用指向的单元的内容，要么作为表达式中的值要么作为赋值的目标。

因为在BCPL语言和B语言中的指针只是在内存数组中的整数索引，在它们上的算术操作是有意义的:

如果p是一个单元的地址，则p+1是下一个单元的地址。

这种约定是在两种语言中数组语义的基础。

在BCPL语言中我们写

letV=vec10

而在B语言中为

autoV[10];

效果是相同的:

分配命名为V的一个单元，接着留出另一组10个连续的单元，并把其中第一个单元的内存索引放置到V中。

作为一般规则，B语言表达式

*（V+i）

加V和i，并引用V后面的第i个位置。

BCPL语言和B语言都增加了特殊符号来美化这种数组访问；在B语言中等价的表达式是

V[i]

在BCPL中是

访问数组的这种方式在当时是不同寻常的；C语言随后以更不常规的方式吸收了它。

BCPL语言、B语言和C语言都不在语言中强力的支持字符数据；它们都把字符串作为整数的向量那样对待，并通过一些约定来补充上一般规则。

在BCPL语言和B语言中，字符串严格的指示用包装到单元中的字符串字符来初始化的静态区域的地址。

在BCPL语言中，第一个包装的字节包含字符串中字符的数目；在B语言中，没有计数并用特殊字符终结字符串，B语言把它拼写为‘*e’。

做这个变更部分的为了避免在字符串长度上的限制，这是由于在8或9位槽（slot）中持有计数导致的，部分的原因是按我们的经验维护这个计数好象比使用终结符更不方便。

操纵BCPL字符串中的单独字符通常需要把字符串展开另一个数组中，每单元一个字符，并在以后重新包装他们；B提供了对应例程，但是人们更经常使用访问或替代字符串中的单独字符的其他库函数。

更多的历史

在TMG版本的B语言工作了之后，Thompson用B语言自身重写了它（引导步骤）。

在开发期间，他不断的与内存限制作斗争:

每次语言增加都会膨胀编译器而几乎不能适合内存限制，而利用这些特征的每次重写都缩小它的大小。

例如，B语言介入了通用的赋值操作符，使用x=+y做加y到x。

这个符号来自Algol68语言[Wijngaarden75]，这是McIlroy合并到它的TMG版本中的。

（在B语言和早期的C语言中，这个操作符拼写为=+而不是+=；这个错误在1976年被修正了，这是由于在B语言的词法分析器中处理第一种形式是容易的方式而导致的。

）

Thompson通过发明表示增加和减少的++和--操作符而更进了一步；它们在前缀或后缀的位置上，决定变更发生在记录下（note）这个操作数的值之前还是之后。

它们在最早版本的B语言不存在，但是顺道就出现了。

人们经常猜测建立它们是为了使用C和Unix在其上变得流行的DECPDP-11所提供的自增和自减寻址模式。

这在历史上是不可能的，因为在开发B语言的时候还没有PDP-11。

但是，PDP-7确实有一些‘自增’内存单元，带有通过它们的间接内存引用会增加这些单元的特性。

这个特征可能向Thompson暗示了这种操作符；使其作为前缀和后缀二者的一般化是他自己的想法。

实际上，在这个操作符的实现中没有直接使用自增单元，这个创新的更强的动机可能是转译++x比x=x+1更小。

在PDP-7上的B编译器不生成机器指令，而是‘穿线（threaded）代码’[Bell72]，这是一种解释性的方案，编译器的输出由一序列的进行基本操作的代码片断（fragment）的地址构成。

这些操作典型的让B在简单的栈机器上活动。

在PDP-7Unix系统上，除了B语言自身之外只有很少的东西是用B语言写的，因为这个机器太小并且太慢来做实验之外更多的事情；用B语言重写整个操作系统和实用工具是太昂贵了而不可行的。

在某种程度上，Thompson通过提供一个‘虚拟B’编译器缓解地址空间紧张，它通过在解释器内分页代码和数据来允许解释程序在解释器内占用多于8K字节空间，但是对于实用于公共工具它还是太慢了。

尽管如此，还是出现了用B语言写的实用工具，包括Unix用户熟悉的可变精度计算器dc的早期版本[McIlroy79]。

我承担的最有雄心的计划是把B语言转换成GE-635机器指令而不是穿线代码的真正的交叉编译器。

这是个小特技:

完整的B编译器，用它自己的语言写成并生成36位主机的代码，它在有4K字的用户空间的18位机器上运行。

这个计划可行只是因为B语言的简单性和它的运行时间系统。

尽管我们偶尔考虑实现当时的某个主要语言，象Fortran、PL/I,或Algol68，这种计划对于我们的资源而言好像太大了:

需要的是更加简单和小的工具。

所有这些语言都影响了我们的工作，但靠我们自己做事情更加好玩了。

在1970年，Unix计划展示出足够的承诺，我们可以要求新DECPDP-11。

这个处理器是DEC供货的第一批，在它的磁盘到来之前就过去了三个月。

使用穿线技术使B程序在其上运行只要求为操作符写代码片段，和我用B语言写的一个简单的汇编器；不久，dc成为在我们的PDP-11上在任何操作系统之前测试的第一解释性程序。

在等待磁盘期间，Thompson用PDP-11汇编语言迅速的重新编码Unix内核和一些命令。

在机器的24K字节的内存中，最早的PDP-11Unix系统使用12K字节用于操作系统，一个小空间用于用户程序，余下的用于一个RAM磁盘。

这个版本只用于测试而不是实际工作；机器通过枚举棋盘上各种大小的闭合的跳马巡回来消磨时间。

一旦它的磁盘出现了，我们在转换汇编语言命令到PDP-11方言并移植已经用B语言写的那些东西之后，快速的迁移到了它上面。

在1971年，我们的微型的计算机中心开始有用户了。

我们想要更加容易的建造有趣的软件。

使用汇编语言很沉闷，不去管B语言性能问题，它已经被补充上了有用的服务例程的一个小库，并被越来越多的新程序所使用。

这个时期中最显著的成果是SteveJohnson的yacc分析器生成器的第一个版本[Johnson79a]。

B的问题

我们在其上第一次使用BCPL和此后的B的机器是字寻址的，而这些语言的单一的数据类型‘单元’（cell）舒适的等同于硬件机器字。

PDP-11的出现暴露了B语义模型的不充分。

首先，它的字符处理机制，继承自BCPL语言并有一些改变，是蠢笨的:

为了访问和替代单独的字符，要使用库过程展开包装后的字符串到单独的单元中并接着重新包装它们，在面向字节的机器上显得很笨拙甚至愚蠢。

其次，尽管最初的PDP-11不提供浮点算术，制造商承诺不久就能获得。

在我们的Multics和GCOS编译器中通过定义特殊的操作符来向BCPL语言增加浮点操作，但是这种机制只在相关的机器上是可能的，因为一个单一字对包含一个浮点数值是足够大的；在16-bitPDP-11上是不行的。

最后，B语言和BCPL语言模型暗含了在处理指针上的花费:

定义指针为字的数组的索引，这种语言规则强制指针被表示为字的索引。

每次指针引用都要产生运行时间的从指针到硬件期望的字节地址的度量单位转换。

出于这些原因，为了妥善处理字符和字节寻址和将要到来的浮点硬件，类型方案看来是必须的。

其他要点，特别是类型安全和整数检查不如它们重要而后来才出现。

除了语言自身的问题，B编译器的穿线代码技术生成的程序与它们的汇编语言类似物相比太慢了，我们低估用B语言重新编码操作系统或它的主要实用工具的可能性。

在1971年我开始通过增加字符类型来扩展B语言，并重写了它的编译器来生成PDP-11机器码替代穿线代码。

所以从B语言到C语言的过渡是同建立有能力生成足够快和小的程序去与汇编语言竞争的编译器同时期的。

我称这个轻微扩展的语言为NB，意为‘newB’。

萌发的C

NB存在的如此短暂以至于没有写对它的完整描述。

它提供类型int和char、它们的数组、到它们的指针，按下列例子代表的方式来声明

inti,j;

charc,d;

intiarray[10];

intipointer[];

charcarray[10];

charcpointer[];

B语言和BCPL语言的数组语义被完全的保留了:

iarray和carray的声明动态的建立单元，分别动态的初始化为指向10个整数和字符的序列中第一个位置的值。

ipointer和cpointer的声明省略了大小，声称不应当自动分配存储。

在过程内，语言对指针的解释等同于数组变量:

只有在编程者希望指派一个指示物（referent），而不让编译器分配空间并初始化这个单元的时候，建立一个单元指针的声明不同于数组声明。

在绑定到数组和指针名字的单元中所存储的值，是对应的存储区域的按字节度量的机器地址。

所以，通过指针的间接不暗含着从字到字节偏移量缩放的运行时间开销。

在另一方面，数组下标和指针算术的机器代码现在依赖于数组或指针的类型:

要计算iarray[i]或ipointer+i则暗含着按照所引用的对象的大小来缩放加数i。

这些语义表现了从B语言的平缓的过渡，我试验了它们几个月。

当我尝试扩展类型表示法（notation）的时候问题变得明显了，特别是在增加结构（纪录）类型的时候。

结构好像应当以直觉的方式映射到机器的内存上，但是在包含数组的结构中，这里没有好地方来隐藏包含这个数组的基址的指针，也没有安排初始化它的任何方便方式。

例如，早期的Unix系统的目录条目可以用C语言描述为

struct{

intinumber;

charname[14];

};

我希望结构不只是刻画一个抽象的对象，而且还要描述可以从目录中读出的一组数位。

编译器能在什么地方隐藏语义所需要的到name的指针?

即使结构可以想象的更加抽象，而且可以用某种方式隐藏这种指针，我如何处理在分配

展开阅读全文