C 语言的开发.docx-资源下载

C 语言的开发.docx

1、C 语言的开发C 语言的开发 Dennis M. Ritchie Bell Labs/Lucent TechnologiesMurray Hill, NJ 07974 USAdmrbell- 翻译：寒蝉退士译者声明：译者对译文不做任何担保，译者对译文不拥有任何权利并且不负担任何责任和义务。原文：http:/cm.bell-摘要C 编程语言是在 1970 年代早期作为初创的 Unix 操作系统的系统实现语言而设计的。起源于无类型的 BCPL 语言，它发展出了类型结构；它建立在一个小机器上、作为改善其贫乏的编程环境的工具，它现在已经成为占主导地位的语言之一。本文研讨它的演变。注意: *Copyr

2、ight 1993 Association for Computing Machinery, Inc. This electronic reprint made available by the author as a courtesy. For further publication rights contact ACM or the author. This article was presented at Second History of Programming Languages conference, Cambridge, Mass., April, 1993. It was th

3、en collected in the conference proceedings: History of Programming Languages-II ed. Thomas J. Bergin, Jr. and Richard G. Gibson, Jr. ACM Press (New York) and Addison-Wesley (Reading, Mass), 1996; ISBN 0-201-89502-1. 介绍本文专注于 C 编程语言的开发，它受到的影响，和创造它所处的条件。出于简要性的原因，我省略了对 C 语言本身、它的父辈 B 语言Johnson 73 和它的祖父辈

4、BCPL 语言Richards 79 的完整描述，而是集中在每种语言的特征性要素和它们是如何演变的。C 语言形成于 1969-1973 年之间，平行于 Unix 操作系统的早期开发；最活跃的时期发生在 1972。另一次变化涌现在 1977 年和 1979 年之间达到高峰，此时 Unix 系统的可移植性被证实了。在第二个时期的中间，出现了第一个可广泛获得的语言描述: The C Programming Language，它常被称为白皮书或K&RKernighan 78。最后，在 1980 年代中期， ANSI X3J11 委员会正式标准化了这门语言，它做了进一步的改变。直到 1980 年代早期，

5、尽管编译器存在于各种机器体系和操作系统之上，C 语言几乎还是专门的关联于 Unix 操作系统；最近，它的使用传播得更加广泛，今天它是整个计算机工业中最常用的语言之一。历史: 起步 1960 年代晚期对于 Bell 电话实验室的计算机系统研究而言是个喧闹的时期Ritchie 78 Ritchie 84。公司脱离出了 Multics 计划Organick 75，它是作为 MIT、General Electric 和 Bell Labs 的合资项目发起的；在 1969 年，Bell Labs 管理者甚至是研究者，开始相信履行对 Multics 的承诺太晚了也太昂贵了。甚至在 GE-645 Mult

6、ics 机器被从前提中去除之前，主要由 Ken Thompson 领导的一个非正式小组就已经开始调研替代者了。 Thompson 希望创造一个舒适的计算环境，依据他自己的设计来构造，使用能用上的任何手段。回顾起来，他的设计结合了很多 Multics 的创新方面，包括作为控制的处所的明确的进程概念，树状结构的文件系统，作为用户级别程序的命令解释器，文本文件的简单表示，和对设备的一般化访问。他排除了其他一些东西，比如对内存和文件的统一的访问。而且在开始时，他和我们中其余的人推延了 Multics 的另一个先驱性(尽管不是首创)的要素，就是基本上完全用高级语言写成。Multics 的实现语言 PL/

7、I 不合我们的胃口，我们还使用了其他高级语言，包括 BCPL 语言，我们遗憾于失去了使用在汇编层次之上的语言的利益，比如易于书写和清晰理解。那时我们没有重视可移植性；对此的兴趣是后来才唤起的。 Thompson 面对的是在当时都是狭促和艰苦的硬件环境: 他在 1968 年起步时用的 DEC PDP-7 是有 8K 18-bit 字的内存而没有可用的软件的机器。尽管想要使用一门高级语言，他还是用 PDP-7 汇编语言写了最初的 Unix 系统。在开始时，他甚至没有在 PDP-7 自身上编程，而是在一个 GE-635 机器上使用 GEMAP 汇编器的一组宏。一个后处理器生成 PDP-7 可读的纸带

8、。把这些纸带从 GE 机器运送到 PDP-7 上做测试，直到完成了原始的 Unix 内核、编辑器、汇编器、一个简单的 shell(命令解释器)和一些实用工具(例如 Unix 的 rm、cat、cp 命令)。此后，操作系统就自我支持了: 不用借助纸带就可以书写和测试程序了，在 PDP-7 自身上继续开发了。 Thompson 的 PDP-7 汇编器在简单性上甚至胜过了 DEC 的；它求值(evaluate)表达式并表述出(emit)相应的二进制位。这里没有库，没有装载器和连接器: 把程序的全部源代码提供给汇编器，固定名字的输出文件直接就是可执行的。(a.out 这个名字解释了一点 Unix 语

9、源；它是汇编器的输出。即使在系统增加了连接器和明确的指定另一个名字的方式之后，它仍被保留为编译后的缺省的可执行的结果。) 在 Unix 首次在 PDP-7 上运行不久，在 1969 年，Doug McIlroy 建立了新系统的第一个高级语言: McClure 的 TMG McClure 65的一个实现。TMG(更一般的说是 TransMoGrifiers)是书写编译器的语言，它采用把上下文无关语法概念和过程性元素组合起来的自顶向下递归下降方式。McIlroy 和 Bob Morris 曾经使用 TMG 为 Multics 写过早期的 PL/I 编译器。受到 McIlroy 在重新创作 TMG

10、中表现出的技艺的挑战，Thompson 决定仍没有命名的 Unix 也需要一个系统编程语言。在快速的放弃对 Fortran 的尝试之后，他转而建立自己的语言，他称之为 B 语言。B 语言可以被认为是没有类型的 C 语言；更加准确的说，它是压缩 8K 字节中的并经过 Thompson 的大脑过滤后的 BCPL 语言。它的名字很可能表示 BCPL 的缩写，尽管还有一种说法说它是衍生自 Bon 语言Thompson 69，它是 Thompson 在 Multics 时日中建立的一种无关的语言。Bon 依次要么命名于他的妻子 Bonnie，要么依据有着呢喃的巫术仪式的一种宗教来命名的(依据在它的手册

11、中的一个百科全书引用)。起源: 语言 BCPL 语言由 Martin Richards 在 1960 年代中期设计，当时他正在访问 MIT，并在 1970 年代早期在一些有趣的项目中使用，包括在 Oxford 的 OS6 操作系统Stoy 72，和 Xerox PARC 的有重大的影响(seminal)的 Alto 工作中Thacker 79。我们熟悉它是因为 Richard 在其上工作的 MIT CTSS 系统Corbato 62被用于 Multics 开发。最初的 BCPL 语言编译器被 Bell Labs 的 Rudd Canaday 和其他人运输到 Multics 和 GE-635

12、GECOS 系统上Canaday 69；在 Multics 于 Bell Labs 生命的最后剧痛期间和此后不久，它是后来与 Unix 涉及在一起的这组人所选择的语言。 BCPL 语言、B 语言和 C 语言都坚定的归属于以 Fortran 语言和 Algol 60 语言为代表的传统过程式语言家族。他们显著的面向于系统编程，都很小并被简洁的描述，和适合用简单的编译器来翻译。它们都贴近于机器，因为它们介入的抽象都容易的根基于常规的计算机提供的具体数据类型和操作之上，而且它们依靠库例程来来做输入-输出和与操作系统的其他交互。有着小一些的成功，它们还使用库过程来指定有趣的控制构造比如协同例程(coro

13、utine)和过程闭包(closure)。同时，它们的抽象位于充分高的层次上，慎重的完成了在机器间的可移植性。 BCPL 语言、B 语言和 C 语言在很多细节上有语法上的区别，但在宏观上它们是类似的。程序由一系列的全局声明和函数(过程)声明构成。在 BCPL 中过程可以嵌套，但是对在包含过程中定义的非静态对象是不可引用的。B 和 C 语言通过施加更严格的限制来避免这种限制: 根本不允许嵌套的过程。这些语言(除了早期版本的 B 语言)识别分开的编译，并提供包含指名文件的文本的方式。 BCPL 的一些语法和词法机制要比 B 语言或 C 语言更加优雅和正规。例如，BCPL 的过程和数据声明有更加一致

14、的结构，并提供更完整的一组循环构造。尽管 BCPL 程序在概念上提供无界限的字符流，聪明的规则允许省略结束于行边界的语句之后多数分号。B 和 C 语言去除了这种便利，以分号终结多数语句。不管有这些区别，多数 BCPL 语言的语句和操作符都可以直接映射到对应的 B 语言和 C 语言上。在 BCPL 语言和 B 语言之间的某些结构性区别根源于在中介内存上的限制。例如，BCPL 语言声明采用下列形式 let P1 be command and P2 be command and P3 be command .这里用 command 表示的程序文本包含完整的过程。子声明用 and 连接并同时出现，所

15、以名字 P3 在过程 P1 内是可知的。类似的，BCPL 语言可以包装一组声明和语句到一个生成一个值的表达式中，例如 E1 := valof ( declarations ; commands ; resultis E2 ) + 1BCPL 编译器通过在输出结果之前存储和分析整个程序的解析后的表示于内存中来容易的处理这种构造。B 编译器的存储限制需要尽可能快的生成输出的一种一趟技术，而使之可能的语法性重新设计被被转接到 C 语言中。 BCPL 语言的某些较少令人愉快的特征归咎于它自身的技术问题，而在 B 语言设计中被有意的避免了。例如，BCPL 语言为在独立编译的程序之间通信而使用了全局向量机

16、制。在这种方案中，编程者显式的给每个外部可见的过程和数据对象的名字关联上在全局向量中的数值偏移量；连接是在编译后的代码中通过使用这些数值偏移量来完成的。B 语言最初通过坚持把整个程序一次提供给编译器来躲避了这种麻烦。后来的 B 语言实现和所有 C 语言实现，使用常规的连接器来解析在单独编译的文件中出现的外部名字，而不是把分配偏移量的负担转加给编程者。在从 BCPL 语言到 B 语言的过渡中的其他琐事是作为个人喜好的上事情而引入的，某些仍然有争议，例如决定使用单一字符 = 来替代 := 用做赋值。类似的，B 语言使用 /* */ 来包围注释，而 BCPL 语言使用 /，来忽略直到行末的文本。这

17、是明显的 PL/I 遗迹。(C+ 复兴了 BCPL 语言的注释约定。) Fortran 语言影响了声明的语法: B 语言声明开始于说明符(specifier)比如 auto 或 static，随后是一列名字，C 不只是依从这种风格，而且通过在声明的开始处放置类型关键字来修饰它。在 Richard 的书Richards 79中加以文档的 BCPL 语言和 B 语言之间的区别不都是故意的；我们开始自 BCPL 语言的一个早期版本Richards 67。例如，当我们在 1960 年代学习它的时候，从 BCPL 语言的 switchon 语句中退出的 endcase 是不存在的，所以过载(overl

18、oad)了 break 关键字来从 B 语言和 C 语言的 switch 语句中退出，这归功于分裂演进而不是有意的变革。与在建立 B 语言期间发生的普遍深入的语法变革相对比，BCPL 语言的核心语义内容，它的类型结构和表达式求值规则，都完整的保留了。两种语言都是无类型的，更准确的说是有一个单一的数据类型，字(word)或者叫单元(cell), 它是固定长度的位模式(pattern)。在这些语言内存由这种单元的一个线形数组构成，单元的内容的意义依赖于应用在其上的操作。例如 + 操作符使用机器的整数加法指令来加它的操作数，其他算术操作也不去体察它们的操作数的实际意义。因为内存是线性数组，可以把在

19、单元中的值解释为这个数组的索引，BCPL 语言为此提供了一个操作符。在最初的语言中它拼写为 rv，后来是 !，而 B 语言使用了一元的 *。所以，如果 p 是包含另一个单元的索引(地址或指针)的单元，则 *p 引用指向的单元的内容，要么作为表达式中的值要么作为赋值的目标。因为在 BCPL 语言和 B 语言中的指针只是在内存数组中的整数索引，在它们上的算术操作是有意义的: 如果 p 是一个单元的地址，则 p+1 是下一个单元的地址。这种约定是在两种语言中数组语义的基础。在 BCPL 语言中我们写 let V = vec 10而在 B 语言中为auto V10;效果是相同的: 分配命名为 V 的

20、一个单元，接着留出另一组 10 个连续的单元，并把其中第一个单元的内存索引放置到 V 中。作为一般规则，B 语言表达式 *(V+i)加 V 和 i，并引用 V 后面的第 i 个位置。BCPL 语言和 B 语言都增加了特殊符号来美化这种数组访问；在 B 语言中等价的表达式是 Vi在 BCPL 中是 V!i访问数组的这种方式在当时是不同寻常的；C 语言随后以更不常规的方式吸收了它。 BCPL 语言、B 语言和 C 语言都不在语言中强力的支持字符数据；它们都把字符串作为整数的向量那样对待，并通过一些约定来补充上一般规则。在 BCPL 语言和 B 语言中，字符串严格的指示用包装到单元中的字符串字符来初

21、始化的静态区域的地址。在 BCPL 语言中，第一个包装的字节包含字符串中字符的数目；在 B 语言中，没有计数并用特殊字符终结字符串，B 语言把它拼写为*e。做这个变更部分的为了避免在字符串长度上的限制，这是由于在 8 或 9 位槽(slot)中持有计数导致的，部分的原因是按我们的经验维护这个计数好象比使用终结符更不方便。操纵 BCPL 字符串中的单独字符通常需要把字符串展开另一个数组中，每单元一个字符，并在以后重新包装他们；B 提供了对应例程，但是人们更经常使用访问或替代字符串中的单独字符的其他库函数。更多的历史在 TMG 版本的 B 语言工作了之后，Thompson 用 B 语言自身重

22、写了它(引导步骤)。在开发期间，他不断的与内存限制作斗争: 每次语言增加都会膨胀编译器而几乎不能适合内存限制，而利用这些特征的每次重写都缩小它的大小。例如，B 语言介入了通用的赋值操作符，使用 x=+y 做加 y 到 x。这个符号来自 Algol 68 语言Wijngaarden 75，这是 McIlroy 合并到它的 TMG 版本中的。(在 B 语言和早期的 C 语言中，这个操作符拼写为 =+ 而不是 += ；这个错误在 1976 年被修正了，这是由于在 B 语言的词法分析器中处理第一种形式是容易的方式而导致的。) Thompson 通过发明表示增加和减少的 + 和 - 操作符而更进了一步；

23、它们在前缀或后缀的位置上，决定变更发生在记录下(note)这个操作数的值之前还是之后。它们在最早版本的 B 语言不存在，但是顺道就出现了。人们经常猜测建立它们是为了使用 C 和 Unix 在其上变得流行的 DEC PDP-11 所提供的自增和自减寻址模式。这在历史上是不可能的，因为在开发 B 语言的时候还没有 PDP-11。但是，PDP-7 确实有一些自增内存单元，带有通过它们的间接内存引用会增加这些单元的特性。这个特征可能向 Thompson 暗示了这种操作符；使其作为前缀和后缀二者的一般化是他自己的想法。实际上，在这个操作符的实现中没有直接使用自增单元，这个创新的更强的动机可能是转译 +x

24、比 x=x+1 更小。在 PDP-7 上的 B 编译器不生成机器指令，而是穿线(threaded)代码Bell 72，这是一种解释性的方案，编译器的输出由一序列的进行基本操作的代码片断(fragment)的地址构成。这些操作典型的让 B 在简单的栈机器上活动。在 PDP-7 Unix 系统上，除了 B 语言自身之外只有很少的东西是用 B 语言写的，因为这个机器太小并且太慢来做实验之外更多的事情；用 B 语言重写整个操作系统和实用工具是太昂贵了而不可行的。在某种程度上，Thompson 通过提供一个虚拟 B编译器缓解地址空间紧张，它通过在解释器内分页代码和数据来允许解释程序在解释器内占用多

25、于 8K 字节空间，但是对于实用于公共工具它还是太慢了。尽管如此，还是出现了用 B 语言写的实用工具，包括 Unix 用户熟悉的可变精度计算器 dc 的早期版本McIlroy 79。我承担的最有雄心的计划是把 B 语言转换成 GE-635 机器指令而不是穿线代码的真正的交叉编译器。这是个小特技: 完整的 B 编译器，用它自己的语言写成并生成 36 位主机的代码，它在有 4K 字的用户空间的 18 位机器上运行。这个计划可行只是因为 B 语言的简单性和它的运行时间系统。尽管我们偶尔考虑实现当时的某个主要语言，象 Fortran、 PL/I, 或 Algol 68，这种计划对于我们的资源而言好

26、像太大了: 需要的是更加简单和小的工具。所有这些语言都影响了我们的工作，但靠我们自己做事情更加好玩了。在 1970 年，Unix 计划展示出足够的承诺，我们可以要求新 DEC PDP-11。这个处理器是 DEC 供货的第一批，在它的磁盘到来之前就过去了三个月。使用穿线技术使 B 程序在其上运行只要求为操作符写代码片段，和我用 B 语言写的一个简单的汇编器；不久，dc 成为在我们的 PDP-11 上在任何操作系统之前测试的第一解释性程序。在等待磁盘期间，Thompson 用 PDP-11 汇编语言迅速的重新编码 Unix 内核和一些命令。在机器的 24K 字节的内存中，最早的 PDP-11 U

27、nix 系统使用 12K 字节用于操作系统，一个小空间用于用户程序，余下的用于一个 RAM 磁盘。这个版本只用于测试而不是实际工作；机器通过枚举棋盘上各种大小的闭合的跳马巡回来消磨时间。一旦它的磁盘出现了，我们在转换汇编语言命令到 PDP-11 方言并移植已经用 B 语言写的那些东西之后，快速的迁移到了它上面。在 1971 年，我们的微型的计算机中心开始有用户了。我们想要更加容易的建造有趣的软件。使用汇编语言很沉闷，不去管 B 语言性能问题，它已经被补充上了有用的服务例程的一个小库，并被越来越多的新程序所使用。这个时期中最显著的成果是 Steve Johnson 的 yacc 分析器生成器

28、的第一个版本Johnson 79a。 B 的问题我们在其上第一次使用 BCPL 和此后的 B 的机器是字寻址的，而这些语言的单一的数据类型单元(cell)舒适的等同于硬件机器字。PDP-11 的出现暴露了 B 语义模型的不充分。首先，它的字符处理机制，继承自 BCPL 语言并有一些改变，是蠢笨的: 为了访问和替代单独的字符，要使用库过程展开包装后的字符串到单独的单元中并接着重新包装它们，在面向字节的机器上显得很笨拙甚至愚蠢。其次，尽管最初的 PDP-11 不提供浮点算术，制造商承诺不久就能获得。在我们的 Multics 和 GCOS 编译器中通过定义特殊的操作符来向 BCPL 语言增加浮点

29、操作，但是这种机制只在相关的机器上是可能的，因为一个单一字对包含一个浮点数值是足够大的；在 16-bit PDP-11 上是不行的。最后，B 语言和 BCPL 语言模型暗含了在处理指针上的花费: 定义指针为字的数组的索引，这种语言规则强制指针被表示为字的索引。每次指针引用都要产生运行时间的从指针到硬件期望的字节地址的度量单位转换。出于这些原因，为了妥善处理字符和字节寻址和将要到来的浮点硬件，类型方案看来是必须的。其他要点，特别是类型安全和整数检查不如它们重要而后来才出现。除了语言自身的问题，B 编译器的穿线代码技术生成的程序与它们的汇编语言类似物相比太慢了，我们低估用 B 语言重新编码

30、操作系统或它的主要实用工具的可能性。在 1971 年我开始通过增加字符类型来扩展 B 语言，并重写了它的编译器来生成 PDP-11 机器码替代穿线代码。所以从 B 语言到 C 语言的过渡是同建立有能力生成足够快和小的程序去与汇编语言竞争的编译器同时期的。我称这个轻微扩展的语言为 NB，意为new B。萌发的 C NB 存在的如此短暂以至于没有写对它的完整描述。它提供类型 int 和 char、它们的数组、到它们的指针，按下列例子代表的方式来声明 int i, j;char c, d;int iarray10;int ipointer;char carray10;char cpointer;

31、B 语言和 BCPL 语言的数组语义被完全的保留了: iarray 和 carray 的声明动态的建立单元，分别动态的初始化为指向 10 个整数和字符的序列中第一个位置的值。ipointer 和 cpointer 的声明省略了大小，声称不应当自动分配存储。在过程内，语言对指针的解释等同于数组变量: 只有在编程者希望指派一个指示物(referent)，而不让编译器分配空间并初始化这个单元的时候，建立一个单元指针的声明不同于数组声明。在绑定到数组和指针名字的单元中所存储的值，是对应的存储区域的按字节度量的机器地址。所以，通过指针的间接不暗含着从字到字节偏移量缩放的运行时间开销。在另一方面，数组下

32、标和指针算术的机器代码现在依赖于数组或指针的类型: 要计算 iarrayi 或 ipointer+i 则暗含着按照所引用的对象的大小来缩放加数 i 。这些语义表现了从 B 语言的平缓的过渡，我试验了它们几个月。当我尝试扩展类型表示法(notation)的时候问题变得明显了，特别是在增加结构(纪录)类型的时候。结构好像应当以直觉的方式映射到机器的内存上，但是在包含数组的结构中，这里没有好地方来隐藏包含这个数组的基址的指针，也没有安排初始化它的任何方便方式。例如，早期的 Unix 系统的目录条目可以用 C 语言描述为 struct int inumber;char name14;我希望结构不只是刻画一个抽象的对象，而且还要描述可以从目录中读出的一组数位。编译器能在什么地方隐藏语义所需要的到 name 的指针? 即使结构可以想象的更加抽象，而且可以用某种方式隐藏这种指针，我如何处理在分配

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？