GentooAwk实例第3部分.docx

资源描述

GentooAwk实例第3部分.docx

《GentooAwk实例第3部分.docx》由会员分享，可在线阅读，更多相关《GentooAwk实例第3部分.docx（14页珍藏版）》请在冰豆网上搜索。

GentooAwk实例第3部分.docx

GentooAwk实例第3部分

声明:

本文的原始版本最初发表于IBMdeveloperWorks，现在所有权归属WesttechInformationServices。

本文档是原始文档的更新版本，包含了GentooLinux文档团队所做的很多改进。

现在无人积极维护本文档。

Awk实例，第3部分

窗体顶端

内容:

窗体底端

1. 字符串函数和……支票簿？

格式化输出

虽然大多数情况下awk的print语句可以完成任务，但有时我们还需要更多。

在那些情况下，awk提供了两个我们熟知的老朋友printf（）和sprintf（）。

是的，如同其它许多awk部件一样，这些函数等同于相应的C语言函数。

printf（）会将格式化字符串打印到stdout，而sprintf（）则返回可以赋值给变量的格式化字符串。

如果不熟悉printf（）和sprintf（），介绍C语言的文章可以让您迅速了解这两个基本打印函数。

在Linux系统上，可以输入"man3printf"来查看printf（）帮助页面。

以下是一些awksprintf（）和printf（）的样本代码。

可以看到，它们几乎与C语言完全相同。

代码 1.1:

awksprintf（）和printf（）样本代码

x=1

b="foo"

printf（"%sgota%donthelasttest\n","Jim",83）

myout=（"%s-%d",b,x）

printmyout

此代码将打印：

代码 1.2:

代码输出

Jimgota83onthelasttest

foo-1

字符串函数

awk有许多字符串函数，这是件好事。

在awk中，确实需要字符串函数，因为不能象在其它语言（如C、C++和Python）中那样将字符串看作是字符数组。

例如，如果执行以下代码：

代码 1.3:

代码示例

mystring="Howareyoudoingtoday?

printmystring[3]

将会接收到一个错误，如下所示：

代码 1.4:

代码错误信息

awk:

string.gawk:

59:

fatal:

attempttousescalarasarray

噢，好吧。

虽然不象Python的序列类型那样方便，但awk的字符串函数还是可以完成任务。

让我们来看一下。

首先，有一个基本length（）函数，它返回字符串的长度。

以下是它的使用方法：

代码 1.5:

length（）函数示例

printlength（mystring）

此代码将打印值：

代码 1.6:

打印值

好，继续。

下一个字符串函数叫作index，它将返回子字符串在另一个字符串中出现的位置，如果没有找到该字符串则返回0。

使用mystring，可以按以下方法调用它：

代码 1.7:

index（）函数示例

printindex（mystring,"you"）

awk会打印：

代码 1.8:

函数输出

让我们继续讨论另外两个简单的函数，tolower（）和toupper（）。

与您猜想的一样，这两个函数将返回字符串并且将所有字符分别转换成小写或大写。

请注意，tolower（）和toupper（）返回新的字符串，不会修改原来的字符串。

这段代码：

代码 1.9:

将字符转换成大写或小写

printtolower（mystring）

printtoupper（mystring）

printmystring

……将产生以下输出：

代码 1.10:

输出

howareyoudoingtoday?

HOWAREYOUDOINGTODAY?

Howareyoudoingtoday?

到现在为止一切不错，但我们究竟如何从字符串中选择子串，甚至单个字符？

那就是使用substr（）的原因。

以下是substr（）的调用方法：

代码 1.11:

substr（）函数示例

mysub=substr（mystring,startpos,maxlen）

mystring应该是要从中抽取子串的字符串变量或文字字符串。

startpos应该设置成起始字符位置，maxlen应该包含要抽取的字符串的最大长度。

请注意，我说的是最大长度；如果length（mystring）比startpos+maxlen短，那么得到的结果就会被截断。

substr（）不会修改原始字符串，而是返回子串。

以下是一个示例：

代码 1.12:

另一个示例

printsubstr（mystring,9,3）

awk将打印：

代码 1.13:

awk的打印结果

you

如果您通常用于编程的语言使用数组下标访问部分字符串（以及不使用这种语言的人），请记住substr（）是awk代替方法。

需要使用它来抽取单个字符和子串；因为awk是基于字符串的语言，所以会经常用到它。

现在，我们讨论一些更耐人寻味的函数，首先是match（）。

match（）与index（）非常相似，它与index（）的区别在于它并不搜索子串，它搜索的是规则表达式。

match（）函数将返回匹配的起始位置，如果没有找到匹配，则返回0。

此外，match（）还将设置两个变量，叫作RSTART和RLENGTH。

RSTART包含返回值（第一个匹配的位置），RLENGTH指定它占据的字符跨度（如果没有找到匹配，则返回-1）。

通过使用RSTART、RLENGTH、substr（）和一个小循环，可以轻松地迭代字符串中的每个匹配。

以下是一个match（）调用示例：

代码 1.14:

match（）调用示例

printmatch（mystring,/you/）,RSTART,RLENGTH

awk将打印：

代码 1.15:

上面函数的输出

993

字符串替换

现在，我们将研究两个字符串替换函数，sub（）和gsub（）。

这些函数与目前已经讨论过的函数略有不同，因为它们确实修改原始字符串。

以下是一个模板，显示了如何调用sub（）：

代码 1.16:

sub（）函数模板

sub（regexp,replstring,mystring）

调用sub（）时，它将在mystring中匹配regexp的第一个字符序列，并且用replstring替换该序列。

sub（）和gsub（）用相同的自变量；唯一的区别是sub（）将替换第一个regexp匹配（如果有的话），gsub（）将执行全局替换，换出字符串中的所有匹配。

以下是一个sub（）和gsub（）调用示例：

代码 1.17:

sub（）和gsub（）函数调用示例

sub（/o/,"O",mystring）

printmystring

mystring="Howareyoudoingtoday?

gsub（/o/,"O",mystring）

printmystring

必须将mystring复位成其初始值，因为第一个sub（）调用直接修改了mystring。

在执行时，此代码将使awk输出：

代码 1.18:

awk输出

HOwareyoudoingtoday?

HOwareyOudOingtOday?

当然，也可以是更复杂的规则表达式。

我把测试一些复杂规则表达式的任务留给您来完成。

通过介绍函数split（），我们来汇总一下已讨论过的函数。

split（）的任务是“切开”字符串，并将各部分放到使用整数下标的数组中。

以下是一个split（）调用示例：

代码 1.19:

split（）调用示例

numelements=split（"Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec",mymonths,","）

调用split（）时，第一个自变量包含要切开文字字符串或字符串变量。

在第二个自变量中，应该指定split（）将填入片段部分的数组名称。

在第三个元素中，指定用于切开字符串的分隔符。

split（）返回时，它将返回分割的字符串元素的数量。

split（）将每一个片段赋值给下标从1开始的数组，因此以下代码：

代码 1.20:

代码示例

printmymonths[1],mymonths[numelements]

……将打印：

代码 1.21:

示例输出

JanDec

特殊字符串形式

简短注释──调用length（）、sub（）或gsub（）时，可以去掉最后一个自变量，这样awk将对$0（整个当前行）应用函数调用。

要打印文件中每一行的长度，使用以下awk脚本：

代码 1.22:

打印文件中每一行的长度

{

printlength（）

}

财务上的趣事

几星期前，我决定用awk编写自己的支票簿结算程序。

我决定使用简单的tab定界文本文件，以便于输入最近的存款和提款记录。

其思路是将这个数据交给awk脚本，该脚本会自动合计所有金额，并告诉我余额。

以下是我决定如何将所有交易记录到"ASCIIcheckbook"中：

代码 1.23:

ASCIIcheckbox的交易记录

23Aug2000food--YJimmy'sBuffet30.25

此文件中的每个字段都由一个或多个tab分隔。

在日期（字段1，$1）之后，有两个字段叫做“费用分类帐”和“收入分类帐”。

以上面这行为例，输入费用时，我在费用字段中放入四个字母的别名，在收入字段中放入"-"（空白项）。

这表示这一特定项是“食品费用”。

）以下是存款的示例：

代码 1.24:

存款示例

23Aug2000-inco-YBossMan2001.00

在这个实例中，我在费用分类帐中放入"-"（空白），在收入分类帐中放入"inco"。

"inco"是一般（薪水之类）收入的别名。

使用分类帐别名让我可以按类别生成收入和费用的明细分类帐。

至于记录的其余部分，其它所有字段都是不需加以说明的。

“是否付清？

”字段（"Y"或"N"）记录了交易是否已过帐到我的帐户；除此之外，还有一个交易描述，和一个正的美元金额。

用于计算当前余额的算法不太难。

awk只需要依次读取每一行。

如果列出了费用分类帐，但没有收入分类帐（为"-"），那么这一项就是借方。

如果列出了收入分类帐，但没有费用分类帐（为"-"），那么这一项就是贷方。

而且，如果同时列出了费用和收入分类帐，那么这个金额就是“分类帐转帐”；即，从费用分类帐减去美元金额，并将此金额添加到收入分类帐。

此外，所有这些分类帐都是虚拟的，但对于跟踪收入和支出以及预算却非常有用。

代码

现在该研究代码了。

我们将从第一行（BEGIN块和函数定义）开始：

代码 1.25:

balance，第1部分

/usr/bin/envawk-f

BEGIN{

FS="\t+"

months="JanFebMarAprMayJunJulAugSepOctNovDec"

}

functionmonthdigit（mymonth）{

return（index（months,mymonth）+3）/4

}

首先执行"chmod+xmyscript"命令，那么将第一行"#!

..."添加到任何awk脚本将使它可以直接从shell中执行。

其余行定义了BEGIN块，在awk开始处理支票簿文件之前将执行这个代码块。

我们将FS（字段分隔符）设置成"\t+"，它会告诉awk字段由一个或多个tab分隔。

另外，我们定义了字符串months，下面将出现的monthdigit（）函数将使用它。

最后三行显示了如何定义自己的awk。

格式很简单──输入"function"，再输入名称，然后在括号中输入由逗号分隔的参数。

在此之后，"{}"代码块包含了您希望这个函数执行的代码。

所有函数都可以访问全局变量（如months变量）。

另外，awk提供了"return"语句，它允许函数返回一个值，并执行类似于C和其它语言中"return"的操作。

这个特定函数将以3个字母字符串格式表示的月份名称转换成等价的数值。

例如，以下代码：

代码 1.26:

monthdigit（）调用示例

printmonthdigit（"Mar"）

……将打印：

代码 1.27:

monthdigit（）调用示例

现在，让我们讨论其它一些函数。

财务函数

以下是其它三个执行簿记的函数。

我们即将见到的主代码块将调用这些函数之一，按顺序处理支票簿文件的每一行，从而将相应交易记录到awk数组中。

有三种基本交易，贷方（doincome）、借方（doexpense）和转帐（dotransfer）。

您会发现这三个函数全都接受一个自变量，叫作mybalance。

mybalance是二维数组的一个占位符，我们将它作为自变量进行传递。

目前，我们还没有处理过二维数组；但是，在下面可以看到，语法非常简单。

只须用逗号分隔每一维就行了。

我们将按以下方式将信息记录到"mybalance"中。

数组的第一维从0到12，用于指定月份，0代表全年。

第二维是四个字母的分类帐，如"food"或"inco"；这是我们处理的真实分类帐。

因此，要查找全年食品分类帐的余额，应查看mybalance[0,"food"]。

要查找6月的收入，应查看mybalance[6,"inco"]。

代码 1.28:

查找出入信息

functiondoincome（mybalance）{

mybalance[curmonth,$3]+=amount

mybalance[0,$3]+=amount

}

functiondoexpense（mybalance）{

mybalance[curmonth,$2]-=amount

mybalance[0,$2]-=amount

}

functiondotransfer（mybalance）{

mybalance[0,$2]-=amount

mybalance[curmonth,$2]-=amount

mybalance[0,$3]+=amount

mybalance[curmonth,$3]+=amount

}

调用doincome（）或任何其它函数时，我们将交易记录到两个位置──mybalance[0,category]和mybalance[curmonth,category]，它们分别表示全年的分类帐余额和当月的分类帐余额。

这让我们稍后可以轻松地生成年度或月度收入／支出明细分类帐。

如果研究这些函数，将发现在我的引用中传递了mybalance引用的数组。

另外，我们还引用了几个全局变量：

curmonth，它保存了当前记录所属的月份的数值，$2（费用分类帐），$3（收入分类帐）和金额（$7，美元金额）。

调用doincome（）和其它函数时，已经为要处理的当前记录（行）正确设置了所有这些变量。

主块

以下是主代码块，它包含了分析每一行输入数据的代码。

请记住，由于正确设置了FS，可以用$1引用第一个字段，用$2引用第二个字段，依次类推。

调用doincome（）和其它函数时，这些函数可以从函数内部访问curmonth、$2、$3和金额的当前值。

请先研究代码，在代码之后可以见到我的说明。

代码 1.29:

balance，第3部分

{

curmonth=monthdigit（substr（$1,4,3））

amount=$7

#recordallthecategoriesencountered

if（$2!

="-"）

globcat[$2]="yes"

if（$3!

="-"）

globcat[$3]="yes"

#tallyupthetransactionproperly

if（$2=="-"）{

if（$3=="-"）{

print"Error:

incandexpfieldsarebothblank!

exit1

}else{

#thisisincome

doincome（balance）

if（$5=="Y"）

doincome（balance2）

}

}elseif（$3=="-"）{

#thisisanexpense

doexpense（balance）

if（$5=="Y"）

doexpense（balance2）

}else{

#thisisatransfer

dotransfer（balance）

if（$5=="Y"）

dotransfer（balance2）

}

在主块中，前两行将curmonth设置成1到12之间的整数，并将金额设置成字段7（使代码易于理解）。

然后，是四行有趣的代码，它们将值写到数组globcat中。

globcat，或称作全局分类帐数组，用于记录在文件中遇到的所有分类帐──"inco"、"misc"、"food"、"util"等。

例如，如果$2=="inco"，则将globcat["inco"]设置成"yes"。

稍后，我们可以使用简单的"for（xinglobcat）"循环来迭代分类帐列表。

在接着的大约二十行中，我们分析字段$2和$3，并适当记录交易。

如果$2=="-"且$3!

="-"，表示我们有收入，因此调用doincome（）。

如果是相反的情况，则调用doexpense（）；如果$2和$3都包含分类帐，则调用dotransfer（）。

每次我们都将"balance"数组传递给这些函数，从而在这些函数中记录适当的数据。

您还会发现几行代码说“if（$5=="Y"），那么将同一个交易记录到balance2中”。

我们在这里究竟做了些什么？

您将回忆起$5包含"Y"或"N"，并记录交易是否已经过帐到帐户。

由于仅当过帐了交易时我们才将交易记录到balance2，因此balance2包含了真实的帐户余额，而"balance"包含了所有交易，不管是否已经过帐。

可以使用balance2来验证数据项（因为它应该与当前银行帐户余额匹配），可以使用"balance"来确保没有透支帐户（因为它会考虑您开出的尚未兑现的所有支票）。

生成报表

主块重复处理了每一行记录之后，现在我们有了关于比较全面的、按分类帐和按月份划分的借方和贷方记录。

现在，在这种情况下最合适的做法是只须定义生成报表的END块：

代码 1.30:

生成最终报表

END{

bal=0

bal2=0

for（xinglobcat）{

bal=bal+balance[0,x]

bal2=bal2+balance2[0,x]

}

printf（"Youravailablefunds:

%10.2f\n",bal）

printf（"Youraccountbalance:

%10.2f\n",bal2）

}

这个报表将打印出汇总，如下所示：

代码 1.31:

最终报表

Youravailablefunds:

1174.22

Youraccountbalance:

2399.33

在END块中，我们使用"for（xinglobcat）"结构来迭代每一个分类帐，根据记录在案的交易结算主要余额。

实际上，我们结算两个余额，一个是可用资金，另一个是帐户余额。

要执行程序并处理您在文件"mycheckbook.txt"中输入的财务数据，将以上所有代码放入文本文件"balance"执行"chmod+xbalance"，然后输入"./balancemycheckbook.txt"。

然后balance脚本将合计所有交易，打印出两行余额汇总。

升级

我使用这个程序的更高级版本来管理我的个人和企业财务。

我的版本（由于篇幅限制不能在此涵盖）会打印出收入和费用的月度明细分类帐，包括年度总合、净收入和其它许多内容。

它甚至以HTML格式输出数据，因此我可以在Web浏览器中查看它。

）如果您认为这个程序有用，我建议您将这些特性添加到这个脚本中。

不必将它配置成要记录任何附加信息；所需的全部信息已经在balance和balance2里面了。

只要升级END块就万事具备了！

我希望您喜欢本系列。

有关awk的详细信息，请参考以下列出的参考资料。

2. 参考资料

∙请阅读Daniel在developerWorks上的其他awk文章：

通用线程：

Awk实例，第1部分和第2部分。

∙如果想看好的老式书籍，O'Reilly的sed&awk,2ndEdition是极佳选择。

∙请参考comp.lang.awkFAQ。

它还包含许多附加awk链接。

∙PatrickHartigan的awktutorial还包括了实用的awk脚本。

∙Thompson'sTAWKCompiler将awk脚本编译成快速二进制可执行文件。

可用版本有Windows版、OS/2版、DOS版和UNIX版。

∙GNUAwk用户指南可用于在线参考。

展开阅读全文