wordsmith中文说明.docx
《wordsmith中文说明.docx》由会员分享,可在线阅读,更多相关《wordsmith中文说明.docx(14页珍藏版)》请在冰豆网上搜索。
wordsmith中文说明
I.WordSmithTools简介:
WordSmithTools是一个在Window下运行的用来观测文字在文本中的表现的功能强大的综合软件包。
它共包含Concord语境共现检索工具)、WordList(词频列表检索工具)、Keywords关键词检索工具)、Splitter(文本分割工具)、TextConverter(文本替换工具)、Viewer(文本浏览工具)等六个程序,其中前面三个程序是主要的文本检索工具,后面三个程序属于辅助性工具。
这六个程序的各项设置由一个叫WordSmithToolsController(文字匠工具控制器)的程序来控制。
II.各个工具的操作和主要功能介绍:
1.ConcordD基本操作过程:
在WordSmithToolsController窗口中选择Tools选项。
当该选项打开,你就会看到Concordo
单击它,Concord的窗口将打开。
按下按钮,将出现一个对话框,选择将进行语境共现检索的文本文件。
确定一个检索词或短语。
如果要改变设置,按Horizonsetc按钮,对缺省的设置值进行修改。
按StartConcordanee按钮,检索开始。
窗口上出现检索进行的状态条。
检索结束,结果显示在Concord的窗口。
如果要保留语境共现检索的结果,按2)主要的功能:
语境共现(Concordanee)
语境共现(Concordanee的窗口显示:
按钮存盘。
语境共现(Concordanee的窗口包括六个纵列,例如:
A.N列:
显示检索项的数目。
B,Concordanee歹ij:
显示语境共现检索的结果。
C,Set列:
在这一列,用户可以使用任何字母对条目进行分类。
例如,如果你想对检索词的动词和名词用法进行归类,你可以键入字母或N。
要清除键入的字母,按0(零)。
D.Tag列:
显示最接近的标记符号。
E.WordNo•歹1」:
显示检索词在文本中的位置。
例如,上面例子中条目1的检索词good是文本的2,265个单词。
F,File列:
显示源文本的文件名。
G,%列:
以百分比的形式显示检索词在文本中的位置。
要想得到有关语境共现检索的结果的更多的信息,按下面的按钮:
按按钮,可增加语境共现检索的结果每行的显示量,按按钮,可减少语境共现检索的结果每彳丁的显不量。
按(按)按钮,可启动文本浏览工具(Viewer),对源文本进行查看。
按钮,可查看检索词在规定的语境范围内的搭配词的情况。
例如,下图是在上例中检索词good在左右各五个词的语境范围内的搭配词的情
况。
从图中可以知道,搭配词very共出现29次,其中在good的左边26次,右边3次,而在左边的26次中有23次是作为左边的第一个单词出现。
按()按钮,可打开检索词分布图園
检索词分布图窗口显示的内容如下:
File源文本文件名Words源文本文件中单词的数目Hits找到的检索词的数目per1,000每千字检索词的数目Plot检索词分布图显示检索词在文本中出现的位置按按钮,Concord将检索语境共现检索的结果中的句子,找出重复出现的字串(wordclusters)o
字串的大小的推荐值一般为2—4个字,最低出现率为3个。
例如:
按()按钮,打开用词类型(Patterns)窗口,显示临近检索词的单词的统计资料。
这些单词按出现频率的高低从高到低排列。
例如:
取消检索词按空格键或选择窗口View选项中的Blankedout,语境共现检索的结果中的检索词将被一行星号代替。
要恢复检索词,重复一次前面的操作
对语境共现检索的结果重新排序语境共现检索进行时,检索的结果是
以语境在文本中的出现顺序排列的。
当语境共现检索一完成,它就会以当时的缺省设置进行重新排序。
如果不想重新排序,将缺省值设定在File,File位置。
语境共现检索的结果重新排序有以下几种方式:
A.根据检索词的左或右的某个位置的单词进行排序。
B.根据检索词本身进行排序。
C.如果有语境词,可根据语境词进行排序。
D.根据最近的标码符号进行排序。
E.根据与最近的标码符号的距离进行排序。
F.根据用户自己的分类进行排序。
G.根据在文本中的出现顺序排序。
语境共现检索结果的重新排序,可以根据三重标准同时进行。
这三重标准分别在MainSort,thenby,finallyby三个对话框中设定。
另外,重新排序时,可以设置区分或不区分大小写,按升序还是降序排列,既可以将所有的检索项重新排序,也可以设定将一定范围内的检索项重新排序。
保存和打印语境共现检索结果可以将语境共现检索的结果保存为文本文件或是可以在Concord再打开的文件。
按下F3或选择File的Print选项,将打印语境共现检索的结果。
3)参数设置:
检索词(searchword):
A.检索词可以是一个单词,一个短语或是一个包含许多检索词的文本文件。
B.按照缺省设置,Concord进行的是不区分大小写的整词检索。
格式如下:
纟吉果bookBookorbookorBoOkbook,books,booking,booked*booktextbook(butno社extbooks)bo*inbookin,booksin,bookingin(butnotbookinto)book*hotelbookahotel,bookthehotel,bookmyhotelbo*in*bookin,booksin,bookingin,bookintobook?
book,books,book;book.book^book,booksb^^kbook,back,bank,etc,==book==book(butnotBOOKorBook)book/paperbackbookorpaperback符号意义*代表多个任意字符例子book*?
代表单个任意字符(包括标Engl?
?
庶符号)a代表单个任意字母==区分大小写FrAncA==FrenchZl===Fr*==
表示一个可包含多达500c:
\text\fr个检索词的文本文件(参看d.txt帮助中的file-basedsearchwords)/分隔多个检索词。
你可以选may/can/wi择多达15个检索词,但字符II的总数不能超过
80O
如果要使用?
==,A,:
\or/作为检索词中的一个字符,要将这些符号放到双引号内,例如:
"*"Why"?
"andTor":
\"语境词(contextword):
A・为了限制语境共现的检索,可以指定一个语境词在检索词的规定的语境范围内出现或不出现。
B・语境词的输入格式与检索词的相同,只有一个不同的符号〜。
~表示该词在规定的语境范围内不出现。
例如:
当searchword是book而contextword是hotel*时,Concord将只会找到hotelorhotels出现在其语境范围内的book。
当searchword是book而contextword是~pape广时,Concord将只会找到paperorpapers不出现在其语境范围内的book。
语境范围(horizons):
语境范围设置限定在语境共现中检索词的左右两边各可以出现多少个单词。
最高值是左右两边各可出现25个单词。
检索项的数目(entrieswanted):
语境共现中检索项的数目的最大值可达16,368行。
但用户可以在Controller的AdjustSettings|Concord选项中对检索项的数目自行定义,还可以设定Concord对检索项进行随机抽取。
搭配词(collocate):
搭配词的最短长度为一个字母,最低出现频率为一次。
但是在语境共现中出现一两次的搭配词是不能说明什么问题的。
用户可以在Controller的AdjustSettings|Concord选项中对搭配词的最短长度和最低出现频率自行定义。
2.Wordlisti)基本操作过程:
在WordSmithToolsController窗口中选择Tools选项。
当该选项打开,你就会看到WordListo单击它,WordList的窗口将打开。
按下按钮,将出现一个对话框,选择一个或多个文本文件。
按Makeawordlistnow按钮,检索开始。
窗口上出现检索进行的状态条。
检索结束,WordList出现三个窗口显示检索结果。
这三个窗口分别显示以字母为序的词频列表,以频率为序的词频列表以及综合统计数据。
如果要保留词频列表的结果,按2)主要的功能:
创建词频列表(wordlists):
词频列表(wordlists)的窗口显示:
按钮存盘。
以字母为序的词频列表的窗口(部分)显示如下:
以频率为序的词频列表的窗口(部分)显示如下:
综合统计数据的窗口(部分)显示如下:
创建单词索引列表(indexlists):
单词索引列表的作用是记录所有单词在文本中的位置,以便了解每个词在—部分出现。
文本的那
另一作用是加快对列表中单词的检索处理,例如,如果选择列表中一个或词,按下按钮,就会得到快速的语境共现检索的结果。
多个单
另外,在单词索引列表中,还可以计算单词与那些词搭配以及与搭配词的(“MutualInformationesCor建立单词索引列表
选择AdjustSettings|Indexing选项,进行以下的设置:
相关值
打开Controller,
A.确定单词索引列表的路径和文件名。
B,激活Actitated对话框。
C激活Fileordertoo对话框(非必选)。
D•选择出现多少次的高频词要被删除。
E按0K按钮。
件,
打开WordList,选择菜单Index的NewIndex选项,指定要进行操作的文本文再选择Index的NewIndex选项。
检索结束,将在指定的路径生成三个扩展名分别是*.wdx,*.xfo,和*・xal的文
件。
浏览建立的单词索引列表:
打开WordList,选择菜单Index的AlphabeticalList选项或FileOrderList选
选定要打开的单词索引列表文件,就可以浏览建立的单词索引列表。
例如:
计算相关值(mutualinformation):
“FileOrdertoo复选框的情
A.要计算相关值,单词索引列表必须是在激活了况下建立的。
B.选择菜单Index的AlphabeticalList选项,打开建立的单词索引列表。
C.按按按钮,选择要计算相关值的词条,然后按按钮。
如果没有选择任何词条,按钮将计算单词索引列表的所有词条的相关值。
例如,在上图中,词条answer在文本的最常见的搭词是know,它们的相关值
4.4
8o
词频列表的批处理用户可以一次选择多个文本进行词频列表的创建。
例如,选择10个文本同时进行词频列表,既可以得出一个基于10个文本
的大的词频列表,也可以得出十个分别基于10个文本的的词频列表。
字串的词频列表:
词频列表不必一定以单词为单位,也可以以2-8个单词的字串为单位创建
词频列表。
选择WordList主菜单的Settings|Min.&Max.Frequencies选项,激活复选框,选择字串的大小,就可以进行字串的词频列表。
对词频列表的编辑:
合并词条到同一词类(Lemmatisation):
例如,你可以将属于不同类型(type)的词条want;wants;wanting;wanted合并到同一词类(lemma)want中。
手动合并:
A.使用F5选定要合并的词条,第一个被选定的词条将成为词类(lemma)的名
称(head)o
B.使用F4可将所有选定的词条合并。
基于文件的合并:
建立一个将属于同一词类的不同类型(type)的词分组归类的文本文件(例女口,be->was,is勰ere,am,arego->goes,going,went,gon)。
按按钮,WordList将根据文本文件的分类为标准对当前词频列表的所有词条进行词类(lemma)合并。
按按纽或F6,可对词频列表重新排序。
按钮,将显示重新计算的综合数据。
选择正确的语言:
许多语言有自己特殊的字母排列顺序,所以在排序或重新排序之前,应检查是否在
语言选项选择了正确的语言。
另外,在缺省值中,某些语言中的带重读符号的字母与不带重读符号的同一字母是同等对待的。
按单词结尾排序:
选择反向排序选项(ReverseSort)可以按单词的结尾的字母顺序排序。
这样,就能将以某种后缀结尾的单词,例如,-ing形式结尾的单词列在一起。
比较两个词频列表:
选择WordList中Comparison菜单下的Compare2Wordlists选项,选中两个要进行对比的词频列表,就可以对两个词频列表进行比较。
这一功能可以帮助进行文体方面的比较。
例如,比较一篇文章的不同译本中对某个词的不同翻译。
简单一致性分析:
ConsistencyAnalysis(simple这一功能可以对超过五十个词频列表一次性进行比较分析,然后生成一个基于所有文本的词频列表。
这一功能可以帮助找出哪些词是在大量的某一特定类型的文本中一贯出现的。
详细一致性分析:
ConsistencyAnalysis(Detailed^—功能与简单一致性分析的功能完全一样,只是提供的分析更为详细,而且进行分析的词频列表不能超过五十个。
这一功能可以帮助进行文体方面的比较。
3,KeyWordsl)主要功能:
Keywords主要作用是确定某个文本的关键词是什么以及它们在文本中的位置。
要实现着这一目的,必须先用WordListT具建立两个单词列表。
这两个单词列表中,一个是根据要考察的文本建立的,而另一个作为参照的单词列表,必须是根据较大型的由同类文本组成的语料库建立的。
大的单词列表将为比较提供背景数据。
文本中的关键词(keywords),是指在两个单词列表的比较中得出的那些在所考察文本中出现频率突出的词。
得出的关键词以它们在文本中的出现频率的突出程度由高到低排列。
Keywords的潜在用途包括:
语言教学,文体研究,文本内容分析,文本归档等。
2)Keywords的参数设置在Controller中的AdjustSettings/KeyWords选项下,可以对以下的参数进行设置:
a.最大的P值。
b.关键词列表的最大数目。
(缺省值是500)C.关键词在所考察文本中的最低出现频率。
(缺省值是3次)3)基本操作过程:
在WordSmithToolsController窗口中选择Tools选项。
当该选项打开,你就会看到Keywords单击它,Keywords的窗口将打开。
按下按钮,将出现一个对话框,在对话框选择一个要进行研究的单词列表和一个作为参照的单词列表。
按OK按钮,检索开始。
窗口上出现检索进行的状态条。
检索结束,Keywords出现一个窗口显示关键词列表。
如果要保留关键词列表的结果,按按钮存盘。
关键词列表的显示窗口包括以下内容(见下图):
f•关键词的关键值。
g.P值。
4)对关键词列表的结果的编辑:
按窗口中的每按一次按纽,将会显示关键词在文本中的分布图。
按纽,关键词列表的结果将会按照下面的顺序循环排序:
以关键值为序,以字母为序,以在考察文本中的关键词的频率为序,以在参照文本中的关键词的频率为序。
III•三个辅助工具主要功能简绍:
4.Splitter(文本分割工具)Splitter的用途是为了文本分析的目的将大的文件分割成小的文本。
它通过在大的文本中插入某个符号,例如v/Text>,Splitter将自动识别这些符号,将大的文本分割成若干个小文本。
5.
A.
TextConverter(文本替换工具)TextConverter这一程序的主要功能有:
编辑文本,对文本进行重命名,改变文件的属性,将文件移动到新的路径。
B.
在文本中执行搜索和替换功能。
它一次可以搜索多达16,368个文本文件,并可以同时进行500个条目的替换。
6.Viewer(文本浏览工具)Viewer的主要作用是帮助使用者浏览源文本文件。
Word文件转
在使用三个文本检索工具的时候,只要按浏览工具按纽关于换:
另类技巧Wordsmith的安装后的目录下有一个WSConv.exe文件,这便是文件转换程序。
你可以按上面所说的格式保存一个Word文档,再把文档用鼠标拖到
WSConv.exe程序图标上,再用Pilotinstall快速装入Palm。
这样不必每次去HotSync不过你要把palm端的WordSmith格式的文档同步转换为Word格式的话(保证不是乱码),还必须照着前面的方法做O改字体为宋体。
你可以在Palm端的Wordsmith中打开某个文档的"Details通过勾选
“Syn选项来打开或关闭桌面端转换Wordsmith格式为Word格式的功能Billy_H编辑于2004-10-3123:
43:
41关于Wordsmith乱码解决方法:
技巧如下:
1.FineType制作一个宋体文件。
同步到Palm±0
奉上我做的字体宋体・rar
2•打开要编辑的文档(打开PalmDoc文件或是直接打开用WordSmith桌面端转换的WordSmith专用文件,其默认的字体都是Plain),"selectal所有的文
字,再把字体选为宋体…就可启动Viewero
这样同步到PC上就可以正常显示中文了。
3•注意每次有新的Wordsmith同步都要按2步骤操作一次。