应用语言学考试整理.docx
《应用语言学考试整理.docx》由会员分享,可在线阅读,更多相关《应用语言学考试整理.docx(17页珍藏版)》请在冰豆网上搜索。
应用语言学考试整理
一、名词解释
1、(中文)自动分词:
自动分词是中文信息处理的基础技术之一,是中文词处理阶段的主要任务之一。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
④在把汉语输入计算机时,计算机接受和存储的是一个个字串,要让计算机自动分出词,就是要把一个个字串变成一个个词串,具体的做法是在每一个词的前后加上空格。
“从小学电脑……”→→“从小学电脑……”
⑤中文自动分词大体分为基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法等。
2、汉语语音识别输入:
汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语音特征,实现对汉语语音的自动识别。
其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。
语音识别输入的优点主要有输入速度快,工作强度低,使用最方便。
3、语言学习:
所谓语言学习(LanguageLearning)就是在儿童习得母语之后,在正式的场合(如课堂)里进行的获得第二语言或外语的过程,这个过程有成有败,和语言习得不同。
4、语言习得:
心理语言学家认为,每个人的母语都是在他1岁半至6岁之间,随着发育成长而在周围环境的作用下自然获得的,这就是语言习得(LanguageAcquisition)。
5、语言能力:
语言能力,即“语言”,指的是在人的大脑中形成的一种能够按照本族语的语言规则把声音和意思联系起来的能力,是一套使用语言的规则。
6、语言文字的地位规划:
语言文字的地位规划和本体规划是语言规划的两方面内容。
语言文字的地位规划指的是某一国家或地区中,某种语言或文字与其他的语言或文字在地位上的关系,就是决定某种语言或文字在社会交际中的地位。
这种规划,一般要借助于政治的力量来进行,因此,它相当于语言学家诺依斯图蒲里的“政治法”。
语言文字的地位规划主要包括两方面的内容:
1)决定某种语言在社会交际中的地位2)决定某种文字在社会交际中的地位。
也就是说,语言文字的地位规划包括确定国家共同语的语言标准和文字形式、文字的地位规划。
7、语言文字的本体规划:
语言文字的地位规划和本体规划是语言规划的两方面内容。
语言文字的本体规划,指在某一语言或文字内部其自身的普及推广以及标准化和规范化的问题,这是语言文字本体内部的关系问题,也就是语言文字本体的改造和完善。
在语言文字的本体规划中,需要保护语言文字本体的纯洁和健康,需要对语言文字本体进行精雕细刻的培育,因此,诺依斯图蒲里把它叫做语言规划中的“培育法”。
语言文字的本体规划主要包括三方面的内容:
1.共同语的推广和规范化2.文字规范和标准的制定3.科学技术术语的标准化。
8、语言政策:
指人们有意识、有目的地影响语言文字功能作用所采取的各种行政性的措施,具体地说,就是一个国家、一个民族或一个地区规定的语言文字所应遵循的方向、原则以及为此而提出的工作任务。
9、汉字存储:
汉字存储有两层意思:
一是指汉字内部码、交换码等汉字代码的存储,这与汉字的数据结构有关;
二是指汉字字形的存储,它与汉字字形库(简称汉字库)设计有关。
汉字存储的关键在于字形描述。
所谓字形描述就是将人可以认读和书写的字形表示成可供计算机存诸和处理的信息的加工过程。
汉字字形描述是中国计算语言学的一项基础研究。
10、未登录词:
未登录词(unlisted/unknownwords)是指词表未收因而机器不认识的词。
词表应当有一定规模(一般是几万词);极而言之,如果词表为空,文本中的每一个词都成了未登录词。
另一方面,未登录词本质上是不可穷尽登录的:
人名、地名几乎可以看成是无限的,新词也在不断地产生。
为了识别未登录词,人们采取扩充词表的方法,但更好的方法有待寻找。
11、儿童语言发展:
儿童语言发展又称语言获得,是指儿童对母语的产生和理解能力的获得(主要是指对口头语言中的说话和听话能力的获得)。
儿童语言发展包括儿童语音、词汇。
语法,以及语用的发展。
儿童语言的发展具有连续性、阶段性,同时,这些阶段的出现又具有一定的顺序性。
儿童语言发展研究已成为一门横跨多门学科的交叉性学科,它和哲学、教育学、发展心理学、社会心理学、神经生理学等都有相当密切的关系。
另外,它还对语言教学具有相当大的影响,包括母语教学和外语教育。
二、简答:
1、计算语言学发展的四个阶段:
(1)汉字的信息处理:
汉字属性的统计与研究;汉字编码理论与技术;汉字常用字表和通用字表的制定;汉字字形库的研究,等等。
(2)词语的信息处理:
汉语分词规范,汉语总词表,词频统计;汉语自动分词系统,分词质量评估软件;汉语词类划分规范,带有词性标注的汉语词典;汉语词类的自动标注系统;汉语基本词汇信息库;汉语的语义词典和概念词典。
(3)汉语句子的信息处理:
汉语的词组及句型规范,句型统计;汉语适用的句法分析算法:
汉语的句法规则库(包括兼类词处理规则、虚词处理规则、动词处理规则、同形词类处理规则等等);汉语的格——价研究,汉语的词格辞典;汉语时、体、量等形态的表达与判别。
(4)话语篇章的信息处理:
汉语句间关系研究;汉语不同语体的话语模型;话语分析与生成系统。
2、中文信息处理未来应关注的领域:
(1)汉字处理
构建中华大字符集
OCR汉字扫描识别和手写汉字输入技术
数字图书馆
(2)语音识别与合成
语音识别的准确率将会进一步提高,而语音合成的自然度也将越来越令人满意。
将来人们可以逐渐摆脱键盘与计算机进行对话。
人机对话将成为现实。
(3)词法分析
汉语的分词技术将随着语料库的发展以及各种算法的改进而得到进一步的改善。
自动分词技术还将为各个专业领域的文献检索提供强有力的服务。
(4)句法分析和语义分析
句法分析和语义分析技术将会越来越成熟,语言的自动理解与生成会越来越接近人们的期望。
机器翻译、情报检索、信息安全等技术将会因此得到进一步提高,日常生活的信息化水平也将大为提高。
(5)汉语网站与网上资源
中文信息处理技术将支撑起汉语的网络平台,汉语的网站和汉语网上信息资源库将越来越多。
在网络世界中,汉语将占有越来越大的份额,汉语将通过网络得以推广,汉语将在传播中华文化的过程中走向世界。
4、中文信息处理今后特别要注意的问题:
我国计算语言学的队伍已经基本上建立起来了,有了一定的研究条件,但是问题很多。
主要有:
1)投资太少。
2)研究人员太少,人力分散,业务素质较差,知识结构不完善。
3)分别在文科的语言学和理科的计算机学进行,两方面的协作还有许多不协调的地方。
今后,要特别注意:
1)努力培养一批文理兼通的新型人才;
2)世界化;
3)语言研究与先进科技相结合;
4)语言研究与市场相结合。
3、计算语言学与传统语言学的区别:
1)计算语言学要面对整个的自然语言现象,因此,它必须研究计算机处理语言的带有普遍性和总体性的一般问题,在研究语言时必须全局在胸;
传统语言学家喜欢深入研究某一特殊的语言现象,更加重视研究语言中的某个特殊问题。
2)计算语言学的研究结果必须要通过计算机自然语言处理来检验,计算语言学的结论要做得通,更重视理论的实用性,要求研究者“躬行实践,身体力行”;
传统语言学家则要求讲道理,传统语言学的结论要说得通,更重视逻辑的完美性,要求研究者“自成一家,词严义密”。
3)计算语言学研究语言时必须先分析后理解,在分析之初,计算机不可能懂得或理解所分析的语言片段的意思,理解是分析的结果;
传统语言学研究语言时,往往是先理解后分析,在分析之初,研究语言的人根据自己的语感和内省的经验,早已知道并且理解了所分析语言片段的意思,理解是分析的必要前提。
4)计算语言学是边缘交叉学科,要求研究者具有语言学、数学和计算机科学的全面的知识,这就要不断地进行知识更新的再学习;
传统语言学一般不涉及数学和计算机科学,但需要具备语言学和人文科学的深厚功底,才能得心应手地进行研究。
6、儿童词义发展中常犯的错误:
(一)意义的重叠和过度扩大
儿童和成人词义之间的第一种可能的联系是有部分意义重叠,但是儿童所理解的往往同时超越和扩充了成人词义的意义范围。
鸟→鸭子
儿童对成人词义的过度扩大通常有两种方式:
一种是单一的过度扩大,即仅选取物体的一至两种特征作为使用某个词的标准。
另一种是混合的过度扩充,即以某个词原来所指对象在不同情境下所共有的某一特征为根据,来过度扩大的使用该词。
(二)意义的重叠和过度缩小
虽然词的过度扩大在儿童幼年语言中最为引人注目,但是儿童对一些词又表现出词义缩小,如:
“车子”、“猫”
(三)无重叠的意义
有时儿童最初的词义和成人的词义毫无共同之处,也就是没有重叠的部分。
7、儿童发展的一般规律:
(1)人类的语言能力是按照某种生物发展的时间表趋向成熟的。
(2)人类的语言获得在某种程度上具有关键期。
(3)人类的语言发展与认知发展有密切的关系。
8、儿童掌握词汇的特点:
第一,发展的顺序性以及对情境的依赖。
第二,发展的不匀速性和阶段性。
第三,词汇意义的逐步精确化和概括化。
第四,儿童对词的理解和使用是以儿童的认知发展,特别是概念的掌握为基础的。
9、儿童语言发展的研究方法:
1)日记研究法
日记研究法是研究儿童早期语言表达能力的一种方法。
在具体的研究过程中,研究人员以一个或几个儿童为对象,每天对儿童所说的话进行系统记录,然后对所作记录进行分析,从而发现儿童语言表达能力的发展规律及其特点。
2)临床法
研究3岁以上的儿童语言发展时,可采用皮亚杰的临床法。
临床法既使用观察法也使用实验法,前者用于记录托儿所内儿童游戏时的“自发式”话语,后者用于检测儿童传递具体信息的能力。
3)引导产生法
所谓引导产生法,是指研究人员特设某一情境,要求儿童用自己的话对此情境加以描述,然后将儿童描述所用的语言加以记录并进行分析,从而了解儿童语言表达能力的发展水平。
4)儿童语言测验量表
常见的儿童语言测验量表有皮博迪图画词汇测验和言语障碍鉴别测验。
国外还有一种麦卡锡交流发展问卷,是用以向父母了解其孩子情况的。
2、论述:
1、儿童语法的发展情况:
A.儿童语法的发展可以分为四个阶段:
不完整句阶段;完整句阶段;句式的发展;篇章能力和连贯性语言能力的发展
B.不完整句阶段
儿童语言发展中的不完整句阶段又可以分为单词句(独词句)阶段、双词语句(电报句)阶段。
(一)单词句阶段
儿童的单词句有以下几个特点:
第一,在儿童没有掌握一些语词之前,他们会发明一些语词来表示物体。
第二,和动作紧密结合。
第三,词性不确定。
第四,词义界限具有一定的模糊性。
(二)双词语句(电报句)阶段
所谓双词句,是指儿童用两个词表达一个句子的意思。
儿童一般到1岁半左右开始说出由两三个词组合起来的语句。
这一阶段是所有儿童都要经历的由单词句向完整句发展的重要过渡阶段,此阶段儿童所使用的词仍以名词和动词等实词为主,连词、介词、助词等功能词很少出现。
C完整句阶段
儿童经过不完整句阶段的准备和调整,其语言逐渐向成人语言靠拢,进入了完整句阶段。
研究表明,在不完整句阶段,就表现形式和主要功能而言,不同母语的儿童,其语言发展表现出较强的一致性。
但在完整句阶段,则体现出不同语言之间的差别和特殊性。
(一)单句的发展
单句分为简单单句和复杂单句两种。
句子根据语气可分为陈述句、疑问句、祈使句和感叹句四大类。
儿童最初产生的大多为陈述句,其他句型的比例很小。
1).简单单句:
从修饰语的类型看,定语较多,状语次之,补语最少;充当定语、状语、补语的有单词,也有短语;有单层的,也有多层的,而且多层定语的出现早于多层状语。
2).复杂单句
复杂单句又称复杂谓语句,是由几个相互串连或相互包含的结构所组成的具有一个以上谓语的单句。
它的特点是突破了简单句的主-谓、主-动-宾、动-宾等无修饰成分或只有简单修饰成分的模式,出现了复杂短语充当谓语或其它语法成分的结构。
(二)复句的发展
在汉语中,联合复句(并列复句)和偏正复句(主从复句)是复句中的两大类。
虽然复句中的关联词语在大部分情况下是必不可少的,但在联合复句中可以省略关联词,而偏正复句则基本上要求保留关联词。
(三)语法结构的发展
儿童在陈述句中(包括简单句和复杂句)语法结构发展的一般趋势为:
1.混沌一体到逐步分化;2.结构松散到逐步严谨;3.压缩呆板到逐步扩展灵活;4.平均长度由短到长
儿童语法的发展通常从两个方面来评价分析,一是句子的长度,二是句子结构的完整性和复杂性。
D.句式的发展
单句和复句是从句子结构角度划分出来的类别,通常称为句型。
每种语言中还有特殊的构成标志或构成模式的句子,通常称为句式。
在儿童句式发展研究方面,近些年取得了丰硕的成果。
(一)“把”字句的发展
儿童对“把”字句的习得只能在双词句以后的语言发展中才有可能出现。
从2岁开始,儿童“把”字句的使用随着年龄的增长,“格式由简而繁,构成成分由少而多,句子长度由短而长”,且“把+名词+动词+趋向动词”、“把+名词+动词+动词/形容词”及“把+名词+在/到+处所名词”,一直是使用频率最高的基本结构,贯穿于整个发展过程。
(二)疑问句的发展
第一,2岁前后是儿童疑问句的主要发生期。
第二,2-3岁是儿童疑问句发展的关键期。
第三,3岁以后是对疑问句的完善期。
(三)否定句的发展
一是否定词位于句子之外,构成“否定词+句子”或“句子+否定词”的形式,如“不睡觉觉”或“妈妈上班不去”。
二是将否定词移入句子之内,如“书上没有图画”。
(四)被动句的发展
“被”字句是被动句的典型句式。
5岁儿童能够理解被动结构句的得分还比较低,即此时儿童对被动句的理解还比较差;6岁儿童基本能理解被动句。
研究者推断6岁可能是儿童理解被动句的关键年龄。
(五)双重否定句的发展
双重否定句的理解,是比否定句更为复杂的转换过程。
在语义上由肯定句到否定句是一次逆转,而从否定句到双重否定句是再次逆转的反演过程。
E.篇章能力和连贯性语言能力的发展
(一)篇章能力的发展
篇章是在词、句基础上由句子组成的,能自成统一体的意义单位,处于语言体系的最高层级。
儿童在掌握语言中的语音、词汇和语法等语言成分的基础上,还要学习如何在各种不同场合下对它们加以运用。
而儿童语言能力的发展,除对词和句子的掌握之外,还表现在篇章能力的发展上。
幼儿的语言主要有三种主要发展模式:
(1)平行发展。
如“我叫某某,我今年三岁半,我是在中一班的”。
(2)延伸发展。
如“某某喜欢打我们,我们谁也不理他,他睡觉也不认真”。
(3)集中发展。
如“他在中一班,某某也在中一班,我也在中一班,我们几个都在中一班”。
(二)连贯性语言能力的发展
儿童在按图叙述故事的发展过程中,逐渐形成了一种讲故事的模式。
儿童在讲述故事时语言的连贯性表现为四种水平:
(1)不连贯。
(2)部分连贯。
(3)基本连贯。
(4)连贯。
2、儿童词汇发展的情况:
儿童词汇的发展是儿童语言发展的重要部分,研究者们普遍认为儿童第一个词产生于10-13个月龄的时候。
儿童掌握词义是一个逐步深化、不断完善的过程,初期表现出与成人对词义理解不完全相同的现象。
一、最初的词
儿童语言的发生一直是哲学界、语言学界和心理学界研究的重点。
关于婴儿何时获得第一个词,以及在什么意义上,在什么标准下认定婴儿获得第一批词语等问题,不同的学者有不同的观点:
二、儿童词汇量的发展
不同的学者对儿童词汇量进行了统计研究。
一般认为:
1岁左右出现约20个词,2岁左右出现300-500个词,3岁左右接近1000个词。
史慧中等人对十省市两千余名学前儿童的总词汇量进行统计,结果表明:
3-4岁儿童的常用词有1730个,4-5岁儿童的常用词有2583个,5-6岁儿童的常用词有3562个。
从总趋势来看,儿童的词汇量是随年龄的增长而不断增长的,但是增长的速度却不是匀速的,儿童在2-3岁间词汇量的发展速度是最快的,3岁以后儿童词汇量的增长速度逐渐减慢。
三、儿童各类词汇的发展(不全自己补)
儿童一般先掌握实词,再掌握虚词。
实词中最先掌握的是名词,其次是动词,再次是形容词,最后是数量词。
四、儿童词义的发展
儿童对词义的理解是个逐步深化,不断完善的过程,因此在幼儿时期他们所掌握的词义往往会犯以下错误。
(一)意义的重叠和过度扩大
(二)意义的重叠和过度缩小
(三)无重叠的意义
由此可见,早期儿童正确掌握词义是一个极为复杂的过程。
可归纳儿童学习早期词汇的过程如下:
10-13个月左右,在理解中将成人的词和儿童的前概念相匹配;从11-15个月左右,在产生中获得了少数仅限于在某种特定语境中使用的,或和概念中的动作——功能成分紧密联系的词;16-20个月左右,对一些老的概念产生新的词,并形成新概念以之和新的词相匹配,同时开始用词来对新的事例加以归类。
五、儿童词汇发展的差异
词汇发展存在比较大的个体差异,表现在以下几个方面:
一方面是儿童词汇量的差异。
另一方面是儿童掌握单词类型的差异。
还有一个方面是性别差异。
再有一个方面是跨文化差异。
六、儿童掌握词汇的特点
根据以上的研究分析,儿童掌握词汇有以下特点:
第一,发展的顺序性以及对情境的依赖。
第二,发展的不匀速性和阶段性。
第三,词汇意义的逐步精确化和概括化。
第四,儿童对词的理解和使用是以儿童的认知发展,特别是概念的掌握为基础的。
3、我国中文信息处理面临的主要难题:
(一)汉字的输入、存储、显示、打印
汉字输入、输出、打印的难题并没有完全得到解决,因为汉字数量庞大。
汉字是世界文字发展史上出现最早的一种文字,几千年来,汉字一直充满活力,为中华民族所使用。
汉字的字数究竟有多少?
从历代大型字典的收字情况来,我们可以知道,随着社会的发展,汉字也发生了巨大的变化,变化之一就是数量的增加。
(二)汉语在计算机中的分词处理
让计算机对汉语进行自动分词处理是中文信息处理特有的难题。
1、分词规范
目前计算机在对汉语进行分词时主要依靠分词系统中的词表。
首先,汉语的语素与词、合成词与短语之间的界限不明,许多词在实际使用中可分可合,例如:
“放假”“吃苦”“帮忙”“发财”“相信”“看见”等,
实际使用中可以是:
“放了假”“吃点苦”“帮个忙”“发了大财”“相不相信”“看没看见”等。
其次,汉语中有些语素构词能力超常,如“者”,一般的构词是“劳动者”“建设者”“作者”“读者”,但是又可以说“坚强勇敢者”“持有两国护照者”。
要是把它们当作词来收,那么词表该有多大?
《信息处理用现代汉语分词规范》收词的原则是“结合紧密、使用稳定”,这只是一个抽象的标准,要认定某一个字串是否可以当作一个词,需要在真实文本语料中加以考察,而且有些结合紧密、使用稳定的字串也未必就是词:
如“这是”“每一”“再不”“不多”“不在”“这就是”“也就”“对不起”“看不起”“日月星辰”“春夏秋冬”等。
“分词单位”:
汉语信息处理使用的、具有确定的语义或语法功能的基本单位(词或词组)
不分的:
铁公鸡,哥儿们,星期五,初一,分之,这个,看看,来来往往,高高兴兴,相不相信
分开的:
朋友们,五月,十五日,张胜利,第一,说说看,想一想,听说读写
2、歧义切分
20世纪80年代后,人们在进行汉语文本的自动分词研究中发现,对字串的切分会遇到两种切分的歧义。
一种是交集性歧义;
另一种是组合性歧义。
3、未登录词的识别
未登录词(unlisted/unknownwords)是指词表未收因而机器不认识的词。
词表应当有一定规模(一般是几万词);极而言之,如果词表为空,文本中的每一个词都成了未登录词。
另一方面,未登录词本质上是不可穷尽登录的:
人名、地名几乎可以看成是无限的,新词也在不断地产生。
(三)汉语词性的自动标注
词性标注就是标注出文本中每个词在特定语境中的词类(名词、动词、形容词等等),所以也叫词类标注。
在中文信息处理中,词性标注的意义:
第一,确定词的语法功能,为句法分析打基础。
第二,便于在词性标注语料库中检索句法结构。
第三,为同音字标注、多音字标注和词义标注提供支持。
(四)汉语句子的理解和生成
汉语句子的理解和生成是当前中文信息处理面临的难题。
要理解汉语的句子,首先要进行句法分析,就是要弄清楚先后出现的词与词之间的关系。
汉语的句子不像印欧语有形式上的标志。
◆汉语句子的词序比较灵活,这使得自动分析规则写起来非常困难;
◆汉语中名词词组结构复杂,分析时常出现结构歧义;
◆连动和兼语式使句子结构变得十分复杂,系统难以把握中心动词;
◆汉语句子中的主语常常被省略,这使得主语成分的确定变得非常棘手;
◆汉语句子的被动句常常不用“被”字句,这使得主动形式与被动形式没明显差别;
汉语中的主谓谓语句使得它后面的成分边界不清;
汉语中形容词做谓语时常常不用“是”,给汉英翻译造成了很大困难;
汉语中名词可以直接做谓语,这也使得主语与后面名词的边界不清;
汉语中有“把”字句,但是“把”的管辖领域很难确定;
汉语中的紧缩复句也给分析带来很大困难。
在实际的语言自动分析中,遇到的困难远远不止这些,比如:
涉及语义分析的层面时,困难似乎更多;
汉语常用词多义现象普遍,多义词的判断规则十分繁琐,很难有一个简单的规则;
汉语的不同语法结构常常会在词性序列上呈现出相同内的排列
相同的句法结构也有不同的语义解释语义组合层次和关系的不同都可能造成歧义。