音频信号标注文档.docx

上传人:b****3 文档编号:26870132 上传时间:2023-06-23 格式:DOCX 页数:20 大小:29.25KB
下载 相关 举报
音频信号标注文档.docx_第1页
第1页 / 共20页
音频信号标注文档.docx_第2页
第2页 / 共20页
音频信号标注文档.docx_第3页
第3页 / 共20页
音频信号标注文档.docx_第4页
第4页 / 共20页
音频信号标注文档.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

音频信号标注文档.docx

《音频信号标注文档.docx》由会员分享,可在线阅读,更多相关《音频信号标注文档.docx(20页珍藏版)》请在冰豆网上搜索。

音频信号标注文档.docx

音频信号标注文档

音频信号标注规范文档(v1.3)

 

一、用Transcriber软件标注音频信号的基本流程:

▪步骤1:

准备

a)使用命令[文件]\[新建标注](Ctrl+n)开始一个新的标注,该命令同时会再要求使用者打开要标注的音频文件。

打开的音频信号的波形会显示在窗口的下方。

窗口的上方为标注的位置。

b)如果要更换音频文件,使用命令[文件]\[打开音频文件…](Ctrl+a),重新选择音频文件。

c)如果此音频文件有对应的同步脚本,在Transcriber软件外部,使用其他文本编辑器打开此脚本,方便标注过程。

▪步骤2:

标注,标记时间点信息及背景信息

d)播放音频信号文件,标记片断信息(section)、说话人切换信息(turn)和间隔点信息(breakpoint),标注音频内容文本:

a)点击工具按钮上的播放

(Tab)和暂停

(Tab)按钮来播放或暂停。

◆间隔点(breakpoint)

b)用光标在信号波形图上选择下一个需要标记的时间点,回车(Enter)产生新的间隔点。

◆片断信息(section)

c)如果此间隔点处是新的片断的开始,使用命令[片断]\[创建片断…](Ctrl+e)来产生一个新的片断,并编辑此片断的属性:

i.类别:

记录(report)、垃圾(filler)、无标注(nontrans);

ii.主题(topic)。

d)点击片断标记的按钮可以修改此片断的属性,或者用[去除]命令删除该片断。

◆说话人切换(turn)

e)一个新的片断产生时会自动在当前时间标记点增加新的说话人切换。

f)使用命令[片断]\[创建说话人切换…](Ctrl+t)产生一个新的说话人切换,同时编辑其属性:

i.是否两个说话人的语音交叠;

ii.说话人信息:

▪名字;

▪类别:

男(male)、女(female)、未知(unknown);

▪口音:

无口音(native)、有口音(nonnative);

iii.说话方式:

自发式(spontaneous)、朗读式(planned);

iv.保真度:

高(high)、中(medium)、低(low);

v.信道:

宽带(studio)、窄带(telephone)。

g)点击说话人切换标记的按钮可以修改此说话人切换的属性,或者用[去除]命令删除该说话人切换。

h)重复b)到g)的步骤,直到音频信号的结束。

◆标注文本

i)根据音频文件对应的同步脚本内容,标注间隔点间的文本。

j)根据听到的语音的精确信息,对文本中的错误做出修正。

k)对标注文本进行特殊标记处理。

◆调整

l)对时间点位置进行调整:

按下Ctrl键,并用鼠标左键拖动位于信号波形下方的分隔信息条上的分隔线,可以对此分隔线对应的时间点做出调整。

m)根据需要增加或减少间隔点:

i.增加间隔点:

点击鼠标左键,将信号波形图上的时间点光标选择到需要增加标记的时间点上,窗口上方的标注区内的光标,会自动移动到当前时间段所对应的标注文本行上,点击鼠标左键,使标注区内的光标移动到当前增加的间隔点所对应的文字的起始处(注意,改变标注区内的光标位置时,确保不改变信号波形图上光标已选定的时间点),回车(Enter),波形图上光标处产生新的分隔,而标注区内文本从光标处断开,增加新的间隔点标记。

如需要在此间隔点处增加片断标记或说话人标记,参照步骤c)和f)。

ii.减少间隔点:

减少间隔点,将使得间隔点之后的时间段与其之前的时间段合并。

选择间隔点之后的时间段,使用命令(Shift+backspace),即可合并两个时间段。

注意:

▪如果要减少的间隔点同时是说话人切换标记的时间点,减少此间隔点的同时,自动去除该说话人切换标记;

▪如果要减少的间隔点同时是片断标记的时间点,减少此间隔点,也会去除该片断标记,程序将做出询问,以确定是否去除此间隔点。

e)标记背景信息

确认片断信息(section)、说话人切换信息(turn)和间隔点信息(breakpoint)标记的位置,以及标注内容文本无误后,开始标记背景信息:

a)在标注区内或分隔信息区内,选择一个时间段,信号波形图上光标自动位于此时间段开始的时间点,使用命令[片断]\[插入背景],并编辑背景的属性,可以在此时间点之后标记上背景信息,其作用域一直持续到下一个背景标记处或音频末尾(当其后不再有背景标记时)。

b)如果整个场景或某个片断或某个说话人切换之中有较长、较明显的背景噪声,则需要标记背景信息。

否则不用标记(比如,仅在某一时间段中有小段的噪声——不超过相邻间隔点间的长度,则不需要标记背景信息)。

c)背景的属性:

音乐、shh(含义不明,不予考虑)、语音、其他。

d)点击背景标记

符号可以修改此背景的属性,或者用[去除]命令删除该处的背景标记。

▪步骤3:

检查

f)重新检查片断信息(section)和说话人切换信息(turn)的属性:

a)修改片断信息,

i.确保片断类别正确;

ii.确保片断的主题信息正确;

b)修改说话人切换信息

i.确保是否语音交叠信息正确;

ii.确保说话人信息正确;

iii.确保说话方式、保真度、信道的属性正确。

g)重新检查一遍,确认整个音频文件标注无误后,使用命令[文件]\[编辑场景属性],检查场景属性中标注员名字,主体语言等信息,确保正确。

▪步骤4:

保存

h)使用命令[文件]\[保存](Ctrl+s),保存标注成果!

(文件名与音频文件名相同,后缀不同,为.trs,内容为XML格式文本)

i)使用命令[文件]\[输出]\[输出为STM格式…],将标注保存为对应的stm格式(文件名不变,只改变后缀名为.stm)。

(包含focusconditions信息)

j)重新开始步骤1,标注下一个音频文件。

二、标注流程中的注意点(重要!

1.关于片断(section)的属性标注

a)片断的类别包括记录(report)、垃圾(filler)、无标注(nontrans),详细说明如下:

▪对于新闻播报的段落,标记为记录(report);

▪对比较长的纯噪声段或非语音段(超过5秒),标记为无标注(nontrans);

▪对于非上面两种情况,标记为垃圾(filler);例如出现广告段落,或者当前音频文件由于初始切割不准确而包含进的其他主题碎片。

b)片断的主题(topic)信息可以标记为音频文件对应的同步脚本中开始的说明文字,如“央视国际(2005年01月08日19:

54)”,其他情况可直接使用默认名称或联系标注规范制定人员。

2.关于说话人切换信息(turn)的属性标注

a)一个时间段内有两个说话人同时说话的情况,标记语音交叠选项,并且同时标注两个人说话的文本内容。

b)对于说话人信息:

▪在音频文件对应的同步脚本中有名字出现的说话人,名字按同步脚本的内容编辑,其他情况可直接使用默认创建的说话人名,speaker#1等;

▪类别:

男(male)、女(female)区分不清的标记为未知(unknown);

▪口音:

标准普通话的说话人标记为无口音(native),否则标记为有口音(nonnative),只要有个别词的发音属于方言式发音,即标记为有口音(nonnative);

▪对于同一个音频文件中,两个说话人切换段落中如果说话人是相同的,不应增加新的说话人,仍使用同一个说话人信息。

c)说话方式:

对于自然化、口语化的说话方式标记为自发式(spontaneous),该方式语法不严密,句子可能不连贯,尤其是句子中会出现“嗯”、“呃”之类的犹豫词,一般为新闻中的非播音员人员或被采访人员的讲话;而符合朗读方式的、播音员口吻的说话方式标记为朗读式(planned),该方式句法严谨,句子连贯,通常外出采访的记者也属于朗读式。

d)保真度:

信噪比小于10db设定为“低(low)”,信噪比在10db到20db之间设定为“中(medium)”,信噪比大于20db设定为“高(high)”。

通常来说,“高”和“中”之间的区别尺度可以略为放松,十分纯净的标记为“高”,较差些的标记为“中”,而“低”通常要对应发音变形较大,受持续性嘈杂信道噪声影响,或回响比较严重的情况。

e)信道:

通常在本任务中要标记得数据均为新闻播报语音数据,在16K采样的条件下通常要标记为宽带(studio),而可能出现的电话采访等语音情况才标记为窄带(telephone),有其他情况出现,请与标注规范制定人员联系。

f)注意:

如果两个时间段落相邻,且属于同一个说话人,但其说话方式、保真度或信道信息发生了改变,仍然要标记为两个说话人切换标记,虽然其属性中的说话人信息可以保持不变。

3.关于间隔点位置的确定

a)在较明显的停顿处,句子或短语的结尾处加间隔点,可以缩短持续语音段的长度,方便文本的标注和声学模型的训练。

b)句子的结尾(逗号或句号处),只要有较明显的停顿(一至两个字的长度),就应该加间隔点。

如果是只有两三个字的句子(比如“他说,”),可酌情考虑,通常其后的句子也较短时,不加间隔点。

c)在一个比较长的句子中间,通常说话人也会在某些地方做出停顿(可能是顿号处,也可能是一个短语之后),如果此停顿较明显,加间隔点。

d)由相邻间隔点隔出的时间段的长度通常不超过8秒钟,长的时间段一般出现在语音太快太密的情况下,遇到这种情况时,尽可能找到语音段中间停顿时间最长的地方(不短于0.1秒)插入间隔点。

e)一个语音段对应的文字脚本中汉字的个数应该控制在50字以内,通常不超过35个字。

f)对于出现的即时噪声——语音段之间咳嗽、笑声、呼吸声,一小段纯背景噪声等事件,最好能用两个间隔点将其首尾标出,确定其具体位置。

如果其与语音段连接过于紧密,不作单独时间段标出,而仅在其出现的文字位置处做出正确的标记。

间隔点一定不要标记到事件的中间。

g)对于长度大于0.5秒的空白区(可适当放宽标准,但不要超过1秒),要用两个间隔点将其首尾标出,作为独立的时间段,避免一段语音前后有太多的空白区;相反,如果纯静音的长度不足0.5秒,通常均分给相邻的前后语音段,如果相邻的一边是咳嗽、笑声、呼吸声等事件的独立时间段,则偏重于分给语音段(尽量使事件的段落仅包含此事件)。

h)在音频文件的结尾部分,如果语音结束后还有较长的空白区,一定要用间隔点将语音与空白区隔开。

i)注意:

间隔点不要出现在声音的中间!

也不要出现在咳嗽、笑声、呼吸声等时间段的中间(尽量使得间隔点在其两端,保证咳嗽、笑、呼吸等声音的完整性和单纯性)!

4.关于背景信息的标注

a)背景信息标注的一般应用:

▪主要说话人说话同时,背景可能会有现场声音等持续性、一贯性的场景噪声,这种情况下标记为背景信息。

▪场景例子1:

播音员播报一段新闻,同时背景图像是当前新闻内容所发生的现场,当此现场原声具有持续性和一贯性(比如领导人在会议上的讲话现场,领导人的慰问现场等),而且比较明显时,将与此相关的时间段用背景信息做出标记。

▪场景例子2:

记者在现场进行采访,现场的噪声具有持续性和一贯性(比如集贸市场的背景噪声,施工工地的背景噪声等),而且比较明显,将与此相关的时间段用背景信息做出标记。

▪当符合上面例子中提到的背景噪声现象,但此噪声比较轻微,对主要说话人的语音影响比较不明显,不作背景信息的标记,而是考虑在说话人转换标记中的使用较低的保真度。

b)背景信息的起始点应该与间隔点的位置一致,即一种背景信息的开始点同时也是一个时间段落的开始。

使用前面流程中提到的方法即可实现,即在标注区内或分隔信息区内,选择一个时间段,信号波形图上光标自动位于此时间段开始的时间点,使用命令[片断]\[插入背景],并编辑背景的属性。

c)注意,在一个时间点标记好背景标记后,该背景信息的作用范围是从当前时间点一直到下一个背景标记的位置时间点;若其后不在有背景标记时,则其作用范围持续到音频文件的末尾。

d)注意,此标记软件不支持背景信息的起始点位于整个音频信号的开头的情况。

如果一个音频文件从开头就需要标记背景信息,要把背景信息的标记时间点稍微向后移一些,具体操作可以是在音频信号的开头切出一个很小的时间片段,从该片段后再标记背景信息。

e)背景信息的属性,注意纯音乐背景的属性标记。

(用于确定focusconditions)

f)背景信息应该以时间段落为单位,调整其属性。

即当一个时间段落的背景与相邻时间段落的背景属性有变化时,标记新的背景信息。

5.标注文本的特殊标记处理

a)分词

将整个中文句子按词划分,中间用空格间隔。

分词标准参考LDC的ConventionsforMandarinsegmentation。

标准详见附录。

为节省时间,只在口语式发音中进行分词的处理。

b)数字

数字符号应完全按照其读音转写成对应的汉字,例如:

”5256”->”五千二百五十六”,”2004”->”二零零四”或”两千零四”,”19%”->”百分之十九”等。

可以考虑先用程序的方法对音频文件同步脚本中的数字先进行一遍到文字的转换,可以减少标注员的标注时间,提高标注速度。

分词的工作也可以考虑先用程序粗分一遍。

c)标点符号

只采用‘,’、‘。

’和‘?

’。

像‘《’、‘》’、‘“’、‘”’等标点应去除。

(可省略)

注意:

文本中出现的会与标注规范中冲突的标点,要坚决去除。

例如:

破折号“-”,其会与未读完的音的标记冲突。

d)突发噪声

▪说话人发出的突发噪声:

由说话者发出的噪声限下面5种——[{breath}]、[{cough}]、[{laugh}]、[{sneeze}]、[{lipsmack}],分别对应呼吸声、咳嗽声、笑声、喷嚏声和其他由嘴唇发出的声音。

标注方法:

将标注区的光标移动到需要插入噪声的文字之间,使用命令[编辑]\[插入事件…]\[孤立噪声](Ctrl+d),<类别>选项选择<噪声>项,点击<描述>栏后的<其他>按钮,选择弹出菜单中位于中间横线上面的5种噪声中的一种,<范围>选项中选择<瞬间事件>,按<确定>按钮。

▪背景发出的突发噪声:

此处的背景发出的噪声专指由非说话人(背景)发出的具有突发性的噪声,注意其与背景信息标记处定义的背景噪声(一致性和连贯性)的区别。

明显的背景发出的噪声在一段语音之间出现,用[[noise]]标记如下:

如果噪声是即时发出的,持续时间较短,且与语音不交叠,如出现在说话声之间的掌声、关门声、枪声等,[[noise]]放在此噪声的其前后语音所对应的文字之间。

如果噪声与语音发生了交叠,且持续了一到多个字的长度,那么把[[noise]-]放在声音开始的字的前面,[-[noise]]放在声音结束的字的后面。

如果噪声持续时间很长,可以将其跨间隔点标志甚至说话人切换标志进行标记。

如果音频文件中出现持续的、压倒性的干扰噪声、信道噪声或背景噪声,请考虑作为背景信息进行标记。

背景发出的噪声的标注方法与说话人发出的噪声的标注类似,不同在于:

<描述>栏后的<其他>按钮弹出的菜单中选择位于中间横线下面的<[noise]不明噪声>选项;如果是即时噪声,<范围>选项中选择<瞬间事件>;如果是持续噪声,分别在声音开始和结束的位置插入标注,<范围>选项分别选择<事件开头>和<事件结尾>,或者用光标选定声音所持续的文本,然后在<插入事件>,<范围>选项自动为<应用到选定区域>,<确定>即可。

e)未读完的音

前一个字的音没有发完,就开始新的发音,用’-’来标记在前一个字的结尾。

f)难以理解的段落

有时音频文件的某一部分很难或不能理解其对应的文本,例如由声音不清晰或者方言发音造成的难以理解的语音,这种情况使用’(())’来标记理解有困难的段落。

如果可以猜测其内容,那么猜测的文本放在’(())’内,即”((text))”;如果完全不理解其意思,直接用中间是空格的’(())’来标记,此时,要把其对应的始末时间点都用间隔点标记出来,使其成为单独的一个时间段。

如果标注员反复努力听某一段内容到4遍,仍听不懂或不确定其内容,使用此标记。

为加快标注时间,对同步脚本中没有的段落,可以用时间点标记将其隔出来,标记成’(())’。

g)外语发音

如果句子中有另外一种语言的发音出现,标记格式为text,标记方法与持续背景噪声的标记方法类似,区别在于在<类别>选项中选择<语言>项,并在<描述>栏后的<其他>按钮弹出的菜单中选择正确的语言选项;如果该语言类型不明,直接在<描述>栏后的文本框中输入’?

’字符,<范围>选项中选择<瞬间事件>,标记形式为

>,这时也要把其对应的始末时间点都用间隔点标记出来,使其成为单独的一个时间段。

h)作为单词发音的缩写词

对于英语等字母文字,标注内容中遇到缩写词的情况,如果其发音是按照一个单词来发音的,采用’@’符号来标记此缩写词,例如”@ADIS”,注意字母间不留空格。

该标记应该在外语发音标记的内部作标记。

i)独立的字母发音

对于英语等字母文字,标注内容中遇到单个字母的发音时,用’~’标记每一个字母,并用空格与其他字隔开,例如:

”~S~I~M~P~S~O~N”。

为加快标注时间,可以在整个单词前标记一个~,例如”~SIMPSON”。

该标记应该在外语发音标记的内部作标记。

j)填充词

填充词是指示说话者说话中的犹豫,或者说话者在思考下面该说什么时,用来保持发音连贯所使用的词,例如’呃’,’唔’,’呵’等,这些词在前面加’%’来做出标记。

填充词的发音不见得与其使用的文字完全对应。

注意将其与句子中的感叹词相区分。

感叹词有确定的感情表达等语义,而填充词没有意义,忽略其不影响要表达的意义。

只在口语式发音中进行此项标记。

k)专有名词

所有的专有名词,包括人名、地名等,全部在前面加’^’来标记,详细说明如下:

▪人名

所有的人名(中国、外国)都要用’^’来标记,通常姓和名要分开。

▪中国的地名

省和省会一级以上的地名不标记。

其他所有的地名都用’^’标记(通常都是不熟悉的并且在词典中不存在的)。

▪外国的地名

不标记大洲,区域(例如南亚),国家,首都和主要城市的名字。

不标记美国的州和大城市的名字(像费城)。

只标记小的地方的名字。

如果不熟悉或不确定,就标上。

▪机构名称

如果机构名称中有符合上面三种条件需要标记的词,只标记该词。

^摩托罗拉公司

北京大学

注意:

全名中的普通名词不作标记,例如”^鹫峰森林公园”。

为节省时间,不进行此项标记。

l)感叹词

感叹词不作特殊的标记。

中文的感叹词词表见后。

注意:

▪对于噪声(说话人噪声、背景噪声)和外语发音的标记,必须使用程序命令的操作,而其他的文本特殊标记均使用手工标记。

▪对于手工标记的符号,除标点符号的标记外,均用英文字符标记,即‘-’,‘(’,‘)’,‘^’,‘%’,‘?

’,‘~’,‘@’等。

三、熟练标注方式参考

熟练后,标注流程可以参考下面的标注方式:

第一遍,粗标时间点

首先,将同步脚本中的文字全部拷贝到文本标记区。

分辨率设置为30秒。

直接从波形上用眼睛看(而不是听)出可能的间断点,在波形上设置光标。

同时在文字中确定可能的位置,在文本标记区设置光标。

在当前光标处播放(按Tab键)1~2秒钟,听是否分的正确,暂停播放(按Tab键)。

如果正确,此处按回车键,插入间隔点,文本标记区同时被分好。

如果不正确,根据听到的内容,调整文本标记区的光标、或波形上的光标,再次试听,直到切分正确。

标记间断点的同时,标记好片断信息和说话人切换信息。

如果遇到的纯音乐段落,直接标记上背景信息(只看波形,确定不含语音,即可标而不听)。

第二遍,详细标注

分辨率设置为10秒,控制面板中设置增益为4~6dB(为了标记呼吸声)。

完整听一遍,边听边停顿,来调整间隔点(细调位置,增加或减少),标记呼吸声等突发性噪声(通常,呼吸声可以从波形上看出,从前后连接最窄处切开),改数字为文字,修改脚本中的错误,标记口语化信息等等,同时尝试标记背景信息。

第三遍,检查

再检查一遍,包括确认片断信息、说话人切换信息,对背景信息做出正确的标记,检查标注文本和时间点的正确性等。

完成标注。

四、二次检查

为了保证标注质量,确保片断、标记、说话人信息、背景信息的准确性,需要由一个新的标注员对初次标记的结果做出检查。

1.人工检查

I.背景信息检查。

II.说话人信息检查。

III.间隔点位置检查。

IV.标注中是否有错误。

V.其他。

2.程序检查

I.说话人信息是否完整。

II.标注中是否有不合法的字符。

III.是否有数字未经转写。

IV.时间点是否有冲突。

V.规定的标记格式是否有误,比如,前后标记是否匹配等。

VI.其他。

附录一.

特殊标记表(供参考)

类别

条件

标记

例子

说明

正字法和拼写

数字符号

转化为汉字

五千二百五十六,两千零四,二零零四,百分之十九

完全按照数字符号的读音写出对应的汉字。

作为单词发音的缩写词

@

@ADIS

表示此缩写词作为一个单词来发音,字母间不留空格,词前加@。

独立的字母发音

~

Hisnameisspelled~S~I~M~P~S~O~N.

其发音为单个字母的发音,每个字母前面标记~,且用空格隔开。

标点符号

逗号,句号和问号

,。

只用这三种。

噪声环境

说话人噪声

[{}]

[{breath}]

[{cough}]

[{laugh}]

[{sneeze}]

[{lipsmack}]

说话者制造的噪声,限此5种类型。

非说话人噪声

[[noise]]或

[[noise]-][-[noise]]

[[noise]-]什么声音[-[noise]]

[[noise]]代表即时的噪声;

[[noise]-]text[-[noise]]表示持续的噪声。

不流利的发音

未读完的音

-

你-我来吧

前一个字的音没有发完。

发音出错的字

(未正式纳入规范)

+

+政府

由于音频剪辑造成的发音丢失,或说话者失误等其他原因造成的发错音的情况,发错音的字前加+。

填充词

%

%呃,%唔,%呵

中文仅限此三种标记。

其他记号

半理解的段落

((text))

((继而))百分之十九

对难以听清的段落做尽可能的尝试。

不可理解的段落

(())

(())

标记完全听不懂的段落,中间是空格。

外语

text

~G~D~P的

标记外语词汇,语言未知时标记为

>。

专有名词

^

^毛^泽东,

^鹫峰森林公园

标记在专有名词前,地名全称中的普通名词不作标记。

附录二.Transcriber软件的配置

配置文件”.transcriber”的位置:

C:

\DocumentsandSettings\$用户名\.transcriber

语言版本”chinese.lng”的位置:

软件安装目录下(与可执行文件在同一级目录下)

附录三.Transcriber软件的一些快捷操作

(Ctrl+n)

新建标注;

(Ctrl+o)

打开标注;

(Ctrl+s)

保存标注;

(Ctrl+a)

打开音频文件;

(Enter)

插入间隔点;

(Shift+backspace)

删除间隔点;

(Ctrl+e)

插入片断;

(Ctrl+t)

插入说话人切换;

(Ctrl+d)

插入噪声标记或语言标记;

(Tab)

播放/暂停;

(Shif

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1