基于内容的音频信息检索PPT文件格式下载.ppt
《基于内容的音频信息检索PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《基于内容的音频信息检索PPT文件格式下载.ppt(58页珍藏版)》请在冰豆网上搜索。
n数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。
n样本可用8位或16位比特表示。
ModernInformationRetrieval41音频检索概述n音频是声音信号的表示形式,作为一种信息载体,音频可以分为三种类型:
n波形声音对模拟声音数字化而得到的数字音频信号。
它可以代表语音、音乐、自然界和合成的声响。
n语音具有字词、语法等语素,是一种高度抽象的概念交流媒体。
语音经过识别可以转换为文本。
文本是语音的一种脚本形式。
n音乐具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。
音乐可以用乐谱来表示。
ModernInformationRetrieval5音频信息的音频信息的特征特征n不同类型的声音具有不同的内在内容。
n人们感受到的内容不同。
n但从整体看,音频内容分为三个级别:
n最低层的物理样本级、n中间层的声学特征级和n最高层的语义级,n如下图所示。
从低级到高级,其内容逐级抽象,内容的表示逐级概括。
ModernInformationRetrieval6音频信息的音频信息的特征音乐叙事、音频对象描述、语音识别文本、事件感知特征:
音调、音高;
旋律、节奏声学特征:
能量、过零率、LPC系数音频结构化表示采样率、时间刻度样本、格式、编码语义特征级物理特征级样本数据级模糊匹配(基于内容的检索)严格匹配南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval7级别级别特征特征显式表示显式表示可否用于检索可否用于检索物理级声学级语义级音频信息的特征取样频率、量化精度、编码方法、声道数目、时间刻度信息(时:
分:
秒:
帧).音量、音高、音域、音色、.如一段语音的中心思想、包含的关键词、类型等,一段音乐的旋律、情绪、主题等.是否否少部分部分全部南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval81音频检索概述n基于人工输入的属性和描述来进行音频检索是容易首先想到的方法。
该方法的主要缺点反映在:
n当数据量越来越多时,人工的注释强度加大;
n人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。
n这些正是基于内容的音频检索需要研究和解决的问题。
n但同时应该注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。
ModernInformationRetrieval9基于内容的音频检索nWhat?
从声学特征和语义特征进行音频信息的检索称为基于内容的音频检索。
n困难:
1数字音频是一种不透明的位流,它不显式地包含可识别或可比较的语义实体;
2人工输入音频数据的属性和内容描述,工作量极大,注释的准确性依赖于人的水平、经验和工作态度;
3人对音频信息(特别是音乐)的感知,如音乐的旋律、音调、音质等,难以用文字表达清楚。
ModernInformationRetrieval102、查询方式:
需求n检索包含特定内容的一段讲话(计算机,互连网,多媒体技术.)n检索指定说话人的一段讲话n检索指定类型的一段音频(音乐、歌曲、报告、谈话.)n检索指定旋律的一段音乐n检索指定乐器演奏的一段音乐南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval112、查询方式:
用户表达示例方式(byexample)也称为拟声方式(onomatopoeia)。
用户使用一个声音例子表达其检索要求,查找出与该声音相似的所有声音。
例如:
用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声检索与飞机的轰鸣声相似的所有声音。
直喻(simile)方式。
通过选择一些声学/感知特性来描述检索要求,如音色、音调等。
ModernInformationRetrieval122、查询方式:
用户表达主观特征方式。
用描述语言来描述声音,如寻找“欢快”的声音。
这需要预先训练系统理解这些描述语言的含义。
浏览方式。
对数据库中所有的声音逐个审听,寻找所需要的声音。
这需要在分类的基础上进行,最好预先为每一段声音做好摘要。
ModernInformationRetrieval13基于内容的检索过程用户的查询说明示例一般性描述相似性匹配返回一组候选结果结束修改查询说明从候选结果中选择一个示例满意?
NY南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval14基于内容检索的特点n是一种相似检索,得到的是与用户指定要求相似的一组结果。
n检索时可以指定返回结果的数目,或要求检索结果能满足一定的相似度。
n可以强调或忽略某些特征,对指定特征施加“less”或“more”等模糊运算。
南京大学多媒体研究所MultimediaComputingInstituteofNJU3语音检索南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval16语音检索的对象及应用n检索对象:
语音文档(broadcastradio,TVprograms,videotapes,lectures,voicememo,voicemail,voicephonebook,etc.)n查询方式:
textand/orspeechn技术:
语音识别技术,n应用:
在电台节目、电话录音、会议录音、教学录音的数据管理与应用中极为有用。
ModernInformationRetrieval17
(1)利用语音识别技术进行检索n利用自动语音识别技术预先把语音转换为文本(脚本):
n误识率较高,含噪音数据,无格式信息:
标题,段落,标点符号.需添加语音和文本的对齐信息:
timealign含有语音的声学特征信息和感知信息n对脚本进行处理,抽取摘要、关键词等信息,n采用常规的文本检索方法进行检索。
n问题:
OOV(OutofVocabulary)问题,1%是OOV词汇,南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval18
(2)基于说话人辨认进行检索n辨别出说话人语音的特点,来检索出指定人的录音资料,如某位教授的讲课录音等。
n实现:
根据说话人语音的变化分割录音,预先建立录音的结构和索引;
n这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。
ModernInformationRetrieval19
(2)基于说话人辨认进行检索n它在合适的环境中可以做到非常准确。
n利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。
n用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化,建立索引和确定某种类型的结构(如对话)。
n例如,分割和分析会议录音,分割的区段对应于不同的说话人,可以方便地直接浏览长篇的会议资料。
ModernInformationRetrieval20(3)基于关键词发现技术进行检索n“关键词发现”(Spotting)技术:
在语音文档中,自动地检测出指定的词或短语的技术,(例如通过“进球”这个关键词可以找到体育比赛实况录音中进球前后的解说)n实现:
n预先识别出指定集合中的关键词,建立索引。
n关键词集合固定,数量有限;
n语音数据以特征向量序列表示,索引很不方便.南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval21SubwordLatticeBasedWordSpottingu子词(Subword)单位可以是音素、音节或半音节等.它是语音分析过程中的产物,与语种无关.uSubwordLattice是一种有向无环图.u查询时使用的关键词,实时生成其子词序列,子词序列和SubwordLattice的进行相似度匹配(后向搜索).t-1t0.850.210.730.35南京大学多媒体研究所MultimediaComputingInstituteofNJU2022/11/9WuGangshan:
ModernInformationRetrieval22语音识别技术的应用领域uGrowinginterestinthisarea:
nVideomailretrieval(Cam,UK)nBBCnewsretrieval.nDigitallibraryprojects(CMU的Informedia,Michagen的MSU,Sheffield和Cam的THIRLProject,Maryland的