基于神经网络的流行音乐分析.docx-资源下载

基于神经网络的流行音乐分析.docx

1、基于神经网络的流行音乐分析第六届“认证杯”数学中国数学建模网络挑战赛承诺书我们仔细阅读了第六届“认证杯”数学中国数学建模网络挑战赛的竞赛规则。我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们允许数学中国网站()公布论文，以供网友之

2、间学习交流，数学中国网站以非商业目的的论文交流不需要提前取得我们的同意。我们的参赛队号为：2419参赛队员 (签名) ：队员1：队员2：队员3：参赛队教练员 (签名)：参赛队伍组别：本科组第六届“认证杯”数学中国数学建模网络挑战赛编号专用页参赛队伍的参赛队号：（请各个参赛队提前填写好）：2419竞赛统一编号（由竞赛组委会送至评委团前编号）：竞赛评阅编号（由竞赛评委团评阅前进行编号）：2013年“认证杯”数学中国数学建模网络挑战赛赛题题目 B题：流行音乐发展简史关键词音乐分类特征提取流行音乐 BP神经网络摘要：随着e时代的深入，信息技术蓬勃发展，人们对计算机

3、的要求也在逐步提升，其中对于音乐的智能化分类也显得愈加迫切。新型,快捷，易懂的音乐分类方式受到了广泛的关注。本篇论文以流行音乐的分类为主题，针对流行音乐的多样性和不确定性，利用合适方法有效地提高音乐分类的正确率和分类精度。鉴于传统分类方法在大规模的音乐分类应用中速度慢、正确率低的现实，本文提出一种基于BP神经网络的音乐分类方法：首先作预处理，选取若干首音乐建立音乐数据库，提取音乐特征，以帧的能量（FE）和帧的能量比（FER）作为特征向量，转化为空间向量；然后以此作为基础参数库，利用BP神经网络模型对特征信号进行训练，建立分类器模型；最后，用训练出来的数据对随机选取的库外音乐进行分类。其中,分类

4、时利用多维向量，将所得到的数据分帧后用其表示,将测试音乐的数据与参数库中的各类乐曲参数相减的绝对值求和，所得到的数值越小，则其相似度越高。本次实验中，对Pop（流行）、Country（乡村）、Jazz（爵士）、Rock（摇滚）、R&B（节奏布鲁斯）、New Age（新世纪）等流六种流行音乐进行实验，实现音频的归类和推荐。网络训练结束以后，本文另外选取100组数据对模型其进行仿真测试，结果识别正确率为8542，这说明系统达到了预期的要求，得到了一个比较高的精准度。参赛队号 2419 所选题目 B AbstractWith the deepening of e-era, information t

5、echnology booming, people also gradually improve computer requirements, which an intelligent classification of the music is even more urgent. The new, fast, easy-to-understand music classification has received extensive attention.In this thesis, the classification of a pop music theme of diversity a

6、nd uncertainty for popular music, a suitable method is effective to improve the correct classification rate and classification accuracy of the music. In view of the traditional classification methods in large-scale music classification applications slow, low correct reality, this paper proposes a BP

7、 neural network based music classification: First of pretreatment, select the number of pieces of music to create a music database, extract music features , last frame energy (FE) and frame energy ratio (FER) as a feature vector into a vector space; and then used as a basis parameter library, BP neu

8、ral network model for training, the characteristic signal classifier model; randomly selected from outside the library music training data for classification. Wherein, when classified using a multidimensional vector, showing the data obtained in sub-frame, the absolute value of the summation of the

9、various song parameters in the test data of the music with the parameter library subtraction value obtained is smaller, its similarity is higher.In this experiment, the New Age Pop (pop), Country (rural), Jazz (Jazz), Rock (Rock), R & B (rhythm blues) (New Century) and other flow six popular music e

10、xperiment, realize the audio of classified and recommended. Network after the end of the training, the paper select another 100 sets of data on the model of the simulation test results to identify the correct rate of 85.42%, indicating that the system to achieve the expected requirements to obtain a

11、 relatively high accuracy.Keywords：Music Category ， Feature extraction， pop music，BP neural network 目录1. 问题重述 12.问题分析 12.1问题背景 12.2问题一 22.3问题二 23.数据预处理 23.1音乐数据 23.2音频特征提取和表示 33.2.1音频信息的选择 33.2.2特征片段的提取 34.模型假设 55.符号说明 66. 神经网络建模 66.1 BP算法原理 66.1.1 BP网络结构 66.2模型建立 863 MATTAB实现 86.4模型的检验 97.模型评价 117.

12、1模型的优点： 117.2模型的缺点： 117.3模型的推广： 118. 流行音乐的大众审美 119.流行音乐市场的分析 1210.参考文献 1210.附录 131.问题重述随着互联网的发展，流行音乐的主要传播媒介从传统的电台和唱片逐渐过渡到网络下载和网络电台等。网络电台需要根据收听者的已知喜好，自动推荐并播放其它音乐。由于每个人喜好的音乐可能横跨若干种风格，区别甚大，需要分别对待。这就需要探讨如何区分音乐风格的问题。在流行音乐中，传统的风格概念包括Pop（流行）、Country（乡村）、Jazz（爵士）、Rock（摇滚）、R&B（节奏布鲁斯）、New Age（新世纪）等若干大类，它们分别可

13、以细分成许多小类，有些小类,甚至可以做更进一步的细分。而每首歌曲只能靠人工赋予风格标签。这样的做法有许多不足：有的类别之间关系不清楚，造成混乱；有的类别过度粗略或精细；有的类别标签没有得到公认；有的音乐归属则存在争议或者难以划归。建立一个合理的数学模型，对流行音乐的风格给出一个自然、合理的分类方法，以便给网络电台的推荐功能和其它可能的用途提供支持。包括对流行音乐市场的分析、基于流行音乐的大众审美研究等。第一阶段问题问题一：建立数学模型，接收音乐文件，将其转化为数据类型。问题二：现有五大类音乐类型Pop（流行）、Country（乡村）、Jazz（爵士）、Rock（摇滚）、R&B（节奏布鲁斯）

14、、New Age（新世纪），给出任意一首歌曲将其归入六类之一，优化程序，提高其分类的准确性，给出合理方案。2.问题分析2.1问题背景基于用户网页查阅历史或网页自身的内容。获取User的个性化需求，并依此推荐给相关信息，实现为主动导航，帮助User筛选信息，分类歌曲，即这种推荐系统使得用户从Internet海量信息中获取所需音乐更为方便，节约了大量的时间。基于内容的音乐推荐系统是各类娱乐性质网站大力发展的新主题，但是与文本内容不同的是音乐具有更大的数据量和难以描述的推荐特征；1.时间的耗费，数据量的浩大将导致算法的时间复杂度难以达到在线处理的要求；2.复杂的搜索，推荐特征太多使搜索具有很大的模糊

15、性：用户喜欢某首歌可能是因为歌手、节奏、旋律等多种因素，甚至自己也不能清楚描述其原因所在，这使推荐系统的音乐特征难以确定。问题针对以上问题，我们考虑到音乐推荐系统中基于内容的音乐特征(以下简称音乐推荐特征)并不完全等同于音频检索、分割中的音乐特征，后者需要对某一音乐信息的完整表达，而音乐推荐系统需要获取其整体性特征为个性化推荐提供依据。因此，为解决以上问题，音乐推荐特征实际可以看作个体音乐相对于整个音乐库的个性描述；此外，还要求特征维数不能太大，以保证在线处理的能力。设置多维向量，利用相似度进行归类。首先通过设定音乐的内容特征，构建音乐库的特征记录集；之后采用分形理论对记录集进行属性约简，得到

16、力维矢量构成音乐推荐特征向量，最后定义向量之间的距离度量获得不同音乐之间的相似度，实现音频的归类和推荐。根据以上背景，对问题进行如下分析。2.2问题一问题一对于音频文件可直接使用matlab将其转化数据类型，但是其中又包含了过滤信息（如噪声及不重要的信息），进行音乐分帧以及预加重等处理工作。2.3问题二问题二包含两个部分：第一部分为问题一的扩展，选取若干首已知分类的著名音乐（如著名的摇滚乐“Numb”“We will rock you”,著名的R&B音乐“Love is color blind”“Dilemma”等)构成音乐分类中的乐库，并提取他们的特征作为分类参数，从而得到专门用于音乐分类的

17、问题的分类器。第二部分测试，当出现新的音乐时，使用已得到的分类器将被测试音乐分类到上述预设定的六大类之中的一个，在最后统计音乐分类系统的总体分类的精确率。3.数据预处理3.1音乐数据原始音频的来源可能多种多样，格式,采样率的参数也可能不同，所以直接对大段的音频段落进行处理也是很不现实的。所以，我们提取出来很多特征用于描述音乐，包括频域能量、子带能量、频域中心、基音频率、MFCC系数(MelFrequency Cepstral Coeffficient)等，其主要思想是对音乐音高(频率)、音长(节奏)、响度(重音)的刻画等。这些特征需要将音频分割成等时间的帧、加窗，有时为了保证帧特征的平滑,还需

18、要设置帧交叠，经过傅里叶变换得到帧频谱F(w)后，可以计算以下音乐特征：频域能量：子带能量：（将频谱分为若干个子带，以统计频域能量的分布特征）频率中心：该特征是度量音频亮度的指标。带宽： BW= （一般用于衡量音乐的频域范围）基音频率：FO，第个谐波频率，用于衡量音调高低。MFCC系数：主要表达声道或乐器的音色特征。基于上述特征还可以推导出音乐帧的其他特征，如静音比例、子带能量均值、带宽均值、基音频率标准方差、谐成份比例、相邻帧MFCC差值等。之后还提出了一些新音乐特征描述方法，如以声谱图来概略地描述一段音乐，该方法选取每一帧中最大的K个频率值构建“特征识别矩阵”，依据矩阵的相似性进行音

19、乐检索。此外还有使用模糊粗糙集模型的音乐数据约简算法”，以及MDCT频谱熵压缩域音频指纹算法等”。这些方法都在音乐检索中得到了验证。3.2音频特征提取和表示由于音频特征分析与提取是音频分类的基础，所选取的特征应该能够充分表示音频频域和时域的重要分类特性，对环境的改变具有鲁棒性和一般性这一模块主要涉及帧的特征的计算，在此基础上计算基于音频短的特性，最后选取合适的特征构造特征集。3.2.1音频信息的选择由于要考虑在 DSP 上实现实时的分类，所以算法的计算不能太复杂，特征向量也不宜过多。而且要求在不完整载入音乐的条件下就能进行分类。综合考虑，选用相对容易的时域进行特征的选取，采用了以下两个特征量

20、： 1.帧的能量（FE） 2.帧的能量比（FER）并取短窗长20ms 其中 FE 描述的是一个帧的能量值，该特征描述了一个帧强度的大小，第i 帧的FE 计算公式如：其中是第n 个样本，FLen 是每一帧的长度FER 定义了相邻两个帧之间的能量比，也是特征之一，其计算公式如： 3.2.2特征片段的提取音乐分为平缓部分、高潮等部分，决定音乐风格的基本是高潮部分，如高潮出现的时间、次数，以及强度等。特征的提取的工作就实际上就可以是一个分类的过程：将每一个帧分类，将高潮部分和相对激烈的帧提取出来作为特征向量。用matlab将Pop（流行）、Country（乡村）、Jazz（爵士）、Rock（摇滚

21、）、R&B（节奏布鲁斯）、NewAge（新世纪）的音乐特征提取如下图：4.模型假设1.假设测试期间，所有歌曲都有同等机会被选中并归类。2.假设把首先选定的100首（每一类有20首）经典曲目的测试结果作为参数库。3.假设得到的歌曲类型有且仅有六中：POP(流行)、R&B（节奏布鲁斯）、ROCK（摇滚）、Jazz(爵士)、Country(乡村)和New Age（新世纪）。4.假设选取的音乐曲目被等长分段。5.符号说明频域能量E子带能量SE频率中心FC带宽BW帧的能量FE帧的能量比FER基音频率FO6. 神经网络建模6.1 BP算法原理BP(Back Propagation)神经网络是1986年由R

22、umelhart和McCelland为首的科学家小组提出的一种神经网络学习算法，全称是基于误差反向传播算法的人工神经网络。单层的神经网络只能求解线性可分的问题，求解非线性问题必须用含有隐层的多层神经网络，而BP神经网络提出隐层的连接权值调整问题的有效算法，成功地解决了求解非线性连续函数的多层前馈神经网络权重调整问题。6.1.1 BP网络结构BP网络是一种单向传播的多层前向网络，其拓扑结构如图所示：由图可见，BP网络是一种具有三层或三层以上的神经网络，包括输入层、中间层(隐层)和输出层。上下层之间实现全连接，而每层神经元之间无连接。当一对学习样本提供给网络后，神经元的激活从输入层经各中间层向输

23、出层传播，在输出层的各神经元获得网络的输入响应。接下来，按照减少目标输出与实际误差的方向，从输出层经过各中间层逐层修正各连接权值，最后回到输入层，这种算法称为“误差逆传播算法”，即BP算法。随着这种误差逆的传播修正不断进行，网络对输入模式响应的正确率也不断上升。与感知器不同的是，BP网络的传递函数要求必须是可微的，所以不能使用感知网络中的二值函数，常用的有Sigmoid型的对数、正切函数或线性函数。由于传递函数是处处可微的，所以对于BP网络来说，一方面，所划分的区域不再是一个线性划分，而是由一个非线性超平面组成的区域，它是比较平滑的曲面，因而它的分类比线性划分更加精确，容错性也比线性划分更好；

24、另一方面，网络可以严格采用梯度下降法进行学习，权值修正的解析十分明确。在BP神经网络预测前，首先要训练网络，通过训练使网络肯有联想记忆和预测能力。BP神经网络的训练过程包括如下几个步聚：1)网络初始化。根据系统输入输出序列(X，y)确定网络输入层节点数，t、隐含层节点数z，输出层节点数m，初始化输入层、隐含层和输出层神经元y1，y2，ym之间的连接权值，埘。，初始化隐含层阈值口，输出层阈值b，给定学习速度和神经元激励函数。2)隐含层输出计算。根据输入向量x，输入层和隐含层间连接权值埘。以及隐含层阈值a，计算隐含层输出H。式中，为隐含层节点数，为隐含层激励函数，该函数有多种形式，本文选择的函数为

25、： 3)输出层计算。根据隐含层输出日，连接权值13。和阈值6，计算BP神经网络预测输出D。 4)误差计算。根据网络预测输出O和期望输出Y，计算网络预测误差e。 5)权值更新。根据网络预测误差e更新网络连接权值埘wij,wjk 式中为学习速度。6)阈值更新。根据网络预测误差e更新节点阈值a，b。 7)判断算法迭代是否结束。若没有结束，返回步聚2)。6.2模型建立根据系统输入输出数据特点确定BP神经网络的结构，由于语音特征输入信号有24维，待分类的语音信号共有5类，所以BP神经网络的结构为24255，即输入层有24个节点，隐含层有25个节点，输出层有4个节点。BP神经网络训练用训练数据训练BP神经

26、网络。共有2000组语音特征信号，从中随机选择1500组数据作为训练数据用来训练网络，500组数据作为测试数据用来测试网络的分类能力。基于BP神经网络的语音特征信号分类算法建模包括BP神经网络构建、BP神经网络训练和BP神经网络分类三步算法的流程如图所示：63 MATTAB实现根据BP神经网络理论，在MATLAB平台下编程实现基于BP神经网络的语音特征信号分类算法。1)数据归一化为了取消各维数数据间数量级差别，避免因为输入输出数据数量级差别较大而造成网络预测误差较大，同时加快网络训练速度，对数据进行归一化处理，将所有数据归化到0，1区间。本文采用下式对数据进行归一化。式中xminx为数据序列的

27、最小值，xmax为数据序列中的最大值。2)数据选择首先根据倒谱系数法提取四类音乐特征信号，同时语音信号分别用l、2、3、4、5、6标识，提取出的信号分别存储于data1.mat，data2.mat，data3.mat，data4.mat, data5.mat，data6.mat数据库文件中，每组数据为25维，第1维为类别标识，后24维为语音特征信号。把六类语音特征信号合为一组，从中随机选取1500组数据作为训练数据，600组数据作为测试数据，并对训练数据进行归一化处理，根据语音类别标识设定每组语音信号的期望输出值，如标识为l时，期望输出向量为1,0,0,0,0,0。经检验数据的正确率如下图：3

28、)BP神经网络结构初始化根据语音特征信号特点确定BP神经网络的结构为24256，随机初始化神经网络的权值和阈值。4)BP神经网络训练用训练集训练BP神经网络，在训练过程中根据网络的预测误差调整网络的权值和阈值。5)BP神经网络分类用训练好的BP神经网络分类语音特征信号，根据分类结果分析BP神经网络分类能力。6.4模型的检验为避免神经网络的过拟合，过拟合现象就是指为了得到一致假设而使假设变得过度复杂。想像某种学习算法产生了一个过拟合的分类器，这个分类器能够百分之百的正确分类样本数据(即再拿样本中的文档来给它，它绝对不会出错)，但也就为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如

29、此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别!本文决定使用交叉验证方法，即将训练集分成两部分，每次留出一个样本作监督，不参与网络的训练，其余样本用来训练，不断交换样本，使训练集中每一个样本监督一次。用全体训练集的交叉验证误差均方根RMSECV作为网络训练的评估标准，用预测误差均方根RMSEP反映模型对未知样本的预测效果。两者的计算公式见式(1)和(2)，其中e是真值，6e是预测值，一是训练集样品数，P是使用的主成分数，m是预测集样品数。采用式(3)计算RSECV和RSEP以考察模型校正和预测的相对偏差。在MATLAB平台上使用BP神经网络工具箱，设计网络结构，输入训练样本

30、进行训练，训练结果证明该网络能够收敛。在MATLAB中该BP网络的具体训练过程如下图网络训练结束以后，本文另外选取100组数据对模型其进行仿真测试，结果识别正确率为8542，这说明系统达到了预期的要求，得到了一个比较高的精准度。7.模型评价7.1模型的优点：在各种音乐区分系统中,神经网络因其结构简单、算法成熟并能精确寻优而被广泛地应用于音频分类识别领域。模型抽象：神经网络实质上就是一个特殊的映射实现输入到输出的过程，且可证“三层的神经网络能够以任意精度逼近任何非线性连续函数”。这使得其特别适合于求解内部机制复杂的问题。现时性：神经网络在测试时，能够通过学习自动提取输入、输出数据间的“合理规

31、则”，并自主的将学习内容记忆于网络的权值中。所以神经网络具有高度自主学习和自主适应的能力。泛化性：所谓泛化性是指在设计模式分类器时，即要考虑分类器在保证对所需分类对象进行正确分类的同时，还要关心分类器在经过训练后，能否对未见过的音频文件或有噪声污染的音频文件，进行正确的分类。也即神经网络具有将学习成果应用于“陌生”同类型文件的能力。健壮性：神经网络的部分结构出现了问题，并不想影响其正常的工作。即神经网络具有一定的容错能力。7.2模型的缺点：但是，由于BP法是一种基于梯度下降的算法，因而不可避免地存在收敛速度慢 ,易陷入局部极小点等缺点。7.3模型的推广：此方法也可以用于语言、电影、视频、图片等的分类。8. 流行音乐的大众审美像其它艺术一样，音乐艺术成为公众文化生活的一部分。商品经济时代的到来，流行歌曲同其它领域的商品一样，大众可以随时随地拿来消费。在市场经济的驱动下

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？