词嵌入原理及应用简介.pdf
《词嵌入原理及应用简介.pdf》由会员分享,可在线阅读,更多相关《词嵌入原理及应用简介.pdf(24页珍藏版)》请在冰豆网上搜索。
WordEmbedding词嵌入原理及应用简介七月算法公开课李韶华自我介绍读博前在CNKI、搜狗、当当网等公司工作,从事信息检索和数据挖掘开发博士课题:
贝叶斯生成式模型,表示学习(词嵌入、主题嵌入等)接触自然语言处理时间较短,希望同行批评指正七月算法在线公开课词嵌入原理及应用简介2/23词嵌入是NLP的流行方法七月算法在线公开课词嵌入原理及应用简介3/23讲座提纲直观上认识词嵌入词嵌入的优点模型的发展历史;word2vecWord2vec和矩阵分解的等价性;GloVe算法影响性能的因素;怎么调参“多词义”词嵌入应用:
CNN做句子分类七月算法在线公开课词嵌入原理及应用简介4/23词嵌入初印象训练自淘宝商品标题数据集数据量小(500多个标题)32维向量泰芝郎、欧比森、优鲨都是男式衬衣品牌相似词映射到相似方向Cosine相似度衡量方向七月算法在线公开课词嵌入原理及应用简介5/23词嵌入做类比题v(“国王”)v(“王后”)v(“男”)v(“女”)v(“英国”)+v(“首都”)v(“伦敦”)反映出语义空间中的线性关系质疑:
然而并没有什么x用?
两个句子:
A含“英国”,“首都”,不含“伦敦”;B含“伦敦”所有词的词向量的和表示句子两个句子仍会比较相似七月算法在线公开课词嵌入原理及应用简介6/23相似词映射到相似方向:
为什么基本假设:
“相似”词的邻居词分布类似倒推:
两个词邻居词分布类似两个词语义相近猫猫宠物主人喂食蹭喵狗狗宠物主人喂食咬汪v(“猫猫”)v(“狗狗”)七月算法在线公开课词嵌入原理及应用简介7/23词嵌入的优点传统one-hot编码(“天气”:
(1,0,0,0),“气候”:
(0,1,0,0)维度高(几千几万维稀疏向量),数据稀疏难以计算词之间相似度难以做模糊匹配词嵌入维度低(100500维)无监督学习,不需去掉停用词(stopwords)天然有聚类后的效果连续向量,方便机器学习模型处理罕见词:
“风姿绰约”“漂亮”七月算法在线公开课词嵌入原理及应用简介8/23最早的词嵌入模型Bengio2003,ANeuralProbabilisticLanguageModel输入:
上下文词的向量输出:
下个词的概率目标:
最大化预测概率两次矩阵乘,两次非线性变换参数多,容易过拟合优化缓慢,不适合大语料Tanh变换乘矩阵USoftmax变换为概率乘矩阵H七月算法在线公开课词嵌入原理及应用简介9/23Word2vec简介Mikolov2013,DistributedRepresentationsofWordsandPhrasesandtheirCompositionality使用最广泛的词嵌入方法速度快,效果好,容易扩展原因:
简单(Lessismore)七月算法在线公开课词嵌入原理及应用简介七月算法在线公开课10/23Word2vec模型回归连结函数:
没有耗时的矩阵乘,只留一个softmax变换exp=exp(,),和,兼容:
概率大不兼容:
概率小有些维表示语法,有些维表示语义如为形容词,为名词七月算法在线公开课词嵌入原理及应用简介11/23Word2vec优化两套词向量,使用时只保留一套优化方法:
随机梯度递降(SGD)每次扫描到一个词,算一下梯度,更新收敛很快。
大语料:
1、2个pass,小语料:
10个passNegativesampling:
近似分母(归一化系数)的梯度,提高效率Hierarchicalsoftmax:
提高效率,效果略差七月算法在线公开课词嵌入原理及应用简介12/23Word2vec带来的启发exp:
对数双线性(log-bilinear)方法=exp/两边取对数:
log+log=像什么问题?
七月算法在线公开课词嵌入原理及应用简介13/23Word2vec和矩阵分解的等价性log+log=右边两个低维矩阵的乘积拟合左边矩阵Levy2014,NeuralWordEmbeddingasImplicitMatrixFactorizationWord2vec理论上等价于分解PointwiseMutualInformation(PMI)矩阵PMI,=log(,)()七月算法在线公开课词嵌入原理及应用简介14/23GloVe:
矩阵分解求词嵌入回归的连接函数:
如果log,log():
=log(,)拟合PMI优化目标:
:
权重,避免低频二元词对(bigram)主导优化目标七月算法在线公开课词嵌入原理及应用简介15/23不同算法性能比较NER:
命名实体识别,Chunk:
名词短语识别七月算法在线公开课词嵌入原理及应用简介16/23Word2vec为何比大部分MF方法好SGD每次只更新碰到的词对碰到的大部分是高频词对,低频词对很少碰到,更新的少低频词对不会主导优化矩阵分解(MF)方法,低频词对往往造成大的误差,所以误导优化七月算法在线公开课词嵌入原理及应用简介17/23影响词嵌入效果的因素语料大小;语料和应用是否在同一领域向量维度:
语料大维度大。
过大容易过拟合上下文窗口:
37。
过小:
捕捉模式太少;过大:
噪音太多。
有加权:
窗口可大些word2vec特有的参数:
Iteration:
语料大迭代次数少Negativesampling:
适中,如510七月算法在线公开课词嵌入原理及应用简介18/23“多词义”词嵌入为每个词义学习单独的词向量看上去很美使数据更稀疏多词义,单向量=不同词向量的加权和JiweiLi,2015.DoMulti-SenseEmbeddingsImproveNaturalLanguageUnderstanding?
多词义向量的好处,大都可以通过提高向量维度来达到七月算法在线公开课词嵌入原理及应用简介19/23词嵌入相关资源Word2vec,C语言实现Gensim,Python实现,接口多trained_model.most_similar(positive=woman,king,negative=man)(queen,0.50882536),.DL4J,DeepLearningforJava我自己的PSDVec(未来topicvec也会在这里)分词软件jieba,Python实现七月算法在线公开课词嵌入原理及应用简介20/23语料资源英文Wikipedia12G中文Wikipedia1.2Ghttp:
/500万微博语料分词词库命名实体识别语料(英文)和训练代码使用词嵌入的CRFChunking代码和数据词嵌入原理及应用简介七月算法在线公开课21/23CNN句子分类激活方程:
Tanh,ReLU七月算法在线公开课词嵌入原理及应用简介22/23http:
/全唐诗:
http:
/全宋诗:
http:
/不需分词,以字为单位训练词向量找出唐诗中最常用的20个实词,比较它们在唐诗和宋诗里的相似词有无明显区别?
如有区别,是否反映了唐诗和宋诗的风格变化?
七月算法在线公开课词嵌入原理及应用简介23/23谢谢大家!
欢迎大家批评指正!
七月算法在线公开课词嵌入原理及应用简介24/23