基于网贷行业新闻的文本数据挖掘.docx

上传人:b****7 文档编号:9510359 上传时间:2023-02-05 格式:DOCX 页数:9 大小:611.95KB
下载 相关 举报
基于网贷行业新闻的文本数据挖掘.docx_第1页
第1页 / 共9页
基于网贷行业新闻的文本数据挖掘.docx_第2页
第2页 / 共9页
基于网贷行业新闻的文本数据挖掘.docx_第3页
第3页 / 共9页
基于网贷行业新闻的文本数据挖掘.docx_第4页
第4页 / 共9页
基于网贷行业新闻的文本数据挖掘.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

基于网贷行业新闻的文本数据挖掘.docx

《基于网贷行业新闻的文本数据挖掘.docx》由会员分享,可在线阅读,更多相关《基于网贷行业新闻的文本数据挖掘.docx(9页珍藏版)》请在冰豆网上搜索。

基于网贷行业新闻的文本数据挖掘.docx

基于网贷行业新闻的文本数据挖掘

基于网贷行业新闻的文本数据挖掘

日期:

基于网贷行业新闻的文本数据挖掘

文/盈灿咨询袁鑫强

文本挖掘,是数据挖掘领域重要的组成部分。

简单地说,文本挖掘就是通过

NLP、机器学习等方法从大量的文本资料中发掘出有价值的信息。

无论是微信聊天记录,还是新闻文章,亦或是古诗词等,文本挖掘的应用领域非常广泛。

在网贷行业,舆情分析相对较少。

究其原因,绝大多数网贷相关词汇均属于未

登录词。

通过手动录入的方式可以在一定程度上解决这一问题。

但是其工作量巨大,而且对于纷繁复杂的人名、机构名、专业名词无法全面地录入。

本文以统计方法生成行业内未登录词,并在此基础上挖掘行业及平台热点。

、新词生成

为了便于说明,选取网贷之家网站上2017年4月10日发布的所有新闻,并

在剔除所有非中文字符之后将其拼接在一起,生成的文本用T表示。

1.建立备选词词库

我们假设一段文本中所有长度大于1且不超过L的词均可以独立成词。

例如,取L=5,则对于上述51550字的文本材料T就能生成51549+51548+51547+

51546=206190个备选词。

2.停用词过滤

停用词主要是指人类语言当中的一些功能词,例如“的”,“了”等。

这类词本身并没有什么实质性信息,但是由于出现频率高,会影响计算效率。

结合实际内容,本文中将所有含有“的”字的备选词过滤。

3.低频词过滤

如果某个文本片段出现频率过低,一方面其成词可能性较小,另一方面其文本特征的偶然性较大,不适合做统计处理。

从备选词的频数分布情况看,出现频率为1的词占86.50%,可以将其过滤。

4.自由度判断

自由度也可以理解为独立性。

一个文本片段能够成词需要在上下文中保持独立性,可以自由应用。

以“诺诺镑”和“诺诺镑客”为例,“诺诺镑”右邻字只有

“客”一种情况。

而“诺诺镑客”的右邻字有“名”、“旗”、“的”等6种情况,且各种情况的发生频率较为平均。

由此可见,“诺诺镑客”的独立性较强上下文的丰富程度较高,有更大的成词概率。

为了衡量备选词的自由度,我们在这里引入信息熵的概念。

简单的说,信息熵就是信息量。

信息熵的大小与某一不确定性事件的可能结果数量及发生概率有

关。

“诺诺镑客”右邻字集的信息熵为1.7479,明显大于“诺诺镑”的0,说明

我们

其成词可能性更高。

这也与上文通过直接观察所得结论一致。

为方便起见将所有左、右邻字信息熵较小值不大于1的备选词过滤。

图1信息熵计算方法

ig^=-rin(i)*i=o

右邻字信息爛:

ig«^g=-l/7*inCl/7)*5-2/7Mn(2/7)*l=1,7479

资料来源:

盈灿咨询

5.凝合度分析

凝合度被用来形容单词的内部凝固程度。

例如,对于语句“大数据、人工智能、区块链等引发的金融科技”而言,“区块链”的凝合度显然高于“等引发”。

从条件概率的角度考虑,假设“区块”和“链”在语料中独立随机出现,则在两者都出现的条件下,“区块链”的出现概率约等于“区块链”出现频率除以“区块”与“链”出现频率乘积。

因为“区块链”也可以拆分为“区”和“块链”所以定义凝合度=任意拆分下的最小条件概率*文本长度*100,则“区块链”、

“等引发”的凝合度分别为1.8182、0.1515。

通过测试,将凝合度不大于1的

备选词筛去。

6.登录词过滤

将通过上述步骤筛选剩余的词与已有登录词匹配,删去重复词,最终得到了53个未登录词。

图显示,挖掘出的新词可以分为三类:

1)人名:

王晓亮、刘旭、陈一菲等;2)机构、公司名称:

奥马电器、乐视、天津证监局等;3)互金及网贷

行业词:

薅羊毛、羊毛党、整改通知等;4)互金平台名:

蚂蚁金服、诺诺镑客、

鑫合汇等。

图2生成的未登录词

 

资料来源:

盈灿咨询

、行业及平台热点挖掘

1.行业热点词概览

图3网贷行业热点词分布图

资料来源:

盈灿咨询

基于上述未登录词生成方法和网贷之家4月份新闻舆情数据,可以得到4月份网贷行业热点词分布图。

图中彩色点的大小与热点词词频正相关。

总体来看,行业型热词数量较多,分布广泛。

研究、理财型热词有明显的集群现象。

政策型

热词数量在四月下旬增长显著。

表1热点区域及相关新闻事件

区域

新闻事件

热点词

网贷之家发布P2P平台银行存管

A

存管协议、存管指引、监管层、运营时间

最新名单

保监会发文提39条风控要求重

B

保监会、关联交易、切实防范、责任追究

点防新业务风险

C

信而富上市环境分析

美国上市、信而富、盈利能力、重复借款率

D

现金贷平台生存要素分析

暴力催收、持牌机构、砍头息、薛洪言

E

中国十年私人银行之路回顾

价值主张、零售升级、监管套利、刚性兑付

资料来源:

盈灿咨询

另外,在累计1207个热点词中,人名占比达到16.82%,公司、机构名占

比为9.61%,互金及网贷平台名占比达到9.20%,可见上述方法对于名称类的

词识别效果显著。

沐金农

34

张颖

35

匹凸匹

22

施建祥

33

e路同心

22

徐勤

31

聚宝匯

18

郑禹

26

资料来源:

盈灿咨询

2.热点事件观察

(1)绿能宝逾期

选择上表中词频最高的“绿能宝”为例,为了寻找绿能宝究竟发生了什么我们以四月份所有含绿能宝的网贷之家新闻为样本,采用上文所提及方法,并为

每一个热词贴上时间标签以后,得到结果:

图4绿能宝事件热点词及相关事件

 

资料来源:

盈灿咨询

,我们将“绿能宝”的词频作为基数加入到计算过程中。

表3“逾期”、“绿能宝”词频分布

日期

4月14日

4月17日

4月18日

4月19日

4月25日

合计

逾期

0

7

9

12

3

31

绿能宝

35

19

19

23

16

112

平均值

17.5

13

14

17.5

9.5

71.5

的热度在

19日最大,其值等于:

资料来源:

盈灿咨询

12+_23_

31X31+312112X71.5

31+71.5

312?

100~32.37

24.82、11.

而14日、17日、18日、25日的热度值分别为10.90、20.62、28。

(2)校园骗贷事件

某高校辅导员利用其特殊身份冒用学生个人信息在网贷平台贷款近百万后

失联。

这里,我们利用该事件相关新闻文本,尝试着构建关键词网络来刻画。

先,我们还是需要用上文的方法生成一个关键词样本。

从中筛选出20个具有特

征性的关键词作为节点;以词与词之间的最短距离作为关联性指标,若两词最短距离小于10,则认为两者具有关联关系。

另外,考虑到不同句子中的词关联性较弱,我们在句与句之间插入10个字的无关文本,以避免前句句尾词和后句句首词距离过短的情况。

图5校园骗贷事件关键词网络

资料来源:

盈灿咨询

图5中,相关联词用直线连接,粗线表示方向,直线粗端词出现在直线细端词之后。

其中,连接次数最多的词是“王晓亮”和“学生”。

显然两者就是整个事件的中心人物。

另外,通过找寻处于直线或者多边形顶点的关键词以及直线方向,可以发现一系列信息体。

例如,“南航-->辅导员-->王晓亮”反映了“王晓亮”的身份信息。

需要注意的是,若关键词的关联方向不一致,则无法形成一个可靠的信息体,比如“受骗-->父母一->电话”与“电话-->受骗”。

3.平台热点透析

以表2中词频较高的三个互金平台为例:

(1)信而富

热点词:

信而富、美元、借款、发行、普通股、招股书、公司、利率、市值、

超额配售权

前景预测以及与同在纽交所上市的宜人贷的比较。

主要新闻事件:

信而富在纽交所上市,开盘涨11%,市值达4.2亿美元。

(2)陆金所

热点词:

陆金所、平台、科技、上市、平安、业务、管理、市场、理财、产品、人士、信息、投资、私募、你我贷、交易、机构、陆金所控股、互联网金融、计葵生、平安大华、理财科技、一站式、三所一惠、平安普惠

热点分析:

陆金所的新闻热点以业务布局为主。

4月份,关于平安大华打破

原有“三所一惠”布局并入大陆金所版图的传闻甚嚣尘上。

另外,“一站式线上

财富管理”、“理财科技”的概念多次出现在新闻舆情中。

受到信而富上市的影

响,关于陆金所何时何地上市的猜测也是4月舆情的热点之一。

(3)e路同心

热点分析:

4月180,e路同心上线两周年。

因此与两周年相关的新闻报

道较多,附带着大量关于平台国资背景、成交量破七十亿之类的信息。

此外,在转型的大背景之下,e路同心开始布局社区金融。

新闻舆情中对于“社区金融”的概念、未来发展空间的描述篇幅较大。

主要新闻事件:

e路同心宣布扩充资产版块,布局社区金融。

总结

通过信息熵、条件概率等指标从统计的角度构建未登录词词库能大大提高专有名词的识别率,降低了人工成本。

与此同时,这种算法也可以被用来挖掘新闻热点。

但是其缺点也是明显的,一方面它对于语料的丰富度要求较高,另一方面计算效率偏低。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1