1、大数据驱动的人工智能技术,2022/10/22,1,崇志宏数据与智能实验室 东南大学,提纲,基本框架和智能计算基本框架技术痛点应用难点分析,文本结构化抽取,智能框架,市场研究报告,外部公开数据源,大数据,知识图谱,价值传递,内部数据源,淘宝、京东、苏宁,新闻,公司网站,社交媒体,公司招聘,专利,智能爬虫,文本结构化抽取,其他非结构化、半结构化数据,知识库,数据终端什么产品?什么客户?什么市场模式?,数据直通API,智能搜索智能问答,智能平台,模型与价值发现,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数据产品设计用户手册客服录音,文本结构化抽取,智能框架,市场研究报告,外部公开数据
2、源,大数据,知识图谱,价值传递,内部数据源,淘宝、京东、苏宁,新闻,公司网站,社交媒体,公司招聘,专利,智能爬虫,文本结构化抽取,其他非结构化、半结构化数据,知识库,数据终端什么产品?什么客户?什么市场模式?,数据直通API,智能搜索智能问答,智能平台,模型与价值发现,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数据产品设计用户手册客服录音,技术痛点:多维数据的融合-知识图谱,知识库,概念、属性,外部公开数据源,淘宝、京东、苏宁,新闻,公司网站,社交媒体,公司招聘,专利,其他非结构化、半结构化数据,市场研究报告,内部数据源,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数
3、据,市场研究报告,内部数据源,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数据,产品规格设计文档用户手册客服录音,技术痛点:多维度异构数据上的分析建模,知识图谱,概念、属性,市场研究报告,外部公开数据源,内部数据源,淘宝、京东、苏宁,新闻,公司网站,社交媒体,公司招聘,专利,其他非结构化、半结构化数据,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数据,市场研究报告,内部数据源,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数据,约束条件,语义向量化,产品规格设计文档用户手册客服录音,产品规格设计文档用户手册客服录音,技术痛点:多维度异构数据上的分析建模,知识库
4、,概念、属性,市场研究报告,外部公开数据源,内部数据源,淘宝、京东、苏宁,新闻,公司网站,社交媒体,公司招聘,专利,其他非结构化、半结构化数据,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数据,市场研究报告,内部数据源,用户研究报告,行为大数据,运营数据,推广数据,调查、反馈数据,约束条件,语义向量化,产品规格设计文档用户手册,技术痛点:用户画像、产品画像中的数据的稀疏性,特殊人群,敏感度属性,社会属性,行 为 属 性,技术痛点:用户画像、产品画像中的数据的稀疏性,特殊人群,敏感度属性,社会属性,行 为 属 性,数据稀疏性:1)知识图谱数据融合;2)深度神经网络的泛化能力;3)语义
5、特征向量,技术痛点:用户画像、产品画像中的数据的稀疏性,数据稀疏性:1)知识图谱数据融合;2)深度神经网络的泛化能力;3)语义特征向量,约束条件,知识图谱的深度网络表示,技术痛点:高维属性依赖关系模型训练和推理,特殊人群,敏感度属性,社会属性,行 为 属 性,痛点:高维属性依赖关系模型训练和推理,特殊人群,敏感度属性,社会属性,行 为 属 性,提纲,基本框架和智能计算基本框架技术痛点应用难点分析,难点1:数据爬取和融合,难点2:数据爬取和融合-图片和文本融合,文字描述,多媒体信息融合与搜索图片搜索图片文字搜索图片图片搜索文字语音搜商品,难点3:语音客服综合平台,1.什么商品、品牌、规格2.什么
6、原因、关切什么?3.解决方案偏好?4.,1.这个客户是什么类型?2.一般的服务策略?3.询问什么问题?4.可以提供什么继续服务?,抽取客户信息,客服支持,语音客服综合信息平台客户意图识别客户背景及相关资料服务模式和策略支持,难点4:大规模信息结构评价,行为语义网站结构语义一致性和网站结构评价,信息结构评价及改进点页面布局问题网页链接结构问题不同人群访问模式特点,难点5:国防综合信息系统,敌我部队编制敌我指挥机构敌我武器装备人防工程作战条令、预案地理、气象信息,人工情报,Kafka,Spark Streaming,知识图谱HBASE存储,知识抽取、知识图谱构建和维护,Spark SPARQL接口
7、,作战情报支持,五月十五号早上敌飞机?飞近我钓鱼岛,飞行轨迹滞留时间,情报分析模型库,推测飞机型号、武器装备、飞行目的以及推测依据,军事知识图谱构建和信息集成SparQL查询接口语义搜索,难点6:情感分析,Yelp:57百万用户评论,132 百万独立用户访问/月Dianping:26 百万评论,70 百万 独立用户/月,One product in one reviewDetailed on different aspects,Overall score,Review comment,用户对不同维度的信息关注度是推荐需要了解的,结婚买什么样的空调,安静的、挂起来的,分析结果示意图,属性(正面,
8、负面),关于肉类正面评价1465次负面评价 497次,关于鸡翅正面评价3次负面评价5次,难点7:用户潜在喜好分析,推出一款新品,用户的喜好程度如何?,长期以来,一直忽视文本与评价分数的结合,目标:1.用户买过该产品2.用户对该产品的体验3.推荐可能满意的产品,难点8:基于潜在关联的打包推荐,推出相关产品,目的是组合售卖,通过用户的消费历史,映射商品的可见特征到隐藏特征,获取不同商品之间的关联。,难点9:数据融合,不同厂家类似产品归类,目标:提高自身的竞争力,Unstructured data contain important information,exquisite and easy of
9、 use!Recommend!Satisfied purchase!,Received!Very exquisite!Hope it can stay long!,Its practical,exquisite and portable.The only drawback,Good product,but its impossible to add Lenovo h301 camera together with 301 driver.Add uvc instead,Its appearance is ordinary,but the handwork is good,the board is stable.The server answers every question.,The board is good,the craft is terrific.Best choice for handcraft,文本特征重要,基于文本特征的分布式数据融合架构,难点10:分布式内存数据处理,国内第一个实时注入实时分析开源数据库系统服务于贵州省扶贫云平台(最后测试阶段)将服务于数十万用户https:/,面向金融应用的实时注入实时分析系统,提纲,基本框架和智能计算基本框架技术痛点应用难点分析,谢谢!,
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1