内容网数据采集接口定义及自动处理流程.docx
《内容网数据采集接口定义及自动处理流程.docx》由会员分享,可在线阅读,更多相关《内容网数据采集接口定义及自动处理流程.docx(10页珍藏版)》请在冰豆网上搜索。
内容网数据采集接口定义及自动处理流程
数据采集及自动处理流程
1概述
本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。
通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。
对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试,
2采集接口定义
2.1爬虫BT接口
2.1.1待确认问题
因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答
1.爬虫是否会去爬取BT的信息
2.如果爬虫会爬取BT的信息,那么和HTTP爬取的信息是否一致?
3.Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别
基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计
1.爬虫会爬取BT信息
2.爬虫爬取的信息仅包含资源信息。
2.1.2接口设计
调用方:
爬虫系统
调用频率:
当发现爬取到新的数据时实时调用或者每天定时调用
约束:
确保每次发送的信息都是最新批次的数据
输入参数:
输入参数明细如下
18
FORMAT
文件格式
2
NAME
名称
用于完整性校验,判断去重
4
PROTOCOL
采集协议
5
LANGUAGE
语言(
6
CNT_SIZE
大小
7
QUALITY
质量
10
DATA_RATE
码流
11
INFOHASH
Infohash值
判断去重
12
Duration
播放时长
13
URL
资源来源
完整性校验
输出:
成功或者失败。
2.2爬虫HTTP接口
2.2.1待确认问题
1.爬虫爬取HTTP在线资源时,资源资料信息是否同时采集?
2.Http爬取的资源中是否带有影片名称,集数?
基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计
爬虫爬取HTTP在线资源时,资源和资料信息不是同时进行采集
2.2.2接口设计
2.2.2.1爬虫HTTP资源接口
18
FORMAT
文件格式
2
NAME
名称
用于完整性校验,判断去重
4
PROTOCOL
采集协议
5
LANGUAGE
语言(
6
CNT_SIZE
大小
7
QUALITY
质量
10
DATA_RATE
码流
11
INFOHASH
Infohash值
判断去重
12
Duration
播放时长
13
URL
资源来源
完整性校验
2.2.2.2爬虫HTTP资料接口
编号
字段名称
说明
备注
2
NAME
名称
影片名称
3
LABEL
别名
4
DESCRIPTION
描述
影片的剧情描述
5
HPOSTER
横向海报
6
VPOSTER
竖向海报
7
IS_HOT
是否热点
8
TAG
Tag栏
9
CHILDREN_COUNT
子集数量
10
AUTHOR
编剧
11
TV_NAME
电视台名
12
TV_HOST
主持人
13
SPAN
时长
播放时间
14
COMMENTS
点评
15
LANGUAGE
影视语言(FK)
16
ACTORS
主要演员
17
DIRECTORS
导演
18
PLAYDATE
影视上映日期
19
COUNTRY
地区分类(FK)
20
MOVIETYPE
影视分类(FK)
21
CONTENT_TYPE
题材分类(FK)
22
AVG_MARKS
评分
23
capture_site
采集点
判断是不是10大门户网站
24
channel
频道
可用于区分是否有集数,主演作者等一系列字段
3自动处理流程
自动处理流程的目的是对于采集接口获得的数据通过系统的自动内容筛选,自动内容质控,自动内容发布功能提高入库数据的质量,减轻人工编辑的工作量。
3.1规则列表
下方表格中定义了我们归纳出的筛选,质控,发布的规则,平台的规则引擎会自动根据下方的规则对数据进行处理。
请根据实际情况对这些规则进行确认以及补充。
筛选规则
屏蔽资料垃圾数据
通过对影片名称,播放地址进行非空判断。
如有空字段,则把该数据放到垃圾表中处理。
(资料)
屏蔽资源垃圾数据
通过对影片名称,播放地址进行排空处理。
如有空字段,则把该数据放到垃圾表中处理。
(资源)
采集信息资料去重
对“影片名称”进行比对。
如有相同数据,则把该相对数据内容不全的资料放到垃圾表中处理。
采集信息资源去重
对“播放地址”,“infohash”进行比对。
如果数据相同。
则删除其中一条记录。
元数据资料去重
通过影片名,别名与元数据中原先资料进行对比,如果有相同资料,则此资料不添加到元数据库中。
元数据资源去重
http通过播放地址进行对比,bt通过infohash值进行对比。
如找到相同记录,此资源状态改为屏蔽添加到元数据库中。
绑定入库
如果在去重阶段未找到相同记录。
通过查找对应的影片名(资料查找资源)进行绑定,反之,亦然。
(资源资料)
对于有父子级关系的(例如电视剧)资料。
如果库中没有子集资料。
父子资料会自动生成子集资料供资源绑定。
审核规则
合法性校验
判断各字段中是否有关键词(例如:
黄色词语),如果有则转入人工待审核(资源资料通用)
资源有效性校验
资源是否属于10大门户网站,如果是直接审核通过。
向播放地址发送ping看是否有效。
资料内容校验
首先判断资料是否属于10大门户网站,如果是,直接审核通过。
对别名中出现的逗号,顿号自动转换成"/".去除”/“两边的空格。
评分字段如果低于5分,自动转为5分以上,如果评分为整数,则添加一位小数。
对于导演,演员,自动去除每一行的前后空格。
对于剧情描述,首行空2个空格,自动添加或删除多余空格。
对于演员,导演,如果名字不全(例如:
张艺谋,但资料中是张艺)查找字典表,自动补全名称。
演员亦是如此。
对于地区:
如果地区为空,可通过演员,导演来推算是哪个地区。
如果频道对应的剧集,影片。
那么演员,导演不能为空。
如果对应是动漫,那么作者不能为空。
如果对应是综艺,那么主持人,电视台不能为空。
不符合规则,转为人工代审核
分布管理规则
资源发布规则
根据资源的热度(点击率,排行,搜索次数)划分出若干个等级,根据热度等级的结合每个局点的缓存情况,下发到各个局点。
例如将热度分为高,普通,低3个等级,对于等级为高的资源下发所有局点,对于热度为普通的资源只下发到缓存空间多的局点,对于热度等级为低的资源只下发到本地。
缓存优化规则
1.当发现某个资源的缓存进度一直处于比较低的时候,根据规则替换或者删除该缓存
2.当发现一个资源被缓存多次时,应根据资源的缓存进度保留进度最高的资源,删除其他资源缓存。
3.当发现局点缓存空间偏低,应根据每个资源的热度,缓存情况,清理资源,清理热度低,缓存进度低的资源。
3.2详细描述
1资源处理流程图
资源在入库前,会进行完整性校验,同批次去重,资源可靠性审核等多重步骤,保证进入元数据的资源是真实可用。
资源在入库后会定时调用审核规则查看资源库中的数据是否符合审核条件,对于已经失效的链接等进行剔除操作。
并且对符合发布条件的资源调用分布管理机制,保证资源的最大利用率。
2资料处理流程图
资料在入库前,会进行完整性校验,同批次去重,与元数据库去重等多重步骤,保证元数据的资料是唯一的。
并且在入库之前也会调用什么审核规则,尽量提前修正资料的中错误。
资料在入库后会定时调用审核规则查看资料库中数据完整性,可靠性,并对一些数据自动进行校正,修正。
并且对符合发布条件的资料进行发布。
4补充问题
合作伙伴引入调用接口在哪,该如何调用,能否提供?