比赛题目.docx
《比赛题目.docx》由会员分享,可在线阅读,更多相关《比赛题目.docx(26页珍藏版)》请在冰豆网上搜索。
比赛题目
比赛题目一:
聚焦搜索引擎
2011-12-1210:
10:
05来源:
作者:
【大中小】浏览:
7845次评论:
0条
比赛题目一:
聚焦搜索引擎
赛题简介:
介绍整个赛题的思路和整体要求
随着各种B2C、C2C、B2B的网站的成长和各种测评网站的建设。
足不出户的网络购物已然成为大家生活中的一部分。
但是随之而来想要从各种网站中找到最好、最划算的商品也非常困难。
所以提供一个高质量的在线商品搜索平台无疑会为网络购物带来更好的未来。
虽然用户可以通过Google、XX、Yahoo等通用搜索引擎,在海量的网络数据中取得一些信息。
但是通用性搜索引擎也存在着一定的局限性,如:
1.不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的信息。
2.通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
3.万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
4.通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。
与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
赛题业务场景:
描述赛题相关的真实企业业务背景。
从真实场景中,适当简化或者提炼出适合比赛的赛题场景
传统网络爬虫是一个通过网络,自动下载网页信息,并未搜索引擎提供信息来源的一个重要组成部分。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
在这个过程中对于URL的来源和内容不做强制性的要求,统一的提取关键字建立索引以备搜索引擎使用。
聚焦爬虫的特点从“聚焦”两字便可以体现,它的搜索和下载会只针对特定的信息和网站。
需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。
并会针对抓去的页面按照所需的信息进行分析、过滤,提取出有用的信息并建立相关索引。
在后续的分析过程中得出的信息,将为后续的抓取过程给出反馈和指导。
针对目前各大网络购物平台的数据,提供一个聚焦于出售商品的网络爬虫无疑会为网络用户的购物行为带来更友好的搜索和对比。
最终让用户能用最快的时间找到最合适的商品。
功能性需求
1.对网络上的各种商品建立统一数据模型
能够针对目前各种购物平台和测评网站给出的复杂信息,建立一套适用于各种不同类型商品的数据模型。
如,笔记本电脑存在属性:
品牌、CPU主频、内存、硬盘、电源、屏幕尺寸、操作系统、显卡、电池类型、重量等;服装存在属性:
品牌、款式、尺码、颜色、面料、风格、季节等。
对比笔记本和服装可以看出,不同类型的商品的属性数量和含义都各不相同,且存在较大的差异。
考核标准:
∙建立统一的数据模型存储数据(必须完成):
统一的数据模型是通过多张表能够描述各种类型商品的基本属性,而不需要针对每种商品建立不同的存储表。
∙模型的可扩展性(可选):
可以方便的在模型中添加商品属性,而不需要大量重构表结构。
∙模型的存取性能(可选):
在保证前两点的基础之上,提升该数据模型存取数据的速度。
∙对网页和数据的分析过滤
能够在指定的网页入口(如:
、)中通过爬虫按照1中建立的模型分析商品的有效信息(基本属性),并保存相应数据信息。
如:
淘宝网针对某个商品的描述,除了基本属性外还包括了一些详细描述、商家信息、成交记录、付款方式等。
我们需要剔除除了商品信息以外的部分,做到准确分析。
考核标准:
∙可以自行设置网页入口(必须完成)
∙准确找到网页中的属性信息(必须完成):
如:
下图中只有红色部分的信息为有效的商品信息。
而针对退货说明等对于商品信息的建立是不需要分析处理的。
∙利用商家其他信息指定搜索策略(可选):
如部分商家的信誉等级较高(皇冠)、商品出货量较大,则认为该商家的商品信息较为可信,提高该商家的所有商品信息的爬取等级,重点爬取。
反之如果一个商家评价较差、且几乎没有更新、没有成交,则认为商家的商品信息可信度不高,降低该商家等级,遇到该商家的URL可以放弃。
∙针对网页分析结果和数据的展示
通过用户输入搜索关键字,可以展示用户所搜索的商品的相关信息。
考核标准:
∙根据关键字,搜索商品信息,提供商品展示界面(必须完成)。
∙展示商品价格、评价等信息(可选),如:
近期商品的价格趋势图、购买数量趋势图等。
∙提供商品的横向、纵向关联信息展示(可选),如:
搜索HPEliteBook6930P笔记本电脑,可以将相似属性(与该商品相同的价格区间、品牌、配置等信息)进行扩展展示。
要求展示方式新颖、直观。
非功能性需求
其他限制条件:
开发环境、实验平台、开发语言、数据库、编译器等限制条件
对具体开发环境和语言不做要求。
测试数据或平台:
提供给参赛者的测试环境和测试数据。
(可提供电子档)
可自行选用、等主流网购和评测网站作为数据来源。
其他要求
比赛题目二:
时空数据的有损压缩算法
2011-12-1210:
14:
12来源:
作者:
【大中小】浏览:
4681次评论:
0条
比赛题目二:
时空数据的有损压缩算法
赛题简介:
介绍整个赛题的思路和整体要求
时间、空间、属性是地理现象的三个基本特征,也是GIS数据库的三种基本数据组成。
这里的“空间”指空间位置数据及其派生数据。
“属性”指与空间位置无派生关系的专题属性数据。
“时间”则指时间、空间和属性状态的时变信息。
随着近年来以空间数据库为基础的GIS研究和应用的不断深入,随时间而变化的信息越来越受到人们的关注,因而提出了时态GIS(简称TGIS)的概念。
时态GIS的组织核心是时空数据库,时空数据模型则是时空数据库的基础。
赛题业务场景:
描述赛题相关的真实企业业务背景。
从真实场景中,适当简化或者提炼出适合比赛的赛题场景
时空数据库的数据主要来自于一类按照时间周期返回位置及属性数据的传感器,这类传感器通常会被安装在一些移动的个体上,比如车辆或者个人。
通过传感器周期传回的位置及属性数据,系统可以完整的记录下个体的移动轨迹以及对应时间属性值(如速度、温度等)。
当前的应用发展趋势表明,被监测个体的数目正在呈爆炸性的增长,同时随着技术的进步以及应用的需求,数据回传的周期也越来越短。
例如,南京市的私家车保有量大约在100万台左右,如果后台系统想要实时的知道每台车的位置及属性信息,至少需要对每台车进行秒级采样,我们假设每次每台车上传的数据为50字节,其每天的数据增加将达到:
4.02T=50byte/条*100万*24*60*60
可以想见系统长时间的运行将占用非常庞大的磁盘空间,反之如果针对这些采集数据进行有效的压缩,而且压缩算法具备较高的压缩比,则能够节约大量的磁盘空间,极大的降低系统的建设成本。
数据压缩分为有损和无损两大类。
有损一般采用线性拟合的方法,而无损则通过各类近似霍夫曼编码的方法压缩数据。
有损压缩的精髓主要是如何抽取特征点,以特征点的连线来近似地表示(拟合)原始数据曲线。
本题对时空数据做如下定义:
structData
{
longlongtime;
doublex;
doubley;
doublez;
};
其中time代表位于移动个体的采集器上传数据的绝对时间,x,y,z分别代表该个体在当前时刻所在空间位置的三个坐标,因此同一采集器一组按时序排列的Data可以看做是一个个体在一段时间内的位移轨迹,为降低难度,本题目不考虑当前时刻采集的属性值。
题目要求实现一套针对单一个体按时序排列的位置数据的有损压缩算法,即将一条基于等间隔时间变化的三维曲线进行压缩,要求能够对这条曲线进行拟合还原,原始点与拟合点的欧式距离之差小于某一给定参数。
功能性需求
根据提供的6000个等时间间隔时空数据,根据时序实现一套有损压缩算法(不能借助任何已有的专利算法),该算法可行性要求可被数学证明,另外该算法需具备极高的效率以及压缩比。
若有损压缩阈值设置为x,则还原后的数据与元数据的欧氏距离差不能大于x,6000个事件的压缩应当在500毫秒内完成(不含读取6000个事件所需要的时间)(假定机器配置为英特尔®酷睿™2双核处理器E7500(2.93GHz/1066FSB/3M二级缓存,32bitOS),或相近配置),压缩比至少达到6:
1,即压缩后至多只保存1000个事件。
数据拟合应当在500毫秒内完成(即将1000个事件还原为6000个事件),而拟合后每个拟合值与原始值的误差都必须在有损压缩设置的阈值范围0.1以内,拟合度越高越好。
算法接口:
1.intcompress(Datadata_in[],intcount_in,Datadata_out[],int&count_out,doubledeadband);
1.data_in:
需要压缩的数据,时空数据数组
2.count_in:
数组的个数
3.data_out:
压缩过后的数据
4.count_out:
压缩后剩下的数据
5.deadband:
压缩死区
2.intdecompress(Datadata_in[],intcount_in,Datadata_out[],intcount_out,inttimeStep)
1.data_in:
需要还原的数组
2.count_in:
数组的个数
3.data_out:
还原后的结果
4.count_out:
原数据个数
5.timeStep:
时间的步进值
非功能性需求
要求以图文结合的方式给出算法的论述与证明。
其他限制条件:
开发环境,实验平台,开发语言,数据库,编译器限制等
代码采用c++方式实现,要求在win7平台上用vs2008能够编译通过。
验证方式:
1.将源文件与测试用main.cpp文件放入vs2008项目中。
2.要求不做任何改动的情况下可以进行编译,链接,执行
3.实际测试中会从文件中读取数据,并将压缩过的数据写入另一文件并验证
判断依据:
1.拟合还原后的数据与原数据的欧氏距离不得大于有损压缩阀值。
2.压缩后的Data数量越少越好。
3.压缩与还原所需时间越少越好。
4.拟合值与原始值的误差越小越好。
5.计算过程中所需计算机资源(cpu,内存)越小越好。
测试数据平台:
提供给参赛者的测试环境和测试数据(可提供电子档)
附工程文件和测试数据。
注:
测试数据为测试用,不是实际评分的数据。
工程文件下载
测试数据下载
比赛题目三:
最优数字分配策略
2011-12-1210:
17:
44来源:
作者:
【大中小】浏览:
5933次评论:
0条
比赛题目三:
数字分配策略
赛题简介:
介绍整个赛题的思路和整体要求
最优数字分配策略
比赛题目条件:
假设有2500个数据存储单元,形成为50*50的正方形矩阵。
每个数据存储单元允许存储2~5个整数,整数范围为1~70,每个整数使用次数不限。
50*50数据存储单元如下表形式:
1-1
1-2
1-3
1-4
…
2-1
2-2
2-3
2-4
…
3-1
3-2
3-3
3-4
…
4-1
4-2
4-3
4-4
…
…
…
…
…
…
其中1-1、1-2等表示存储单元在矩阵中的行列位置,也可以将其作为存储单元的名称。
比赛题目要求:
∙将1~70的整数按各存储单元的整数个数要求,分配到各数据存储单元中。
未按要求分配整数,比赛无成绩,直接出局;
∙每个存储单元内的整数不能相同且不能相邻。
如:
1和2、2和2、2和3不能出现在同一个存储单元中。
如果违反规则,按下述罚则处理:
针对每个存储单元都统计一遍,出现一次相同,结果累加100违约分;出现一次相邻,结果累加50违约分;
∙每个存储单元与相邻的存储单元内的整数不能相同且不能相邻。
如:
第2-2存储单元内的整数与第1-1、1-2、1-3、2-1、2-3、3-1、3-2、3-3存储单元内的整数不能相同且不能相邻。
如果违反规则,按下述罚则处理:
针对每个存储单元都统计一遍,出现一次相同,结果累加20违约分;出现一次相邻,结果累加10违约分;
∙每个存储单元与相邻存储单元的相邻存储单元内的整数不能相同。
如:
第2-2存储单元内的整数与第1-4、2-4、3-4、4-1、4-2、4-3、4-4存储单元内的整数不能相同。
如果违反规则,按下述罚则处理:
针对每个存储单元都统计一遍,出现一次相同,结果累加1违约分;
∙各比赛小组自己设计分配算法,在规定时间内(比如1小时)运算分配结果,哪个小组最后的违约分值最低,哪个小组获胜。
违约分计算举例:
行\列
列1
列2
…
行1
1,3,5
7,9
…
行2
11,12,13
1,4
…
…
…
…
…
上表所示为部分存储单元内整数分配结果,违约值计算方法如下:
当前存储单元标识
冲突存储单元标识
当前存储单元违规整数
冲突存储单元违规整数
违约分数
1-1
2-2
1
1
20
1-1
2-2
3
4
10
1-1
2-2
5
4
10
2-2
1-1
1
1
20
2-2
1-1
4
3
10
2-2
1-1
4
5
10
2-1
2-1
11
12
50
2-1
2-1
12
13
50
为了方便计算,同存储单元内(如2-1)的冲突整数按照规则计算一次违约分,相邻存储单元内(如1-1和2-2)的冲突整数由于参照主体改变会重复计算违约分。
最后的总分为所有违约分的总和。
评价标准:
本题没有标准答案,完全以运行时间和最后的违约值来评价比赛结果。
评审组将随机确定各数据存储单元内的整数个数,分别运行各比赛小组提交的程序,并将各程序在规定的比赛时间内运算的有效分配结果进行违约值统计,然后按违约值由低到高排序,根据违约值排序产生结果排名(如果违约值相同,则用时少的小组排名靠前;违约值相同并且用时相同的小组排名相同)。
赛题业务场景:
描述赛题相关的真实企业业务背景。
从真实场景中,适当简化或者提炼出适合比赛的赛题场景
在移动通信过程中,移动用户的通信内容通过移动台(手机等移动通信设备)转换成频率信号后和通信基站(专门负责收发无线信号的物理通信设备)之间进行交互传输。
国家相关部门为各电信运营商划定专门的频率区间,此频率区间按照相关电信标准可平均划分若干等份小的频率区间作为信号传输的最小单位,每个最小单位最多可同时为8个移动用户服务。
各电信运营商频率区间不一样,频率带宽也不一样,即可划分的最小单位个数也不一样。
因此,各电信运营商需要根据用户密度在有限的频率资源条件下,建立多个通信基站,每个通信基站分配1个或多个服务频率,以服务通信区域内的用户群。
同时,如果基站内或邻近的基站使用相同或相近的频率收发信号,这些基站由于距离位置关系,会相互产生不同程度的电磁干扰,导致基站服务的移动用户出现不同程度的通信障碍。
因此,各电信运营商在建立基站并分配服务频率的过程中会充分考虑周围基站的服务频率,使各基站的服务频率要尽量不与周围基站的服务频率相近,以减少通话过程中的干扰问题。
在没有更好的频率资源可用的情况下,运营商会考虑重新分配所有基站的服务频率,达到降低干扰的目的。
根据业务背景,可按如下所述理解题目条件:
50*50的存储单元矩阵为某电信运营商服务某区域的50*50个通信基站
1~70的整数为某电信运营商的可用频率资源
每个存储单元内的整数个数为基站内服务频率个数
比赛要求2~4可理解为同基站内或相邻基站内尽量不能出现频率相近的情况,如果出现这种情况,不同距离位置的基站,会产生不同程度的通话干扰。
功能性需求
∙按题目要求设计分配算法
∙算法读取各数据存储单元内的整数个数,在规定时间内计算并可以人工或自动停止程序产生结果
∙最终结果可生成分配策略报表
∙可正确统计最终分配策略的违约结果值
∙可正确生成违反规则的详细数据报表
∙可记录开始运算到产生结果的用时
输入文件格式(示例):
输出报表格式(示例):
非功能性需求
无
其他限制条件:
开发环境、实验平台、开发语言、数据库、编译器等限制条件
不限
测试数据或平台:
提供给参赛者的测试环境和测试数据。
(可提供电子档)
无需测试环境,各数据存储单元内的整数个数随机产生。
最终根据各参赛小组分配结果,按照统一的评价标准评价各小组成绩。
其他要求
参赛小组需提交源程序、可执行程序及如下文档:
1.算法描述
2.编译及运行环境说明
3.测试数据用例及结果
比赛题目四:
基于Web的3D智能虚拟人
2011-12-1210:
20:
21来源:
作者:
【大中小】浏览:
5644次评论:
0条
比赛题目四:
更完美地实现虚拟形象的逼真性;
表情、动作的真实性:
交流时语音与表情、口型匹配及身体其他动作的配合程度更高;
可以创建超过2个虚拟人,用户可以根据自己的喜好选择形象
可以具备成长能力
基于Web的3D智能虚拟人
赛题简介:
介绍整个赛题的思路和整体要求
基于Web的3D智能虚拟人
赛题业务场景:
描述赛题相关的真实企业业务背景。
从真实场景中,适当简化或者提炼出适合比赛的赛题场景
项目背景
随着互联网和软件的不断发展和对人们工作和生活的不断渗透,越来越多的及时交互工具和平台正在被大家广泛使用,其中也产生了对各种智能交互系统的需求,在工作和生活中的各种信息查询、检索和信息分析和指导、以及智能辅助和决策系统中,智能虚拟人就是一种很好的方式来实现和满足这样的需求。
如想在网络世界里进行完美的重现,通过第一、第三人称视角进行展览参观、交互,让用户达到“沉浸-交互-构想”的完美境界。
另外搭建极富创意的WEB-3D虚拟展厅,是现代发展的一种新的展示平台,也是展现形式的一种新的突破。
因此充分发挥网络的没有时空限制、受众广泛、数据信息量大,可以采取完全个性化的3D表现方式,将数字展览融入到3D虚拟社区的架构上,使得虚拟社区能像真实环境一样有效、有趣。
功能性需求
基本要求
1.采用web版形式展现
2.至少一个的3D智能虚拟人及其他辅助场景(辅助场景自由发挥)。
3.可以与用户简单对话,并根据语音指令或文字指令做各种操作,如播报新闻、天气、星座、农历、时间和日期等资讯.
4.3D智能虚拟人能根据问题的内容做出相应的表情和动作,如微笑、平静、委屈、摆手、挥手、点头、摇头等一般人类的表情和动作。
5.3D智能虚拟人可以代替无法24小时在线的现实人,可以实现自动搜寻,自动交友等功能,具有初步智能。
非功能性需求
其他限制条件:
开发环境、实验平台、开发语言、数据库、编译器等限制条件
开发要求
1、开发语言采用JavaEE+MySql架构或ASP.Net+MSSqlServer架构
2、可以充分采用VRML3.0(X3D),DotMSN等技术,但不仅限与此。
开发工具
自定
开发周期
3个月
交付成果物
递交物
描述
需求规格说明书
背景、功能概述、系统边界、和其他系统的关系、系统的运行环境要求等描述;
详细设计说明书
对系统的详细设计
测试文档
包含测试方案、测试用户、最终测试报告;
用户使用手册
含操作手册、部署配置手册;
可运行的应用
用于发布的应用及相应的配置文件;
源代码
符合规范的程序源代码及数据库备份的打包
测试数据或平台:
提供给参赛者的测试环境和测试数据。
(可提供电子档)
参考技术:
VRML(VirtualRealityModelingLanguage)
VRML(VirtualRealityModelingLanguage)是在Internet上营造虚拟环境的技术。
它在Web网上创建可导航的、超链接的三维虚拟现实空间。
VRML(VirtualRealityModelingLanguage)即虚拟现实建模语言。
是一种用于建立真实世界的场景模型或人们虚构的三维世界的场景建模语言,也具有平台无关性。
是目前Internet上基于WWW的三维互动网站制作的主流语言。
VRML是虚拟现实造型语言(VirtualRealityModelingLanguage)的简称,本质上是一种面向web,面向对象的三维造型语言,而且它是一种解释性语言。
VRML的对象称为结点,子结点的集合可以构成复杂的景物。
结点可以通过实例得到复用,对它们赋以名字,进行定义后,即可建立动态的VR(虚拟世界)。
DotMSN
dotmsn是一个提供与MSNMessengerService连通的开源的独立类库.类库是使用C#建立的,因此,可以很好的支持.Net环境中的各种语言dotmsn的应用范围很广,包括创建MSN机器人,可以创建自定义的客户端。
方便地与MSNMessengerService进行通信。
评分标准
综合满分150分
基本分满分:
满分100分
∙构建出3D的虚拟人,并能在web上运动和显示。
0-10分。
∙构建出辅助场景,并符合题意要求。
0-10分。
∙提交成果物齐全,并符合要求。
0-10分。
∙可以与用户简单对话,并根据语音指令或文字指令做各种操作。
0-40分。
∙能根据问题的内容做出相应的表情和动作。
0-10分。
∙采用规定的技术要求和技术架构。
0-10分。
∙题意新颖,有较强的实用性和交互性。
0-10分。
提高分加分:
满分20分
∙更完美地实现虚拟形象的逼真性;
∙表情、动作的真实性:
交流时语音与表情、口型匹配及身体其他动作的配合程度更高;
∙可以创建超过2个虚拟人,用户可以根据自己的喜好选择形象
∙可以具备成长能力
评委印象分:
满分30分
比赛题目五:
基于安卓的移动应用开发
2011-12-1210:
21:
06来源:
作者:
【大中小】浏览:
10017次评论:
0条
比赛题目五:
基于安卓的移动应用开发
赛题简介:
介绍整个赛题的思路和整体要求
开发