10级 实验网络搜索引擎网络视频版权之争.docx
《10级 实验网络搜索引擎网络视频版权之争.docx》由会员分享,可在线阅读,更多相关《10级 实验网络搜索引擎网络视频版权之争.docx(12页珍藏版)》请在冰豆网上搜索。
10级实验网络搜索引擎网络视频版权之争
实验:
网络搜索引擎相关实验
一:
搜索引擎
1.了解最早的搜索引擎及其搜索机制---引自天涯社区
1)广泛的说,最早的搜索引擎可以追溯到web出现之前,加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生开发的软件——Archie。
Archie的主要工作机制是通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。
Archie能在只知道文件名的前提下,为用户找到这个文件所在的FTP服务器的地址。
Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。
该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。
人们公认Archie为现代搜索引擎的鼻祖。
2)而严格意义来讲的话,1994年7月,MichaelMauldin在JohnLeavitt的蜘蛛程序的基础上创建的Lycos,才是第一个现代意义的搜索引擎。
他的工作原理是利用HTML文档之间的链接关系,在Web上一个网页、一个网页的"爬取"(crawl),将那些网页"抓"(fetch)到本地后进行分析
2.现阶段国外常用的搜索引擎以及国内常用的搜索引擎信息了解
1)国外常用的搜索引擎:
--引自
<1>Google--网址:
Google目前被公认为全球最大的搜索引擎,也是互联网上5大最受欢迎的网站之一,在全球范围内拥有无数的用户。
Google允许以多种语言进行搜索,在操作界面中提供多达30余种语言选择。
<2>LookSmart--网址:
美国著名的目录导航式搜索引擎,成立于1995年,其目标既简单又雄心勃勃,那就是在互联网上帮助人们找到他们要寻找的东西,现在Looksmart已经成为网络产品目录和定位搜索市场的领头人,大部分的美国网民都使用Looksmart的目录导航工具。
<3>HotBot--网址:
美国一个非常优秀的搜索引擎,它获得了许多杂志及媒体的奖项。
HotBot最大的特点在于它的界面组织和丰富的检索功能。
它除了能够检索WEB页面之外,还提供域名检索、新闻搜索、新闻讨论组等等检索服务。
HotBot在页面上提供了直观的图形化检索菜单功能,用户可以通过简单的下拉菜单创建复杂的布尔查询,或者按日期、地理区域和媒体类型进行限制性搜索。
<4>Ask--网址:
在美国是继Google、雅虎和微软之后的第四大搜索引擎。
Ask搜索引擎原名AskJeeves,成立于1996年,是一家老牌的搜索服务网站,最初以自然语言搜索作为特色。
2005年在被IAC公司收购之后,Ask网站抛弃了过去的小管家形象,网站名称也改为Ask。
<5>Bing(必应)外文网址:
中文网址:
是微软公司推出全新搜索品牌,集成了搜索首页图片设计,崭新的搜索结果导航模式,创新的分类搜索和相关搜索用户体验模式,视频搜索结果无需点击直接预览播放,图片搜索结果无需翻页等功能。
必应还推出了专门针对中国用户需求而设计的必应地图搜索和公交换乘查询功能。
同时,搜索中还融入了微软亚洲研究院的创新技术,增强了专门针对中国用户的搜索服务和快乐搜索体验。
<6>Fresheye--网址:
是日本综合性搜索引擎,由日本东芝开发。
<7>Yandex--网址:
http:
//www.yandex.ru/
是俄罗斯第一大搜索引擎,创建于1997年,目前已经发展成为一个提供搜索、图片共享、社交网络、网络支付、免费网站托管、以及其它服务的门户网站。
Yandex的技术源于俄罗斯科学院一个旨在为苏联政府打造搜索系统的后勤项目,该款搜索引擎掌握了大量复杂的俄语语法。
在俄罗斯网络搜索市场,谷歌落后于Yandex。
<8>ceek.jp--网址:
http:
//www.ceek.jp/
是日本统一型元搜索引擎,通过在复合的搜索站点检索,用独自的算法整理计算出结果并显示出来。
2)国内常用的搜索引擎:
--引自XX文库
<1>XX——网址:
XX搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。
XX搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。
<2>一搜 ——网址:
“一搜”是雅虎中国推出的一个中文搜索网站。
目前设立了网页、图片、MP3和网址四个频道。
“一搜”采用雅虎花费数十亿美元打造出的搜索技术(YST),用户可以抓取到全球50亿网页(其中3亿个中文网页)、9000万张图片、100多万个免费音乐的海量资料。
<3>中国搜索 ——网址:
2003年12月23日,刚刚上市的慧聪国际集团重拳出击,原慧聪搜索正式独立运做,成立了中国搜索,全力打造中文搜索第一品牌。
<4>搜狐搜索 ——网址:
2004年8月3日,搜狐正式推出全新独立域名专业搜索网站“搜狗”,成为全球首家第三代中文互动式搜索引擎服务提供商。
提供全球网页,新闻,商品,分类网站等搜索服务。
<5>新浪网搜索引擎 ——网址:
提供网站、网页、新闻、软件、游戏等查询服务。
有16大类目录,一万多个细目和数十万个网站。
其网页搜索结果由中国搜索提供。
<6>网易搜索引擎 ——网址:
网易在国内首创“网易开放式目录管理系统(ODP)”。
提供网页搜索、分类网站、图片搜索、时尚搜索,其网页搜索结果由Google提供。
3.国内搜索引擎市场分布情况;--引自CNZZ数据报告
根据CNZZ数据中心对2013年11月国内主流搜索引擎的统计分析:
XX、360搜索、搜狗分别以61.18%、22.14%、12.01%的市场占有率占据前三。
其中,360搜索连续上涨,在今年一年中,市场份额增长幅度已经超过100%。
图:
CNZZ:
11月国内搜索引擎市场份额占比
2013年11月,XX搜索引擎的总占有率份额为61.18%,相对10月(61.72%)降低了0.54个百分点;其中,XX网页搜索占有率为58.1%,比10月(60.09%)降低近1.99个百分点。
而XX视频搜索、图片搜索等搜索产品的占有率上升了2.53个百分点。
值得注意的是,从今年6月起至11月,XX搜索引擎的占有率已在连续的6个月之中呈现下降趋势,在6个月中的占有率累计降幅为6.43个百分点,但XX引擎的总占有率仍高于60%,超出其他各搜索引擎占有率之和。
同时,从用户使用率角度来看,XX搜索引擎在11月之中的使用率份额为63.55%,比上月的使用率(63.86%),小幅降低了约0.31个百分点。
2013年11月,从占有率来看,360搜索的占有率份额为22.14%,首次突破22%大关,与10月的占有率相比(21.39%)提高了0.75个百分点。
在今年的前11个月份中,360搜索均呈现不同程度的增长,11月占有率相对1月占有率(10.53%)累计提升幅度为11.61个百分点,其在11个月中的总增幅已超过一倍。
从用户使用率来看,360搜索在11月的使用率为21.84%,比上月使用率(20.85%),上升了近1个百分点,总体增长势头强劲。
本月搜狗搜索占有率为12.01%,相比10月(10.45%)提高了1.56个百分点,用户使用率为10.53%,相比10月(9.75%)小幅提升了0.78个百分点。
此次搜狗市场占有率提高1.56个百分点,从今年9月腾讯对搜狗的战略投资中获益不小,但总体占有率与XX、360搜索扔有较大差距。
谷歌搜索引擎的占有率为1.68%,相比10月的(1.76%)略有降低。
在今年的前11个月份中,谷歌搜索引擎均呈现不同程度的降低,微弱的市场份额正在慢慢被蚕食。
腾讯旗下的搜搜搜索引擎的占有率本月为1.48%,相比10月(3.19%)大幅降低1.71个百分点,此次搜搜市场份额大幅降低主要归咎于腾讯放弃搜搜,投资搜狗,导致用户流失。
从使用率来看,谷歌、搜搜本月使用率分别为1.66%、1.36%,依然是谷歌小幅下降,搜搜大幅下降1.4个百分点的局面。
纵观整个11月国内搜索引擎市场份额分布情况,竞争非常激烈。
XX搜索引擎虽然以61.18%的绝对优势占居第一,但是其市场份额逐渐下降的趋势足以引起XX的担忧。
而360搜索凭借着近几个月来的一系列产品创新与发展,市场份额正在稳步增长,已然成了XX的心腹大患。
搜狗靠着腾讯的战略投资,市场份额得到提升。
而谷歌、搜搜、雅虎等搜索引擎早已风云不在,本就微弱的市场份额正被XX、360搜索慢慢蚕食。
预计未来的搜索市场,XX、360搜索这两大搜索巨头竞争会进一步加剧。
4.解释垂直搜索的概念,列出若干垂直类型搜索引擎;
1)概念:
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
--引自XX百科
2)国内主流的垂直搜索引擎:
--引自网易博客
<1>工作搜索引擎:
http:
//J职友集
职通车
搜职网分类信息搜索引擎优越搜索
国通网
酷讯商业搜索引擎
商搜
E商宝论坛社区搜索引擎
奇虎
大旗
<2>购物搜索引擎:
搜比购
GoByGo网上购物
聪明点比较购物搜索
<3>餐饮搜索:
咕嘟妈咪
<4>公交线路搜索:
坐车网
<5>Blog搜索引擎:
Blog中文搜索
Feedss驾校一点通
搜房子
3)国外主流垂直搜索引擎:
引自网易博客
<1>Aardvark
成立于2007年,专注于社会搜索(socialsearch),擅长解决类似于“帕罗奥多(PaloAlto)最好的牙医是谁?
”的问题。
当你通过即时信息或电子邮件向Aardvark询问这类问题时,Aardvark将在你所在地区找到一个人回答你的问题,该搜索引擎网址为。
<2>ChaCha
成立于2008年1月,专注于移动搜索(mobilesearch),通过文本信息和即时信息向用户提供免费服务,该搜索引擎网址为。
<3>Cuil
Cuil读音为“酷”,与谷歌最为相近,该公司仅用相关性来排列搜索结果,而不用网页等级算法,该搜索引擎网址为。
<4>Gist
专注于电子邮件收件箱搜索(e-mailinboxsearch),Gist可以监控你的电子邮件收件箱并获得来自或关于联系人的最新信息,是联系电子邮件提供商、社交网站和传统媒体的纽带,该搜索引擎网址为。
<5>Kosmix
成立于2005年,专注于应用搜索(applicationsearch),收集来自1万多个来源的内容,从中提取相关内容,向用户提供分类搜索结果,该搜索引擎网址为。
<6>L
成立于2004年,最初只作为图像识别工具,2006年转为鞋、表和服装等商品的图像搜索引擎,该搜索引擎网址为。
<7>Powerset
成立于2005年,专注于自然语言搜索(naturallanguagesearch)。
Powerset使用自然语言程序、基于语义而不是关键词进行搜索,该垂直搜索网址为。
<8>Twitter搜索
专注于看法搜索(opinionsearch),Twitter搜索从每分钟数以千计的实时信息中得出集体智慧,该垂直搜索网址为。
<9>WolframAlpha
专注于计算搜索(computationalsearch),计划于今年5月推出,WolframAlpha能够为用户计算出答案,该项目的资金来自于软件公司WolframResearch,网址为。
<10>Zillow
成立于2006年,专注于房地产搜索(realestatesearch),用户可以用Zillow搜索当地房地产市场信息,该垂直搜索网址为。
5.分析几个著名搜索引擎的搜索机制及其特点(baidu,goolge,sogou,soso,有道等);
1)搜索引擎的搜索机制,主要是分为以下四个环节:
<1>抓取。
这是基点,起到铺垫石的效果。
每天互联网中,会填充很多的信息,标题是五花八门式的。
搜索引擎的蜘蛛,会主动的去寻索新的、有价值性的信息。
将这样的信息捕捉到后,再进行有效的反馈;
<2>过滤。
是过滤处,筛选出有质量的信息。
这点是尤为性重要的,很多虚假的信息,通过这点能够有效的检索出,并进行删除。
当然,对于这点不排除有人为性的因素。
经过逐层的数据筛选之后,留下好的文章;
<3>进入到数据库。
库,就类似于人的大脑,起到指挥的作用。
主要的是来处理信息的分类归放,接受用户的检索信息的触发。
这个系统似的,管理着所有的数据。
若其出现异常的错误,是知名性的伤害;
<4>输出数据。
这主要是针对于用户检索信息时的环节,等同于反馈。
数据库合理的处理了用户的指令,将相应的信息,有效的通过输出端口,呈现到用户的面前,是中尾性的工作;
2)XX
搜索机制:
XX搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。
特点:
<1>基于字词结合的信息处理方式。
巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。
<2>支持主流的中文编码标准。
包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。
<3>智能相关度算法。
采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。
<4>检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
<5>XX搜索支持二次检索(又称渐进检索或逼进检索)。
可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。
利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。
<6>相关检索词智能推荐技术。
在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。
<7>运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。
XX搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)
<8>可以提供一周、二周、四周等多种服务方式。
可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
<9>检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。
支持用户选择时间范围,提高用户检索效率。
<10>智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。
<11>分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
<12>高可配置性使得搜索服务能够满足不同用户的需求。
<13>先进的网页动态摘要显示技术。
<14>独有XX快照.
<15>支持多种高级检索语法,使用户查询效率更高、结果更准。
已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:
”、“link:
”,还将继续增加其它高效的搜索语法。
3)Google
特点:
<1>变化较快、机动性较高
Google漫游器会定期抓取Web,将大量网页列入索引。
稍后完成的下一次抓取会注意到新网站、对现有网站的更改以及失效的链接,并对内容的变化在搜索结果中加以调整。
<2>敏感度较高,反应较快
Google对新建的网站具有较高的查知性,当然,新建的网站必须要有外部链接或者向Google递交过网站登录信息。
否则,即使Google的搜索技术再厉害,一个只有站长一个人看得见的网站是很难被Google发现的。
Google收录新建网站的两个途径是:
第一,通过网站的外部链接;第二,通过向Google提交网站登录数据。
一般而言,后者的收录速度相对较快,而前者则要视Google对新建网站的外部链接网站的收录频率而定。
如果Google对外部链接网站的评价高、收录频率高那么其发现新站的速度也相应地高,新建网站被收录的日期就会被提前。
<3>较重视链接的文字描述
Google会将链接的文字描述作为关键词加以索引,所以我们在作友情链接时千万要仔细设计链接的文字描述,使之既符合网站的定位又不失相关性,以此博得Google的信任。
<4>相关性和重要性并重
Google使用PageRank技术检查整个网络链接结构,并确定哪些网页重要性最高。
然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。
在综合考虑整体重要性以及与特定查询的相关性之后,Google才将最相关最可靠的搜索结果放在首位。
这也是Google收录网页的特点之一。
<5>较重视网页Meta标记的描述
大多数时候Google显示搜索结果时会把网页的Description显示出来,并占有较重的篇幅。
4)搜搜
特点:
搜搜在使用自家搜索引擎之前,一直是使用的谷歌的核心,因此,搜搜搜索引擎在很多方面表现得都与谷歌类似。
比如蜘蛛的活跃性,排名的变化等等。
5)搜狗
特点:
搜狗:
这个,后起之秀。
不过,流量也没能带来多少,不过,站长不能忽视这个搜索引擎,因为我们需要他的功能。
那就是Sogou Rank,这个功能,其实就是类似于谷歌的PR。
谷歌的PR,是10个值,而Sogou Rank是100个值,官方的说法,是每周更新一次。
但实际上,并不是这么回事(Sogou Rank的取值,是反链量的权重和数量。
但是,有的站,群发作弊,造成上万的反链,Sogou Rank值也会很高)。
这个搜索引擎,另一个有用的,就是反链。
6)有道
特点:
有道的技术是比较好的,比如网页预览技术。
界面上也是比较好看的。
不过还是有一些问题,这个问题就是,即便技术不错,但是有道在搜索引擎上的投入相比搜搜或者搜狗,还是不足的。
有道收录网站原则一个快字。
你的网站改版,基本上在一个星期能全部给你更新。
在其它搜索引擎是做不到的。
有道对网站的一举一动比其它搜索引擎都要严格,基本上能在三天内给你作出你更新的反映。
虽然说有道不能给我们带来更多的流量,但是它的速度快啊,让我们能更早的去发现网站的问题,以便及时的作出弥补。
有道可以说是监查网站的一个最佳选择.
7)必应
特点:
Bing搜索的最大特点在于,与传统搜索引擎只是单独列出一个搜索列表不同,微软还会对返回的结果加以分类。
例如,当用户搜索某位歌星的名字时,搜索结果的主要部分会显示传统的列表,左侧的导航栏则会显示图片、歌曲、歌词、专辑和视频等几个类别。
微软搜索bing登陆ppc机当用户输入某一产品名称时,侧边栏则会显示评价、使用手册、价格和维修等类别。
而如果输入的是某一城市名称,则会显示地图、当地商业指南、旅游路线以及交通信息等类别。
另外,侧边栏还会显示一组相关的搜索关键词。
bing网站是收录最慢的一个搜索引擎,都是通过去年它对算法进行了大的调正,收录是最慢的一般都是要一个月进行收录,同时收录的内容也是比较少。
但是他对英语网站的收录量和速度长短常快。
8)雅虎
特点:
使用Yahoo的寻人搜索引擎,提供的资料可繁可简,即使只有姓名的一部分,也能让您有所发现。
当然,如果有更详细的信息,自然可以更准确地找到目标。
在高级搜索中,您可以通过被寻找人所在地区、城市、学历等详细资料去搜索,查找目标的电话或电子邮件。
由于Yahoo有各个语言版本的网站,所以支持非英文关键字,但是用中文搜索时效果一般。
由于很多华人在注册时,没注意到国外的语言习惯,把姓和名字的位置颠倒了,所以当没有令您满意的结果时,您可以尝试把姓和名字交换位置,说不定就会柳暗花明。
6.结合自身情况,分析国内用户的搜索引擎选择偏好以及使用习惯。
通过对自身和周边同学对使用搜索引擎的使用情况分析,可以得出以下的几个特点:
(1)从搜索的内容来讲,是广泛的,涉及到了生活,学习,新闻,科技,图片等的各个方面,但就各个方面的比重的不严谨观察可得知:
其中生活、新闻、工作、娱乐类的搜索以垂直搜索引擎为主,如购物的淘宝,找工作的58同城,影视的优酷等;而对于学术学习类的则以全文搜索引擎为主要的搜索方式。
这可能跟现今网站类别比重有很大的关系。
(2)从搜索引擎的选择上来说,由于大家对360浏览器的习惯和偏好,又因为360浏览器默认的搜索引擎是360搜索,因此我们平常用的比较多的要数360搜索引擎了,但由于对以往搜索的习惯,如果需要搜索大量的信息,我们一般还是会使用XX,这也许和以往XX一家独大,从小就只能接触XX有莫大的关系。
现今有很多的新兴网站投入到搜索行业丰富了搜索市场,可以说现今的中小学年龄段的人有着丰富的选择和取舍,但对于我们或更早年代的人们来说,XX还是首选
(3)在对搜索引擎的使用过程中,因为没有经历过系统的学习和了解,社会上对怎么使用搜索引擎也没有太多的资料可以参考,我们多是使用语句来代替国外所说的关键字,而且国外网民为了提高搜索的准确性而使用