搜索引擎评价研究方法综述.docx
《搜索引擎评价研究方法综述.docx》由会员分享,可在线阅读,更多相关《搜索引擎评价研究方法综述.docx(8页珍藏版)》请在冰豆网上搜索。
搜索引擎评价研究方法综述
搜索引擎评价研究方法综述
费巍
2012-9-2919:
50:
56 来源:
《现代情报》(长春)2010年12期
【英文标题】OverviewoftheMethodsofEvaluationonSearchEngine
【作者简介】费巍(1981-),男,博士,研究方向:
信息组织和信息检索,发表论文10多篇。
苏州图书馆,苏州215002
【内容提要】通过ISIWebofScience和中国期刊网查找有关搜索引擎评价研究的文章,本文对搜索引擎评价研究的相关文献进行了梳理,并对研究方法进行了总结。
搜索引擎评价研究方法主要有实验法、调查法、观察法、数据分析法、综述和评论等。
对比国内外相关研究,国内搜索引擎评价研究数据支撑较为缺乏,科学分析和论证也明显不足。
本文旨在提升国内搜索引擎评价研究的科学性。
ThepaperreviewedthedocumentsrelatedtotheevaluationofsearchenginesbasedontheISIWebofScienceandCNKI.Themethodsofthesestudieswereconcluded,whichwereexperimentation,survey,observation,dataanalysis,andreview.Accordingtothecomparisonbetweendomesticandoverseascorrelationalresearch,theresearchontheevaluationofsearchengineswaslackofdata,aswellasscientificanalysisandverification.TheaimofthispaperwastoimprovethescientificityoftheevaluationofsearchengineinChina.
【关键词】搜索引擎/评价/研究方法/综述Searchengines/Evaluation/Researchmethod/Overview
搜索引擎评价研究涉及很多学科,如计算机科学、图书情报科学、统计学、认知科学、电子通讯、机械工程、自动化和控制系统等。
ISIWebofScience数据中搜索引擎评价研究涉及的学科及其分支学科有236个之多(检索时间:
2010年10月9日),可见搜索引擎评价研究具有很强的跨学科性质,因而搜索引擎评价的研究方法也不免具有跨学科的特点。
Louise提到搜索引擎评价研究方法之一的自然观察法(NaturalisticStudies)[1]被心理学家、行为学家和社会学家采用,用来观察其研究对象的自然习惯。
Orland总结的纵向研究法(LongitudinalStudies)[2],被普遍应用于医学观察,常用于观察某一疾病出现的征兆和症状。
还有一些其他的方法被应用于各个领域的研究和实践之中,这些研究方法可以很好地与搜索引擎评价研究相结合,不断充实该领域的研究,也逐步加强搜索引擎评价研究的严谨性和科学性。
1搜索引擎评价研究方法
Louise归纳出搜索引擎评价的研究方法有评论法(Review)、试验法(Experiments)、自然观察法(NaturalisticStudies)、调查法(Survey)等。
Orland综合了可视化检索系统的评价方法:
观察法(InspectionMethods)、实验室研究法(LaboratoryStudies)、现场实验法(FieldTrials)、纵向研究法(LongitudinalStudies)以及系统和日志分析法(InstrumentationandLogAnalysis)等。
国内的研究人员也对搜索引擎评价方法进行了归纳总结,如比较分析法和测试实验法[3],如以描述为主的搜索引擎评价方式,以查询结果的命中个数作为评价标准等[4]。
综合国内外关于搜索引擎评价研究,笔者将搜索引擎评价研究方法分为以下几种。
1.1实验方法
实验方法越来越多地被应用于搜索引擎评价的研究,研究人员根据其研究课题,力图探明现象与结果之间的关系。
在实验中,研究者首先要提出有关研究目的的问题或假设,并定义变量与自变量,从实验中获取相关数据,通过数据分析来给出问题的答案或论证假设是否成立。
实验方法有较强的可控性和操作性,其可控性体现为对实验中变量和自变量的定义以及数据采集的标准和数据量的大小等方面。
操作性则体现为研究人员按照科学的实验方法,结合研究课题本身的需求,对实验步骤进行科学合理的设计,规范数据采集的标准并依此标准收集和采集数据,并应用科学的工具对采集的数据进行分析。
Jansen等在搜索引擎检索电子商务信息的性能评价研究中提出了3个假设,分别定义了变量和自变量,通过检索实例收集了相关数据,并应用方差分析法、Tukey'sHSD检验以及回归分析法等分析了实验数据[5]。
通过实验研究表明,相较于全文检索,基于概念的检索能显著提升检准率,越多的语义因素加入检索式中,检准率就越高[6]。
搜索引擎评价研究越来越重视实验方法,也越来越多地采取实验的研究方法。
如研究用户个性对信息检索系统心理模型的影响的评价研究[7],PageRank检索学术信息能力的评价研究[8],语言及检索任务对相关性评价的影响研究[9],网页是否含有元数据对网页被搜索引擎检索的影响研究[10],用户在强化主题词检索环境下检索式扩张行为的研究等[11]。
实验方法极大地促进了搜索引擎评价研究的发展,研究人员针对搜索引擎的各个方面展开评价研究,并取得了一系列的成果。
实验方法具有较强的针对性、可控性和操作性,不过这也从某种程度上说明实验方法具有一定的主观性,在实验设计、标准制定、数据采集等步骤中难免融入了研究人员的主观因素,这或多或少会对搜索引擎评价的客观性造成影响。
因此,用实验的方法进行搜索引擎评价研究需要尽量减少实验过程中的主观性因素,这就对实验设计、标准制定以及数据采集等各方面提出了更高的要求。
1.2调查方法
在搜索引擎的评价研究中,研究人员会针对利用搜索引擎的行为用户进行调研,包括用户的背景,如性别、职业、学历等,用户选择搜索引擎的原因,如用户惯性、搜索引擎性能、搜索引擎口碑等,用户利用搜索引擎的行为,如检索词的选择、检索式的构造、检索时间的长短、对检索结果的处理等。
这些信息对搜索引擎的评价研究具有重要的意义,其数据直接反映了用户利用搜索引擎的各方面信息,很具参考价值,对搜索引擎的设计和优化研究尤为重要。
调查方法首先要设计切实可行的调查问卷,保证问卷的逻辑性,必须围绕研究问题进行有针对性的设计。
Amanda等对Excite搜索引擎的用户特征与检索行为之间的关系进行了研究,其数据收集主要包括用户背景、检索主题、检索词和检索式、连续检索行为等。
研究结果显示大多数用户的检索式比较简短,很多用户的检索行为具有持续性,并依次递进,但是搜索引擎在其检索策略的透明度方面还显得不够[12]。
Kruschwitz和Al-Bakour研究了用户对搜索引擎检索帮助系统的要求,并对基于任务的检索结果进行了评价。
在研究中,作者根据TREC-9交互轨迹(InteractTrack)的调查问卷设计了针对其研究目的的调查问卷,包括输入(Entry)、后检索(Postsearch)、后系统(Postsystem)和输出(Exit)4个分问卷。
结合问卷数据和检索任务的数据分析,研究结果显示,相比于标准的搜索引擎只提供排序的检索结果,用户更倾向于利用提供检索式修正的搜索引擎,即使在某些方面这些搜索引擎并没有那些标准的搜索引擎做得更好[13]。
由于调查方法能客观反映用户利用搜索引擎的行为习惯和特点,从数据中可以分析获知当前搜索引擎的流行度、检索性能的满意度、用户的检索行为等,所以一直深受研究人员的青睐。
如针对用户利用搜索引擎经验的调查,结果显示检索经验对用户选择搜索引擎具有重要影响,而且关键词搜索引擎比目录式搜索引擎更受欢迎等[14]。
对全球搜索引擎利用情况的调查,发现搜索引擎的使用具有很强的政治、文化和地域色彩。
而且,相比于其他因素,搜索引擎的结果、检准率、检全率和可靠性对用户而言更为重要[15]。
还有对搜索引擎检索式翻译功能效果的调查研究[16],结果描述对相关性影响的研究[17],用户的品牌意识对其利用搜索引擎的影响等[18]。
通过以上研究实例不难看出,搜索引擎评价研究采用调查的方法多是从用户角度来分析搜索引擎的使用情况,从客观上展示了当前用户利用搜索引擎的情况,如不同性别、年龄、职业、学历的用户群使用搜索引擎的行为特征,搜索引擎的满意度,不同类型搜索引擎的用户群,搜索引擎功能的实际性能等。
在搜索引擎评价研究的过程中需要注意的是,用户的行为特征固然具有很大的参考价值,但不能过分倚重用户的经验。
因为用户的经验反映的是用户利用搜索引擎的习惯,并不能完全说明搜索引擎发展的趋势。
一些研究表明,用户利用搜索引擎的行为和检索策略还略显简单,有关机构和单位需要对用户利用搜索引擎进行必要的培训和采取积极的引导[19-21]。
1.3数据分析法
数据分析是指收集、处理和转化数据的一个过程,以突出效用信息、提出结论并支持决策。
数据分析具有多方面、多途径和多技术的特点,在商业、自然科学和社会科学等领域有不同的术语表达方式。
如数据挖掘就是典型的数据分析方法,通过建模和知识发掘来发现规律和实现预测,而不仅仅对信息和数据进行描述。
相较于实验方法和调查方法,数据分析方法的数据来源要略显快捷,不用设计实验步骤和调查问卷,而是从公开的渠道获取有关搜索引擎的数据和信息进行分析研究。
其主要数据和信息来源于有关搜索引擎研究的信息机构、有搜索引擎的网站以及专业搜索引擎网站,InternetUsageWorldStats()、Pew(http:
//pewinternet.org/)、中国互联网络中心()、iResearch公司()、SearchEngineWatch()等机构会不定期公布有关搜索引擎的统计数据,如中国互联网络中心发布的《2008年中国搜索引擎市场广告主调查报告》以及《2008年中国搜索引擎用户行为研究报告》等。
一些具有搜索引擎功能的热门网站,其搜索数据也是进行搜索引擎评价的研究人员较为关注的,如BBC网站的搜索日志[22],美国犹他州政府网站的检索日志等[23]。
不少专业搜索引擎网站也会不定期公布其日志,如Excite、Altavista、Alltheweb、搜狗、天网等。
搜索引擎研究机构公布的数据多为描述性的信息,对其数据进行深度分析的意义不大。
数据分析方法在搜索引擎评价研究中的应用,主要还是对搜索日志中海量信息的析取和提炼。
如MartinWhittle等对Excitel天中的1025910个检索式进行分析研究,并从日志的研究分析中获知用户的检索习惯[24]。
BernardJ.Jansen等分析了元搜索引擎D的检索日志,对2005年5月6日534507名用户的2465145次检索行为进行了研究,从中分析了用户的检索式长短和检索时间的长短等[25]。
DavidNicholas等对Blackwell网站500000条用户检索记录、OhioLlNK的2250000条用户记录以及OxfordScholarshipOnline(OSO)的4240条用户记录进行了分析,对在数字环境下学生查询信息的行为进行了研究,比较分析了学生群体与其他学术团体查询信息的行为特征[26]。
数据分析法主要应用在对大数据和大信息量的用户检索日志的解析,从中发掘用户利用搜索引擎的行为习惯等有价值信息,据此对搜索引擎的设计、改进和完善提出积极的策略,并对用户利用搜索引擎的行为缺陷提出修补建议。
研究人员或编写程序对数据进行分析,或利用科学的统计软件(如SPSS、SAS等)从数据中发掘规律性的信息。
与实验方法和调查法相比,数据分析更为客观。
各检索系统和搜索引擎网站的检索日志直接来源于用户真实的信息检索行为,并且这些数据以海量呈现,所以通过数据分析得出的结论能较为客观地反映出用户的行为特征和搜索引擎的性能。
1.4观察法
观察法是指研究人员观察用户利用搜索引擎这一现象,借助一定的技术手段记录用户检索行为和搜索引擎工作状况。
在观察的过程中,研究人员只记录相关的数据和信息,并不进行人工干预。
研究人员应用观察法进行搜索引擎评价研究时会根据其预设的问题,挑选合适的观察对象,分配一定的检索任务。
在观察对象利用搜索引擎完成检索任务的过程中,研究人员直接观察或者用电脑屏幕视频软件记录观察对象的检索行为。
通过观察,研究人员能直观地了解观察对象的行为特征,如检索式的构造、检索策略的选择、点击结果数量、查询页数、检索过程中不同阶段的检索效率等。
一些研究人员通过观察研究性别与检索行为之间的关系,如Large等通过观察学生的检索行为发现,男生和女生在使用搜索引擎时具有明显的区别,男生使用较少的检索词,浏览单个结果页面的时间要短,单位时间内点击的网页数量要多,男生的检索行为表现得更为积极[27]。
Roy和Chi根据检索结果的反馈,发现男生倾向于选择与女生不同的检索模式,但检索模式对检索结果的选择没有决定性的影响[28]。
LoriLorigo等观察发现,性别对检索模式和检索结果的选择具有明显的影响,女性会查阅更多的结果文摘[29]。
还有对特定人群的检索行为的研究,如IanRowlands等对所谓Google一代(GoogleGeneration,1993以后出生的人群)的信息获取行为进行研究,结果显示现代通讯技术的作用被夸大了,这些技术并不能有效地提升信息检索、获取和评价的能力[30]。
Andrey等对儿童使用搜索引擎行为的观察研究,研究人员给15名儿童分配了检索任务,观察其检索行为,结果显示检索经历、指导、适应虚拟环境能力等对其检索效率具有明显的影响[31]。
还有其他的一些搜索引擎评价研究通过观察法来实施[32-34]。
与实验方法相比,观察法获取的数据量可能不大,但是实验方法只能获取用户的检索判断及其产生的检索结果,不能通过检索过程获知用户如何做出检索判断。
观察法不仅可以分析检索结果,更为重要的是可以通过观察和记录对象的检索行为,对搜索引擎的检索性能进行定性研究。
但是使用观察法的不足之处表现为搜索引擎的选取、观察对象的选取和检索任务的分配都受研究人员的主观想法的影响。
同时,研究人员在观察记录的时候,虽然记录的是客观现象,但在记录的过程中难免会有主观判断和选择。
上述这些因素都会影响到评价研究的客观性。
因此如何尽量客观地实施实验和记录观察到的现象,减少人为因素的干扰,是在应用观察法时需要特别注意的。
1.5综述和评论
综述和评论也是搜索引擎评价研究中常用的方法,专门的综述和评论,其目的在于理清某一阶段搜索引擎评价研究某一方面的状况,揭示研究的不足并总结出发展的趋势。
如Konstantina对网络信息检索行为的研究进行了总结,认为要从用户利用搜索引擎的各个方面进行整体研究,要充分考虑用户的经历、信息需求、个性、社会以及文化背景等[35]。
Manoj和Elizabeth概述了各种元搜索引擎的功能、工作机制、数量增长、演进和普及程度等方面的研究现[36]。
秦喜艳、陆伟等对搜索引擎检索结果相关性的研究成果进行了比较分析,包括相关性的判断、检索系统的评价指标、评价方法等[37]。
还有对外国搜索引擎检索结果研究的综述[38],元搜索引擎研究综述[39],元搜索引擎排序技术研究综述等[40]。
与专题研究相结合的综述和评价研究,其目的与专门的综述和评价研究相异,一方面在于为研究人员的专题研究提供参考资料,另一方面也阐述了进行研究的必要性和可行性。
此类综述和评论常见于期刊和会议论文中的相关章节,如文献评述(literaturereview)、相关研究(relatedstudies/research)、相关论著(relatedwork)、前人研究(previousresearch)等。
综述和评论是搜索引擎评价研究必不可少的研究环节。
研究人员只有认识和熟知了研究现状,包括科学的研究方法、已有的研究成果等,并充分认识到研究的不足之处后,才能进一步开展相关研究。
2结论
搜索引擎研究的评价方法并非单独存在,而是被综合应用。
综述是研究的基础,实验、调查和观察等方法开展研究的保障,科学的数据分析方法和谨慎的论证则是提高研究质量的保证。
比照中外研究,国内搜索引擎评价研究的方法较为单一,多为描述性评价,缺乏数据的支撑和科学的分析论证。
因此,本文的目的也旨在通过对研究方法的总结和归纳来促进我国搜索引擎评价研究的科学化发展。
【参考文献】
[1]Su,L.T.AComprehensiveandSystematicModelofUserEvaluationofWebSearchEngines:
I.TheoryandBackground[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2008,(13):
1175-1192.
[2]OrlandHoeber.UserEvaluationMethodsforVisualWebSearchInterfaces.Proceedingsofthe200913thInternationalConferenceInformationVisualisation,2009:
139-145.
[3]陈海龙.搜索引擎的评价标准及其方法研究[J].情报杂志,2001,(9):
50-51.
[4]赵华.一种搜索引擎性能的简便评价方法和案例[J].图书馆理论与实践,2005,(6):
114-115.
[5]BernardJ.Jansen,PauloR.Molina.TheEffectivenessofWebSearchEnginesforRetrievingRelevantEcommercelinks[J].InformationProcessingandManagement,2006,(4):
1075-1098.
[6]MoskovitchR,MartinsSB,BehiriE,WeissA,ShaharY.AComparativeEvaluationofFull-text,Concept-based,andContext-sensitiveSearch[J].JournaloftheAmericanMedicalInformaticsAssociation,2007,
(2):
164-174.
[7]Zhang,X.M,Chignell,M.AssessmentoftheEffectsofUserCharacteristicsonMentalModelsofInformationRetrievalSystems[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2001,(6):
445-459.
[8]MikeThelwall.CanGoogle'sPageRankbeUsedtoFindthemostImportantAcademicWebPages?
[J].JournalofDocumentation,2003,
(2):
205-217.
[9]PrebenHanse,JussiKarlgren.EffectsofForeignLanguageandTaskScenarioonRelevanceAssessment[J].JournalofDocumentation,200,(5):
623-639.
[10]Zhang,J.,Dimitroff,A.TheImpactofMetadataImplementationonWebpageVisibilityinSearchEngineResults(PartⅡ)[J].InformationProcessingandManagement,2005,(3):
691-715.
[11]Shift,A.,Rede,Crawfont.QueryExpansionBehaviorwithinaThesaurus-EnhancedSearchEnvironment:
AUser-CenteredEvaluation[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2006,(4):
462-478.
[12]Spink,A.,Bateman,J.andJansen,B.J.SearchingtheWeb:
SurveyofExciteUsers[J].InternetResearch:
ElectronicNetworkingApplicationsandPolicy,1999,
(2):
117-128.
[13]Kruschwitz,U.,Al-Bakour,H.UsersWantMoreSophisticatedSearchAssistants:
ResultsofaTask-BasedEvaluation[J].JournaloftheAmericanSocietyfortheInformationScienceandTechnology,2005,(13):
1377-1393.
[14]Liaw,S.,Huang,H.M.InformationRetrievalfromtheWorldWideWeb:
aUser-focusedApproachbasedonIndividualExperiencewithSearchEngines[J].ComputersinHumanBehavior,2006,(3):
501-517.
[15]Dudek,D.,Mastora,A.,Landoni,M.IsGoogletheanswer?
AStudyintoUsabilityofSearchEngines[J].LibraryReview,2006,(3):
224-233.
[16]Airio,E.WhoBenefitsfromCLIRinWebRetrieval?
[J].Journalo