信息检索考核报告课件.docx
《信息检索考核报告课件.docx》由会员分享,可在线阅读,更多相关《信息检索考核报告课件.docx(10页珍藏版)》请在冰豆网上搜索。
信息检索考核报告课件
《信息检索技术》课程
考核报告
专业:
电子信息科学与技术
班级:
2012级1班
姓名:
赵德勤
学号:
1220040527
检索课题:
关于大气污染问题的研究
2015年11月22日
1、检索背景及研究现状
1、检索背景
我国大气污染程度越发严重,而由于我国目前环境治理中,仅水污染与固体废弃物治理的市场化程度较高,其余如大气污染治理由于易受天气影响并且会在不同地域间转移,因此一直以来,政府对大气污染治理的积极性较低。
北京、河北、山东和黑龙江等地也将长期被雾霭笼罩。
特别是北方供暖季开始后,北方开始出现大面积空气污染。
辽宁沈阳市于11月1日起正式开始供暖,11月8日,沈阳遭遇六级严重雾霾污染,全市PM2.5均值一度达到1155(微克/立方米),局部地区一度突破1400。
从11月10日开始,北京连续五天经历空气污染过程,12日,北京市空气质量再度达到中度至重度污染水平,市区能见度低。
随着我国多地遭遇持续雾霾天气,大气污染防治形势变得异常严峻。
2、研究现状
我国早在几年前,对大气污染防治工作已经陆续展开,自2002年以来,我国出台了各项政策,加大了节能减排的力度,如2002年1月30日发布的《燃煤二氧化硫排放污染防治技术政策》,政策从能源合理利用、煤炭生产加工和供应、煤炭燃烧、烟气脱硫、二次污染防治等方面进行了详细的规定。
再从近年来看,2012年8月,我国发布了《节能减排"十二五"规划》,政策中对电力与非电力行业脱硫脱硝效率提出了具体的发展目标。
以上各项节能减排政策对我国大气污染防治起到了一定的推动作用。
环保部在《环境空气细颗粒物污染防治技术政策(试行)》(征求意见稿)中对大气污染排放与治理提出了严格的时间节点。
到2015年,建立三大机制:
排放监控机制、考核机制、政府和企业目标责任制;基本建立重要体系:
重点区域细颗粒物污染防治体系。
到2020年,在各行政区域建立三大体系:
大气污染监测体系、评估体系、监督体系,从而确保细颗粒物排放总量的下降。
环保部在2013年2月19日召开的环境保护部常务会议明确给出重点控制区进行大气污染防治的重要时点。
自2013年3月1日起,在作为重点控制区的47个地级及以上城市中,新受理的火电、钢铁环评项目即将受到大气污染物特别排放限值的限制。
自2014年7月1日起,在47个城市的主城区范围内,现有项目中的火电行业燃煤机组必须执行烟尘特别排放限值。
自2015年1月1日起,钢铁行业烧结(球团)设备机头必须执行颗粒物特别排放限值。
2、检索策略介绍
检索策略,就是在分析检索提问的基础上,确定检索词、检索式、检索工具和查找步骤。
检索词是能概括要检索内容的相关词汇,是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元,检索词选择洽当与否,直接影响检索效果。
检索式,即检索表达式,是检索策略的具体体现之一。
检索式一般由检索词和各种逻辑运算符组成。
具体来说,它是用检索系统规定的各种运算符将检索词之间的逻辑关系、位置关系等连接起来,构成的计算机可以识别和执行的检索命令式。
中文检索工具包括知网、万方、维普。
中国知网(CNKI),即中国知识基础设施工程,是以实现全社会知识信息资源共享为目标的国家信息化重点工程。
知网收录了7000多种期刊、1000多种报纸,还有大量的博士、硕士论文,以及会议论文、图书,还有国内外1100多个专业数据库,是全球信息量最大、最具价值的中文网站。
万方数据由万方数据股份有限公司研究开发,是涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库。
维普资讯网由重庆维普资讯公司制作并提供服务,是全球著名的中文专业信息服务网站,以及中国最大的综合性文献服务网站。
1、课题分析
本课题要检索的是问题的处理方法,除此之外,没有别的要求。
在CNKI中,对于“大气污染”提供了若干相似词,如“污染治理”、“大气污染防治”、“大气污染控制”、“大气污染治理方法”、“大气污染治理措施”等,见图1所示。
为了提高查全率,在这些检索词中,对检索问题进行分析,选择与本课题最贴切的一个或多个词进行检索,因此得出关键检索词:
大气污染治理、大气污染防治、大气污染控制。
图1CNKI相关搜索
2、选择检索工具
选择中国知网、万方数据知识服务平台作为本课题的检索工具。
3、构建检索式
“大气污染治理”、“大气污染防治”和“大气污染控制”三个检索词存在一个即可,故检索式为:
大气污染治理+大气污染防治+大气污染控制。
3、检索的具体步骤
1、知网检索步骤
(1)因为检索命题没有指明文献类型,所以可以选择跨库高级检索模式。
选择高级检索,内容检索条件可以设定为:
大气污染治理、大气污染防治、大气污染控制、大气污染、治理、防治、控制等。
(2)“跨库选择”,选定期刊、特色期刊、博士、硕士、国内会议论文、国际会议论文、学术辑刊、成果8种数据库。
(3)选择检索项为“全文”。
(4)选择检索词:
大气污染治理、大气污染防治、大气污染控制。
设定三者为“或含”关系。
(5)时间范围控制:
2015到2015或2015-01-01到2015-12-31。
(6)命中文献6103篇,如图2所示。
图2CNKI跨库高级检索
2、万方检索步骤
(1)选择“跨库检索”,进入高级检索模式。
(2)“选择文献类型”,选定期刊论文、学位论文、会议论文、学者、专家5个数据库。
(3)选择检索项为“全部”。
(4)选择检索词:
大气污染治理、大气污染防治、大气污染控制。
设定三者为“或”关系,命中文献8133条,检索结果如图3所示。
图3万方跨库高级检索
(5)匹配选择为精确,时间控制在2015年到2015年。
命中文献784条,结果如图4所示。
图4
3、检索结果分析
以上检索命中文献数量偏多,不宜逐个阅读,若要得到更合适的文献,可以通过增加检索控制条件进行二次检索,还可以通过分组浏览的方式,有重点地查阅命中文献。
4、检索效果的评价
检索效果是指用户利用检索系统(或工具)开展检索服务时,对检出文献的满意程度或检索系统检索的有效程度,它反映了检索系统的能力。
评价系统的检索效果,目的是为了准确地掌握系统的各种性能和水平,找出影响检索效果的各种因素,以便有的放矢,改进系统的性能,提高系统的服务质量,保持并加强系统在市场上的竞争力。
判断一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。
因此,对信息检索系统的效果评价也应该从三个方面进行。
质量标准主要有查全率、查准率、漏检率、误检率、检索速度、新颖率和有效率等。
费用标准即检索费用,是指用户为检索课题所投入的费用。
时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。
其中,查全率和查准率是衡量信息检索效果的主要指标。
以知网结果为例,本课题时间范围为2015年,因此把2015年的检索结果作为相关文献,2014年的数据为非相关文献。
如果:
a为检出的相关文献数,b为检出的非相关文献数,c为未检出的相关文献数。
那么,如图2所示:
a=6083,b=20,如图5、图6、图7所示:
c=868。
图5
图6
图7
1、查全率
查全率(RecallFactor)是指检出的相关文献数与检索系统中相关文献的总数的比率,是衡量信息检索系统检索出相关文献能力的尺度。
可用下式表示:
查全率(R)=
×100%=
×100%=88%
2、查准率
查准率(PertinencyFactor)是指检出的相关文献数与检出的文献总数的比率,是衡量信息检索系统检出文献准确度的尺度。
可用下式表示:
查准率(P)=
×100%=
×100%=99%
3、漏检率
漏检率(OmissionFactor)是指未检出的相关文献数与检索系统中的相关文献总数的比率。
漏检率与查全率是一对互逆的检索指标,查全率高,漏检率必然低。
漏检率(O)=
×100%
=
×100%=1-查全率=12%
4、误检率
误检率(FalloutFactor)是指检索出的不相关文献数与检索出的文献总数的百分比。
误检率与查准率是一对互逆的检索指标,查准率高,误检率必然低。
误检率(F)=
×100%=
×100%=1-误检率=1%
从检索效果的评价指标可以看到,我们对所需信息的满足程度是相对的,几个评价指标都同时达到百分之百是不可能的。
最理想的检索效果漏检率和误检率均为0,即查全率和查准率均为100%,但实际上这是不可能的。
实验表明:
查全率和查准率之间存在着一种互逆关系,即提高查全率会降低查准率,反之亦然。
一般情况下,查全率的计算很困难,因为网上信息是瞬息万变的,检索系统中的相关文献总数很难估算;真实查准率也很难计算,因为对于命中结果数量太大的检索课题来说,相关性判断工作量极大,很难操作。
在现代科技信息检索系统中,查全率为60%~70%,查准率为40%~50%。