数据采集自动化处理及数据挖掘.docx
《数据采集自动化处理及数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据采集自动化处理及数据挖掘.docx(27页珍藏版)》请在冰豆网上搜索。
数据采集自动化处理及数据挖掘
HUNANUNIVERSITY
毕业设计(论文)
设计(论文)题目:
数据采集自动化处理与数据挖掘
学生姓名:
武祥斌
学生学号:
326
专业班级:
软件工程2004级开发2班
指导老师:
李玮
系主任(院长):
林亚平
2008年5月26日
数据采集自动化处理与数据挖掘
摘要
目前,随着社会经济的发展,金融市场变的异常庞大和复杂,而基金作为一种金融衍生产品,在金融市场中占有一席之地。
随着基金产业的不断发展,各种类型的基金进入金融市场,作为一种理财产品,就是要为大众服务,帮助大家理财,然而当投资者面对大量的基金产品,不知应该怎样选择,所以我们的目标就是帮助普通的投资者和金融机构做出判断,指引他们选择适合自己的基金。
为了达到上面的目的,我们就需要大量的数据来做支撑,所以采集这些基金产品的数据是十分重要的,每天有来自世界各地的金融机构为我们提供这些数据,而我们的目的就是要采集这些数据,保持数据的完整性和正确性就是我们这套系统的主要功能。
我们采用程序的方式来实现这样的数据采集,并且不需要人工干预,本套系统采用了c#语言,以及三层结构本身的一些设计上特点做了较为详细的分析,以及大量采用了XML技术,三层架构的设计实现了一套功能相对完备并具有良好用户界面和可扩展性的系统。
在本中也对本文中的创新点进行阐述,同时展望了采集数据的自动化和数据挖掘的发展方向以及前景。
关键词:
基金,XML,数据挖掘
AutomationofDataCollectionandDataMining
ABSTRACT
Author:
Wuxiangbin
Tutor:
LiWei
Atpresent,asthesocialandeconomicdevelopment,financialmarketsbecomeunusuallylargeandcomplex,andthefundasafinancialderivativeproducts,financialmarketsinaplace.Withthecontinuousdevelopmentoftheindustry,varioustypesoffundsintothefinancialmarkets,financialproductsasameansforthepublicservices,financialmanagementhelppeople,butwheninvestorsfacealotoffundproducts,theydonotknowwhattochoose,Ourgoalistohelpordinaryinvestorsandfinancialinstitutionstomakeajudgement,theguidelinestheychoosetosuittheirownfunds.
Toachievetheaboveobjectives,weneedtodoalotofdatasupport,thecollectionofdataproductsofthesefundsisveryimportant,everydayfromallovertheworldfinancialinstitutionstoprovideuswiththesedata,andourgoalistoacquisitionofthesedata,andmaintaindataintegrityandaccuracyofthissystemisourmainfunction.
Weadoptaprogramapproachtoachievesuchadatacollection,anddoesnotrequiremanualintervention,thissetofsystemsusedc#language,andthethree-tierstructureitselftodosomedesignfeaturesamoredetailedanalysis,andalargenumberofXMLtechnology,Thethree-tiersystemdesignedtoachievearelativelycompletesetoffeaturesandhasagooduserinterfaceandscalabilityofthesystem.Inthispaperalsoonthepointoninnovation,andtheprospectofautomateddatacollectionanddataminingdirectionforthedevelopmentandprospects.
Keywords:
fund,XML,datamining.
1绪论
1.1本课题的简介
数据采集自动化处理其实就是一个系统,此系统主要任务就是自动化的采集数据。
对各种基金数据进行整理,分类,最后得到我们可以识别的标准格式的文件类型的数据文件。
图1.1系统整体数据流图
图1-1是整个系统的结构图,通过结构图可以很清楚的看到整个系统的大致的结构和所完成的一些功能有一个初步的了解。
1.2本课题的目的和意义
随着社会不断的进步和发展,人们的生活变的越来越充裕,手中的钱也越来越多,因此人们选择了理财产品,而不在是存在银行中,但是众多的金融衍生产品使投资者眼花缭乱。
共同基金这种新兴投资方式的出现,是市场经济特别是证券高度发达的必然结果。
面对各类证券数量的迅速扩张和投资风险的不断加大,个人投资者对共同基金的倚赖性逐渐增加。
这是因为:
共同基金将众多小额的资金汇集起来,积少成多,能从规模经济中获益。
随着我国经济商品化,货币化进程的发展和我国社会市场经济体制的确立,逐步发展和完善的证券市场将在其中发挥越来越重要的作用。
因此,可以预料,共同基金在我国产生和发展也将是为期不远的现实。
而我们的这个题目的目的就是在于帮助分析人员提供大量的基金数据,使分析人员不用关心数据,我们会提供给他们正确和完整的数据,而这些数据的来源就是世界上各个金融机构提供给我们的文件中包括的数据,我们采用自动化的数据采集,保证了快速和准确的把数据收集起来,然而再美国境内,美国的机构提供的都是格式统一的文件,这样我们很容易把数据转化为我们内部可以识别的格式文件,在美国之外,也就是欧洲和亚洲等各个机构提供的文件格式不同,比如excel,pdf,txt等各种各样的格式,我们需要应对各种的方式来处理文件,最终得到统一的格式,为金融分析人员提供第一手的数据。
这个系统的意义还在与能够减少人工的参与,大量减少人工的工作量,再最以前都是人工的读文件取数据并且录入数据,采用现在的信息化处理数据能够减少公司的开支并且得到最准确和及时的数据,这是金融分析最重要的一点。
2技术背景
2.1Web服务的概念
Definition:
AWebserviceisasoftwaresystemdesignedtosupportinteroperablemachine-to-machineinteractionoveranetwork.Ithasaninterfacedescribedinamachine-processableformat(specificallyWSDL).OthersystemsinteractwiththeWebserviceinamannerprescribedbyitsdescriptionusingSOAPmessages,typicallyconveyedusingHTTPwithanXMLserializationinconjunctionwithotherWeb-relatedstandards.
Web服务是一个软件系统,是被开发用来支持可同时操作的,跨越网络的机器对机器之间的交互。
它包含一个以机器可处理格式描述的接口(特指WSDL)。
其他系统同Web服务交互以一种本身的描述中规定的方式,使用SOAP消息,代表性在同Web相关的标准的联结中使用一个XML连续,利用HTTP传达(消息)。
WEB服务的优势
谈到.NET,.NET是微软为Web服务提供的一个平台。
微软做.NET的目的是,希望在PC和Internet之后,为用户提供更高层次的服务。
也就是说,PC上做的事,有了Internet,可以做到100倍,而Web服务来到后,也许能做10000倍。
Web服务最终的目的可分为用户、开发商和企业用户。
从用户看,Web服务将用户的需求分成几个部分,逐步完成。
比如说,买一束花在今天的互联网上也能做到。
但你需要去搜索卖花,搜索到的也许并不是你所最想要的;你还需要输入信用卡号和地址,而且所有的数据也不能重复使用。
而在Web服务中,你只需告诉计算机:
我要买束花就行了;因为你的很多数据已经存在Web服务中。
从开发者角度看,Web服务的目的是让人们开发的程序都能相互结合起来,比如说,卖花与付款两个服务模块,在开发时并没有任何协议,是独立开发的,但把它们放在一起,也能运行。
对于商业用户来说,不但可以提高效率,降低IT预算,软件可以重用,而且,能够做的事情更多。
.NET是一个很长的过程,最终目的是任何时候任何一个程序都可以与另一个程序兼容。
Web服务的优势就像滚雪球那样,滚到一定程度,效果就出来了。
足够多的Web服务出现后,成长的速度会非常快。
2.3XML
XML定义:
XML是可扩展标志语言(eXtensibleMarkupLanguage)的简称。
像HTML一样,XML是从所有标志语言的元语一标准通用标志语言SGML(StandardGeneralizedMarkupLanguage)那里派生出来的。
设计之初,XML的目标之一是取代HTML为新出现的复杂的Web应用提供标准的Internet语言。
然而,由于XML在可扩展性、可移植性和结构性等方面的突出优点,它的应用范围早己突破了HTML所达到的范围。
尽管严格地讲,XML只是一种数据标志说明语言,但它已经开始渐渐地把一系列相关的技术包含进来了,像DOM,XSL,XLL,XML命名空间。
XML是一种元标记语言,所谓“元标记”就是开发者可以根据自己的需要定义自己的标记。
比如开发者可以定义如下标记,任何满足XML命名规则的名称都可以标记,这就为不同的应用程序打开了大门。
HTML是一种预定义标记语言,它只认识诸如等已经定义的标记,对于用户自己定义的标记是不认识的。
XML可以通过DTD(DocumentTypeDefinition,文档类型定义)和XMLschema对其结构进行定义和验证。
)CML技术支持DOM(DocumentObjectModel,文档对象模型)和SAX(SimpleApplicationforXML>XML简单应用程序)两种编程接口技术,还能使用XPath语言对数据内容进行查询。
XML技术支持XSLT(eXtensibleStylesheetLanguageTr