数据采集自动化处理与数据挖掘.docx-资源下载

数据采集自动化处理与数据挖掘.docx

1、数据采集自动化处理与数据挖掘HUNANUNIVERSITY毕业设计（论文）设计（论文）题目:数据采集自动化处理与数据挖掘学生XX:武祥斌学生学号:专业班级:软件工程2004级开发2班指导老师：李玮系主任(院长)：林亚平2008年5月26日数据采集自动化处理与数据挖掘摘要目前，随着社会经济的发展，金融市场变的异常庞大和复杂，而基金作为一种金融衍生产品，在金融市场中占有一席之地。随着基金产业的不断发展，各种类型的基金进入金融市场，作为一种理财产品，就是要为大众服务，帮助大家理财，然而当投资者面对大量的基金产品，不知应该怎样选择，所以我们的目标就是帮助普通的投资者和金融机构做出判断，指引他们选

2、择适合自己的基金。为了达到上面的目的，我们就需要大量的数据来做支撑，所以采集这些基金产品的数据是十分重要的，每天有来自世界各地的金融机构为我们提供这些数据，而我们的目的就是要采集这些数据，保持数据的完整性和正确性就是我们这套系统的主要功能。我们采用程序的方式来实现这样的数据采集，并且不需要人工干预，本套系统采用了c#语言，以及三层结构本身的一些设计上特点做了较为详细的分析，以及大量采用了XML技术,三层架构的设计实现了一套功能相对完备并具有良好用户界面和可扩展性的系统。在本中也对本文中的创新点进行阐述，同时展望了采集数据的自动化和数据挖掘的发展方向以及前景。关键词：基金，XML，数据挖掘Au

3、tomation of Data Collection and Data MiningABSTRACTAuthor: Wu xiang binTutor:Li WeiAt present, as the social and economic development, financial markets bee unusually large and plex, and the fund as a financial derivative products, financial markets in a place. With the continuous development of the

4、 industry, various types of funds into the financial markets, financial products as a means for the public services, financial management help people, but when investors face a lot of fund products, they do not know what to choose, Our goal is to help ordinary investors and financial institutions to

5、 make a judgement, the guidelines they choose to suit their own funds.To achieve the above objectives, we need to do a lot of data support, the collection of data products of these funds is very important, every day from all over the world financial institutions to provide us with these data, and ou

6、r goal is to acquisition of these data, and maintain data integrity and accuracy of this system is our main function.We adopt a program approach to achieve such a data collection, and does not require manual intervention, this set of systems used c # language, and the three-tier structure itself to

7、do some design features a more detailed analysis, and a large number of XML technology, The three-tier system designed to achieve a relatively plete set of features and has a good user interface and scalability of the system. In this paper also on the point on innovation, and the prospect of automat

8、ed data collection and data mining direction for the development and prospects.Key words: fund, XML, data mining.1绪论1.1本课题的简介数据采集自动化处理其实就是一个系统，此系统主要任务就是自动化的采集数据。对各种基金数据进行整理，分类，最后得到我们可以识别的标准格式的文件类型的数据文件。图1.1系统整体数据流图图1-1是整个系统的结构图，通过结构图可以很清楚的看到整个系统的大致的结构和所完成的一些功能有一个初步的了解。1.2本课题的目的和意义随着社会不断的进步和发展，人们的生活变

9、的越来越充裕，手中的钱也越来越多，因此人们选择了理财产品，而不在是存在银行中，但是众多的金融衍生产品使投资者眼花缭乱。共同基金这种新兴投资方式的出现，是市场经济特别是证券高度发达的必然结果。面对各类证券数量的迅速扩X和投资风险的不断加大，个人投资者对共同基金的倚赖性逐渐增加。这是因为：共同基金将众多小额的资金汇集起来，积少成多，能从规模经济中获益。随着我国经济商品化，货币化进程的发展和我国社会市场经济体制的确立，逐步发展和完善的证券市场将在其中发挥越来越重要的作用。因此，可以预料，共同基金在我国产生和发展也将是为期不远的现实。而我们的这个题目的目的就是在于帮助分析人员提供大量的基金数据，使分析

10、人员不用关心数据，我们会提供给他们正确和完整的数据，而这些数据的来源就是世界上各个金融机构提供给我们的文件中包括的数据，我们采用自动化的数据采集，保证了快速和准确的把数据收集起来，然而再美国境内，美国的机构提供的都是格式统一的文件，这样我们很容易把数据转化为我们内部可以识别的格式文件，在美国之外，也就是欧洲和亚洲等各个机构提供的文件格式不同，比如excel,pdf,txt等各种各样的格式，我们需要应对各种的方式来处理文件，最终得到统一的格式，为金融分析人员提供第一手的数据。这个系统的意义还在与能够减少人工的参与，大量减少人工的工作量，再最以前都是人工的读文件取数据并且录入数据，采用现在的信息化

11、处理数据能够减少公司的开支并且得到最准确和及时的数据，这是金融分析最重要的一点。2技术背景2.1Web服务的概念Definition: A Web service is a software system designed to support interoperable machine-to-machine interaction over a network. It has an interface described in a machine-processable format (specifically WSDL). Other systems interact with the W

12、eb service in a manner prescribed by its description using SOAP messages, typically conveyed using HTTP with an XML serialization in conjunction with other Web-related standards.Web服务是一个软件系统，是被开发用来支持可同时操作的，跨越网络的机器对机器之间的交互。它包含一个以机器可处理格式描述的接口(特指WSDL)。其他系统同Web服务交互以一种本身的描述中规定的方式，使用SOAP消息，代表性在同Web相关的标准的联

13、结中使用一个XML连续，利用HTTP传达(消息)。2.2.NET WEB服务的优势谈到.NET，.NET是微软为Web服务提供的一个平台。微软做.NET的目的是，希望在PC和Internet之后，为用户提供更高层次的服务。也就是说，PC上做的事，有了Internet，可以做到100倍，而Web服务来到后，也许能做10000倍。Web服务最终的目的可分为用户、开发商和企业用户。从用户看，Web服务将用户的需求分成几个部分，逐步完成。比如说，买一束花在今天的互联网上也能做到。但你需要去搜索卖花，搜索到的也许并不是你所最想要的；你还需要输入信用卡号和地址，而且所有的数据也不能重复使用。而在Web服务

14、中，你只需告诉计算机：我要买束花就行了；因为你的很多数据已经存在Web服务中。从开发者角度看，Web服务的目的是让人们开发的程序都能相互结合起来，比如说，卖花与付款两个服务模块，在开发时并没有任何协议，是独立开发的，但把它们放在一起，也能运行。对于商业用户来说，不但可以提高效率，降低IT预算，软件可以重用，而且，能够做的事情更多。 .NET是一个很长的过程，最终目的是任何时候任何一个程序都可以与另一个程序兼容。Web服务的优势就像滚雪球那样，滚到一定程度，效果就出来了。足够多的Web服务出现后，成长的速度会非常快。 2.3XMLXML定义：XML是可扩展标志语言(eXtensible Mark

15、up Language)的简称。像HTML一样，XML是从所有标志语言的元语一标准通用标志语言SGML(Standard Generalized Markup Language)那里派生出来的。设计之初，XML的目标之一是取代HTML为新出现的复杂的Web应用提供标准的Internet语言。然而，由于XML在可扩展性、可移植性和结构性等方面的突出优点，它的应用X围早己突破了HTML所达到的X围。尽管严格地讲，XML只是一种数据标志说明语言，但它已经开始渐渐地把一系列相关的技术包含进来了，像DOM,XSL,XLL,XML命名空间。XML是一种元标记语言，所谓“元标记”就是开发者可以根据自己的需要

16、定义自己的标记。比如开发者可以定义如下标记，任何满足XML命名规则的名称都可以标记，这就为不同的应用程序打开了大门。HTML是一种预定义标记语言，它只认识诸如等已经定义的标记，对于用户自己定义的标记是不认识的。XML可以通过DTD(DocumentTypeDefinition，文档类型定义)和XMLschema对其结构进行定义和验证。)CML技术支持DOM(DocumentObjectModel，文档对象模型)和SAX( SimpleApplicationforXMLXML简单应用程序)两种编程接口技术，还能使用XPath语言对数据内容进行查询。XML技术支持XSLT(eXtensibleSt

17、ylesheetLanguageTransformations，可扩展样式表语言转换)格式转换，利用XSLT技术能将XML文件转换为各种不同的格式，如格式不同的XML文件、HTML文件、文本文件、无线标记语言(WML)和SVG文件等。主要特点：1.简单性；2.可扩展性；3.互操作性；4.开放性；5.结构化数据。数据表示：HTTP是一种基于文本的协议，因而缺乏表示RPC消息中的参数值的机制，这也是XML作为Web服务的一个重要成分出现的原因。XML是一项将类型和结构置于信息上层的技术，它架起了应用程序数据类型与存储和传输单元之间的桥梁，因此XML可以被看作是一种串行格式化的传输语法，允许数据被串

18、行化为易于被任何平台解码的消息格式，提供了在网络应用之间交换结构化数据的机制。XML采用纯文本表示，设计的初衷是为了存储、传送和交换数据的。XML是一种标记语言，标记在XML 中不是预先确定的，而必须由使用者自己定义。XML允许使用者自由发表有用的信息，不仅可以是有关数据结构的，也可以是关于数据意义的。另外，XML文档的结构、内容和外观可以作为三个不同的部分进行维护，提供了更高的独立性。对于数据表示层来说，可扩展性是一个关键因素。为了支持可扩展性，Web服务需要一种机制以避免名字冲突，并允许一个程序只处理自己所关心的元素。XML名称空间(Namespaces）提供了一种简单、通用的方式以区分相

19、同名字的元素或属性。为了支持可扩展性，XML中的每个元素和属性都有一个相关的名称空间。数据格式：Web服务需要一种方法定义Web服务消息中使用的数据类型。XML Schema规X标准化了一个描述XML数据类型的符号集，还定义了一个内置简单数据类型的集合和在各 XML 文档中建立元素类型的机制。XML Schema规定了XML文档的逻辑结构，定义了元素、元素属性以及元素和元素属性之间的关系。2.4系统的体系结构2.4.1传统的两层结构在过去应用系统开发过程中，Client/Server体系结构得到了广泛的应用。其特点是，应用程序逻辑通常分布在客户和服务器两端，客户端发出数据资源访问请求，服务器端

20、将结果返回客户端。但Client/Server结构存在着很多体系结构上的问题，比如：当客户端数目激增时，服务器端的性能会因为负载过重而大大衰减；一旦应用的需求发生变化，客户端和服务器端的应用程序都需要进行修改，给应用维护和升级带来了极大的不便；大量的数据传输增加了网络的负载等等。2.4.2三层结构简介所谓三层体系结构，是在客户端与数据库之间加入了一个“中间层”，也叫组件层。这里所说的三层体系，不是指物理上的三层，不是简单地放置三台机器就是三层体系结构，也不仅仅有B/S应用才是三层体系结构，三层是指逻辑上的三层，即使这三个层放置到一台机器上。三层体系的应用程序将业务规则、数据访问、合法性校验等工

21、作放到了中间层进行处理。通常情况下，客户端不直接与数据库进行交互，而是通过/D通讯与中间层建立连接，再经由中间层与数据库进行交互5。随着分布式对象技术的逐渐成熟，多层分布式应用体系结构得到了越来越多的应用。应用系统只有向多层分布式转变，才能最终解决Client/Server结构存在的问题。在多层架构下，应用可以分布在不同的系统平台上，通过分布式技术实现异构平台间对象的相互通信。将应用系统集成于分布式系统之上，能极大地提高系统的可扩展性。在多层分布式应用中，在客户端和服务器之间加入了一层或多层应用服务程序，这种程序称为“应用服务器”。开发人员可以将应用的商业逻辑放在中间层应用服务器上，把应用的业

22、务逻辑与用户界面分开。在保证客户端功能的前提下，为用户提供一个简洁的界面。这意味着如果需要修改应用程序代码，只需要对中间层应用服务器进行修改，而不用修改成千上万的客户端应用程序。从而使开发人员可以专注于应用系统核心业务逻辑的分析、设计和开发，简化了应用系统的开发、更新和升级工作。因此，本系统将选择三层体系结构，图2.1是系统高层逻辑体系结构图：图2.1高层逻辑体系结构2.4.3用ASP.NET部署三层架构就B/S模式的系统的开发，具体技术又有多种选择：JSP+J2EE，ASP+IIS，ASP.NET +Microsoft .NET Framework+IIS，PHP+Apache，就这几门技术

23、，可以说各有其优缺点，分析如下：JSP技术：具有良好的跨平台性，加上J2EE功能十分强大，但是J2EE的布置使开发成本显得略高，而且没有良好的安装界面。PHP技术：是早期动态网页技术中的强手，但随着JSP技术与ASP技术的不断更新，使得PHP技术稍微比较落后。ASP技术：类似于PHP技术，开发简便，快速，加上IIS的功能支持，是比较简易快速的开发技术。ASP.NET：可以说是ASP技术的替代技术，是ASP的一大进步，在Microsoft .NET Framework的强大支持下，可以使用C#、VB、JavaScript等数十种语言来编写代码，采用预先编译技术，使得代码安全性加强。Microso

24、ft .NET Framework是微软推出的一套下一代开发平台。从开发人员的角度来看，.NET是一个公共平台的类库(FCL)，包括一个公共语言运行库(CLR)。因为只要符合.NET的公共运行规X(CLS的语言都可以使用它提供的强大的类，并编译为微软的中间语言（MSIL），在其他的应用中就可以当作一个组件来调用。同时享受公共语言运行库带来的一切好处：垃圾自动回收(GC)、实时编译(JIT)、跨语言互动、跨平台。 .NET可比喻是操作系统提供给开发人员的面向对像的API(应用程序编程接口)。ASP.NET只是.NET中的一部分。它除了是编译执行速度快外，最大的优点是页面和代码分离的编写方式，对惯

25、使RAD工具的人来说是个福音。再加上.NET运行库提供的支持事件的各种WEB控件，和以前编写网页方式相比可谓是一场革命。ASP.NET可以使用.NET平台快速方便的部署三层架构。.NET中可以方便的实现组件的装配，后台代码通过命名空间可以方便的使用自己定义的组件。表示层放在ASP.NET页面中，数据库操作和逻辑层用组件来实现，这样就很方便的实现了三层架构。2.4.4IISIIS是InternetInformationServer的缩写，它是微软公司主推的服务器，最新的版本是Windows2003里面包含的IIS 6， IIS与WindowNT Server完全集成在一起，因而用户能够利用Win

26、dows NT Server和NTFS (NT File System，NT的文件系统)内置的安全特性，建立强大，灵活而安全的Internet和Intranet站点。IIS支持HTTP(HypertextTransferProtocol，超文本传输协议)，FTP(Fe1eTransfer Protocol，文件传输协议)以及SMTP(Simple Mail Transfer Protocol，简单传输协议)，通过使用CGI和ISAPI，IIS可以得到高度的扩展。IIS 支持与语言无关的脚本编写和组件，通过IIS，开发人员就可以开发新一代动态的，富有魅力的Web站点。IIS不需要开发人员

27、学习新的脚本语言或者编译应用程序，IIS完全支持VBScript， JScript开发软件以及Java，它也支持以工和WinCGI，以及ISAPI扩展和过滤器。IIS的设计目的是建立一套集成的服务器服务，用以支持HTTP， FTP和SMTP，它能够提供快速且集成了现有产品，同时可扩展的Internet服务器。IIS相应性极高，同时系统资源的消耗也是最少，IIS的安装，管理和配置都相当简单，这是因为IIS与Windows NT Server网络操作系统紧密的集成在一起，另外，IIS还使用与Windows NT Server相同的SAM(Security Accounts Manager，安全性账

28、号管理器)，对于管理员来说，IIS使用诸如Performance Monitor和SNMP (Simple Nerwork Management Protocol，简单网络管理协议)之类的NT已有管理工具。IIS支持ISAPI，使用ISAPI可以扩展服务器功能，而使用ISAPI过滤器可以预先处理和事后处理储存在IIS上的数据。用于32位Windows应用程序的Internet扩展可以把FTP，SMTP和HTTP协议置于容易使用且任务集中的界面中，这些界面将Internet应用程序的使用大大简化，IIS也支持MIME(MultipurposeInternet Mail Extensions，多用

29、于Internet扩展)，它可以为Internet应用程序的访问提供一个简单的注册项。2.4.5体系结构建立的几个原则系统在.NET体系结构的选择上，基于以下几个原则：1尽量创建可重用代码在确认体系结构和基础代码将要提供什么样的服务时，最重要的任务就是找出那些通用的、可重用的任务，这些任务将被不同的程序模块调用。构建HWMPS的体系结构和基础框架也必须是可扩展的，应该支持功能的增加与扩展而不影响原有的功能模块。2加强设计模式与最佳实践在设计HWMPS体系架构时，应自底向上的设计每一步。进行底层的最佳模式设计。3提供通用功能提供一个健壮的体系结构另一种益处就是能够发布被其他组件共享的有用功能，比

30、如定义一些异常类、日志类、页面类，所有的基页面都继承自这些类。4提供开发基础除了加强设计模式和提供通过功能外，自下而上的建立体系结构还有另外的好处，许多开发团队会遇到一个问题，那就是每个人会按自己独特的方式去完成任务，由于Microsoft.NET规模大并且对每一个问题可以提供多种解决办法，这个问题会变得特别突出。通过建立一个强壮的体系结构，可以向开发者明确的描述如何去完成不同的任务，可以提供标准化的代码，用开发者用来处理缓存、调用上下文、数据访问等。当开发者围绕该体系结构执行各种不同的任务时，就可以告诉他们如何使用。2.5数据挖掘2.5.1什么是数据挖掘数据挖掘(Data Mining)，又

31、称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。并非所有的信息发现任务都被视为数据挖掘。例如，使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的Web页面，则是信息检索（information retrieval）领域的任务。虽然这些任务是重要的，可能涉及使用复杂的算法和数据结构，但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息。尽管如此，数据挖掘技术

32、也已用来增强信息检索系统的能力。2.5.2数据挖掘能做什么数据挖掘能做以下六种不同事情（分析方法）：1. 分类（Classification）首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。例子：(1) 信用卡申请者，分类为低、中、高风险(2) 分配客户到预先定义的客户分片注意：类的个数是确定的，预先定义好的2. 估值（Estimation）估值与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的。例子： (1) 根据购买模式，估计一个家庭的孩子个数 (2) 根据购买模式，估计一个家庭的收入 (3) 估计real estate的价值一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。例如：银行对家庭贷款业务，运用估值，给各个客

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？