计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论文外文文献翻译及原文Word文件下载.docx

资源描述

计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论文外文文献翻译及原文Word文件下载.docx

《计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论文外文文献翻译及原文Word文件下载.docx》由会员分享，可在线阅读，更多相关《计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论文外文文献翻译及原文Word文件下载.docx（7页珍藏版）》请在冰豆网上搜索。

计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论文外文文献翻译及原文Word文件下载.docx

姓名：

学号：

指导教师：

翻译日期：

2017.02.14

毕业设计（论文）外文资料翻译

附件：

1.外文资料翻译译文；

2.外文原文。

指导教师评语：

签名：

年月日

注：

请将该封面与附件装订成册。

附件1：

外文资料翻译译文

摘要：

我们描述了Web使用挖掘活动的一个持续项目要求，我们叫它ClickWorld3，旨在提取导航行为的一个网站的用户的模型。

该模型的推断在访问日志的网络服务器通过数据和Web挖掘技术的功能。

提取的知识是部署的个性化和主动提供网络服务给用户。

第一，我们描述预处理步骤访问日志必要的步骤，选择并准备数据，知识提取。

然后，我们表现出两套实验：

第一，一个尝试性预测的用户基础上访问的网页；

第二，试图预测是否用户可能有兴趣参观的一部分网页。

关键词：

知识发现，Web挖掘，分类。

1、导言

Web挖掘是利用数据挖掘技术在自动化发现和提取信息从网络的文件和服务。

一个常见的分类Web挖掘的三个主要的研究项目明确的规定：

内容分钟法，结构挖掘和使用挖掘。

区分这些类别没有一个明确的界限，而是将经常使用的方法相结合区分出不同的类别。

内容涵盖数据挖掘技术提取模型，网络对象的内容，包括纯文字，半结构化文件（例如，HTML或XML语言），结构化文件（数字图书馆），动态的文件，多媒体文件。

提取模型被用于分类的网页对象，提取关键字用于信息检索，推断结构的半结构化或非结构化的对象。

结构挖掘旨在发掘基本的拓扑结构的互连，筹措之间的网络对象。

该模型建立可用于分类和排名的网站，并发现了它们之间的相似性。

使用挖掘是应用数据挖掘技术发现使用从网络模式的数据。

数据通常是收集用户的互动关系在网上，例如网站/代理服务器日志，用户查询，登记数据。

使用挖掘工具发现和预测用户行为，以帮助设计师为改善网站，来吸引游客，或给普通用户的个性化和适应性的服务。

在本文中，我们描述了Web使用挖掘活动的一个持续项目要求ClickWorld，旨在提取模型，以用户的行为为目的的个性化网站。

我们从中期全国性大型门户网站vivacity.it收集和预处理访问日志，花费的时间为5个月。

该网站包括了民族地区如网址为：

www.vivacity.it的新闻，论坛，笑话等，以及30多个地方，例如，www.roma.vivacity.it与城市专用信息，如本地新闻，餐厅地址，戏剧节目，巴士的时间表，ECC等。

预处理步骤包括数据选择，清洗和转化和通过验证的用户和用户会话。

结果预处理，方法是一个数据集市的网络访问和注册信息。

从预处理的数据，Web挖掘的目的是发现模式调整方法从统计数据，数据挖掘，机器学习和模式识别。

其中基本数据挖掘技术，我们提到的关联规则，发现集团的物体，常常要求用户一起;

集群，集团用户提供类似的浏览方式，或集团类似的物体内容或访问的模式;

分类，而有利于的用户被分到某一类或类别;

和序列模式，即序列请求这是常见的许多用户。

在ClickWorld项目，有几个上述方法，目前被用来提取有用的信息主动提供个性化网页网站。

在本文中，我们描述了两套分类实验。

第一个，一项旨在提取一分类模型能够性别歧视的用户根据设置的网页访问。

第二次试验的目的是提取一分类模型能够歧视这些用户访问的网页有关例如：

提供给典型的实验。

2、预处理的Web个性化

我们已经制定了一个数据集市的网页记录特殊的支持网络个人化分析。

该数据集市是人口从一个网络日志数据仓库房子，如中所描述的，或更简单地说，从原材料网络/代理服务器日志种来。

在这一节中，我们描述了一些预处理和编码步骤进行数据的选择，理解，清洗和转化。

虽然其中一些是一般数据准备步骤，Web使用挖掘，值得注意的是，在许多人的一种领域知识必须一定要包括以清洁，正确和完整的输入数据根据网页的个性化需求。

2.1用户注册数据

除了网页访问日志，我们考虑输入包括个人资料的一个子集的用户，即那些谁注册的vivacity.it网站，备注：

注册法不是强制性的。

对于注册用户，该系统记录了以下资料：

性别，城市，省，婚姻状况，出生日期。

此信息是提供由用户在一个网页表单在登记时，作为一个可预计，数据的标准是对用户公平。

作为预处理步骤，难以置信的数据检测并删除，如出生数据在未来或在遥远的过去。

此外，一些额外的投入没有进口的数据信息，因为几乎所有的值分别为左为默认选择的网页表单。

换言之，领域被认为是不利于区分用户的选择和喜好。

为了避免用户位数的登录名和密码在每个访问vivacity.it网站采用的Cookie重复。

如果一个Cookie是由用户的浏览器，然后认证并不是必需的。

否则，身份验证后，一个新的Cookie发送到用户的浏览器。

随着这一机制，可以跟踪任何用户只要她删除的Cookie的体系。

此外，如果用户注册，该协会登录cookie是可以在输入数据，然后可以跟踪用户后，还原她删除的cookie.

这种机制使检测非人类的用户，如系统诊断诊断和监测方案。

通过检查的数量分配给cookie每个用户，我们发现，用户登录‘test009’被派到以上24.000独特的Cookie。

这不仅是可能的，如果用户是一些程序，自动删除指定的cookie，例如：

系统诊断程序。

2.2网站的网址

一方面，有一些标准化的网页必须形成的统一的网址，以消除不相关的句法的差异。

例如，主机可以在IP格式或自身格式，如131.114.2.91是相同的主机作为kdd.di.unipi.it。

另一方面，也有一些网络服务器程序采用非标准格式的参数传递。

网站的vivacity.it服务器程序是其中之一。

例如，在以下网址：

http:

//roma.vivacity.it/speciali/EditColonnaSpeciale/1，3478，|DX，00.html文件的名字1,3478，|DX,载有00码的地方网站，网页识别码（3478）及其专用的参数（DX型）。

上述的形式设计了效率的机器进程。

作为一个例子，网页标识是一个关键的数据库表的网页模板发现，虽然参数可以检索的网页内容在一些其他就座。

不幸的是，这是一场噩梦时，挖掘点击的网址。

句法功能的网址是很少的帮助：

我们需要一些语义信息，或本论文指定的网址。

在最好的，我们可以预期，一个应用程序级别的日志是，即日志的访问语义相关的对象。

例如，应用程序级日志是记录用户进入网站主页，然后参观了体育与新闻页面上足球代表队，等等。

这将需要一个系统模块监测用户的步骤在语义水平的力度。

在这个ClickWorld项目中这样一个模块被称为ClickObserve。

不幸地，然而，该模块是一个可交付的项目，它不适用于在收集数据的开始该项目。

因此，我们决定提取两个句法和语义信息从网址通过一个半自动的办法。

该办法包括通过在逆向工程的网址，从网站设计者说明这意味着每一个URL路径，网页id和网页的参数。

使用PERL脚本，从设计师的描述，我们从原来的提取网址以下信息：

本地网络服务器，即vivacity.it或roma.vivacity.it等，这些亲志愿给我们一些空间信息的用户的利益;

第一级分类的网址有24种，其中一些是：

家庭，新闻，财政，照片，笑话，购物。

论坛，酒吧;

第二个级别的网址取决于第一级之一，例如：

网址分类版购物可进一步分类版的图书购物或PC购物等;

第三级分类的网址取决于第二级之一，例如网址分类版的图书购物可进一步分类版编程该书叙事购物或购物和书籍等;

参数信息，还详细介绍了三个层次分类，如网址分类版的编程书籍购物可能的ISBN书码作为参数的深度分类，即一日的网址，如果只有一个第一级别分类，如果网址的第一和第二级分类，等等。

当然，采取的办法主要是其中的一个启发式，随着本次设计的层次上升。

此外，本次设计不利用任何基于内容的分类，即说明新闻分类，如体育新闻的编号为12345的代码，即第一级是新闻，并没有提及的新闻内容。

附件2：

外文原文

PreprocessingandMiningWebLogDatafor

WebPersonalization

M.Baglioni1,U.Ferrara2,A.Romei1,S.Ruggieri1,andF.Turini1

1DipartimentodiInformatica,Universitµ

adiPisa,

ViaF.Buonarroti2,56125PisaItaly

fbaglioni,romei,ruggieri,turinig@di.unipi.it

2KSolutionsS.p.A.

ViaLenin132/26,56017S.MartinoUlmiano（PI）Italy

ferrara@ksolutions.it

Abstract.Wedescribethewebusageminingactivitiesofanon-goingproject,calledClickWorld3,thataimsatextractingmodelsofthenavigationalbehaviourofawebsiteusers.Themodelsareinferredfromtheaccesslogsofawebserverbymeansofdataandwebminingtechniques.Theextractedknowledgeisdeployedtothepurposeofofferingapersonalizedandproactiveviewofthewebservicestousers.Wefirstdescribethepreprocessingstepsonaccesslogsnecessarytoclean,selectandpreparedataforknowledgeextraction.Thenweshowtwosetsofexperiments:

thefirstonetriestopredictthesexofauserbasedonthevisitedwebpages,andthesecondonetriestopredictwhetherausermightbeinterestedinvisitingasectionofthesite.

Keywords:

knowledgediscovery,webmining,classification.

1Introduction

Accordingto[10],WebMiningistheuseofdataminingtechniquestoauto-maticallydiscoverandextractinformationfromwebdocumentsandservices.Acommontaxonomyofwebminingdefinesthreemainresearchlines:

contentmining,structureminingandusagemining.Thed

展开阅读全文