eBay数据库设计与实现Word文件下载.docx
《eBay数据库设计与实现Word文件下载.docx》由会员分享,可在线阅读,更多相关《eBay数据库设计与实现Word文件下载.docx(17页珍藏版)》请在冰豆网上搜索。
item(itemid,name,currently,Buy_Price,First_Bid,Number_of_Bids,Started,Ends,seller,Description);
category(category);
item_category(itemid,category);
item_bids(itemid,time,bidder,amount)
2.列出你设计的关系中的所有函数依赖,也可以回答“没有”。
users:
userid→rating,location,country;
item:
itemid→name,currently,Buy_Price,First_Bid,Number_of_Bids,Started,Ends,seller,Description;
item_bids:
itemid,time→bidder,amount)
3.你设计的关系是否属于Boyce-CoddNormalForm(BCNF)范式?
如果不是,请重新设计,或者解释为什么采用非BCNF较好。
属于BC范式
4.列出你设计的关系中的所有多值依赖,也可以回答“没有”。
item_category:
itemid→→category;
5.你设计的关系是否属于第4范式?
如果不是,请重新设计,或者解释为什么采用非4-NF较好。
属于第4范式
PartB编写数据转换程序
1.考虑到对XML代码处理的效率,使用c#进行编程,使用其自带的System.Xml进行XML文件的读取。
2.XML文件存放在程序Debug文件夹下。
3.根据设计的关系数据库模型,同步生成4个文本文件(item.txt、item_bid.txt、item_ca.txt、user.txt)。
4.数据处理过程中,考虑对元数据中可能影响数据导入的因素进行处理,包括日期、单引号、逗号等,使用“《《》》”作为列分隔符。
5.由于SQLServer的数据导入导出工具的文本数据转换出错,所以直接利用C#对生成的四个文本文件进行再处理,生成包含SQL插入语句的文本文件(iitem.txt、iitem_bid.txt、iitem_ca.txt、iuser.txt)。
6.文件均生成在程序Debug文件夹下。
PartC将转换生成的数据导入SQLServer
1.在SQLServer上新建数据库(eBay),创建设计的关系数据模式,即createtable,并指定主码还外码,执行create.sql。
注意:
XML拍卖数据中的Description数据长度较长,部分超过8000字符,应将类型设计为varchar(MAX),保证数据在插入过程中不因截断而出错。
数据库初始大小为100M。
2.表创建后,利用程序生成的文本文件,进行数据导入导入。
在数据导入的过程中,执行单个insert文件时间较长,且提示“资源池'
internal'
没有足够的系统内存来运行此查询。
”将部分数据导入分批进行,依次导入insert-1.sql~insert_8.sql,可以保证所有数据导入成功。
3.由于直接生成的文本数据存在一定的重复,不满足部分表的主键要求,所以创建临时表——userstem、item_categorytem,在此基础上进行唯一查询后,再将数据导入相关表。
最后删除临时表。
此操作包含在insert.sql文件中。
insertintousers
selectdistinct*
fromuserstem;
droptableuserstem;
insertintocategory
selectdistinctcategory
fromitem_categorytem;
insertintoitem_category
droptableitem_categorytem;
PartD测试你生成的数据库
SQLServer/PostgreSQL导入数据后,首先对每个关系进行测试验证是否正确导入,然后实现以下查询来检查数据库的正确性。
1.关系验证
1)users——存在locating、country为空的用户,黄色显示,为空值,
2)item——日期、金额数据正常,空值保留
Description数据字段最长字节13960
Description数据字段内容
3)category
4)item_category——存在多值依赖
5)item_bids——日期、金额数据正常
2.用户人数。
selectcount(*)
fromusers
3.来自NewYork的用户人数(即用户的location为“NewYork”,区分大小写)。
wherelocation='
NewYork'
;
4.所属类别(category)个数为4的拍卖(auction)次数。
selectCOUNT(*)
from(
selectitemid,count(*)ascount
fromitem_category
groupbyitemid
)a
wherecount=4
5.当前价格最高的拍卖(aucion)的ID。
selectitemid,currently
fromitem
wherecurrently=(selectmax(currently)
fromitem
)
6.等级(rating)大于1000的卖家(seller)人数。
whererating>
1000anduseridin(selectseller
fromitem
)
7.既是卖家(seller)又是投标人(bidder)的用户人数。
whereuseridin(selectseller
fromitem
anduseridin(selectbidder
fromitem_bids
8.类别(category)至少包含一个投标(bid)大于$100的物体(item),这样类别的数目。
fromcategory
wherecategoryin(
selectcategory
fromitem,item_bids,item_category
whereitem.itemid=item_bids.itemid
anditem.itemid=item_category.itemid
andamount>
100
9.上述查询时间均不超过10s。
挑战感想:
挑战二对是对eBay拍卖数据进行建库,数据来源于XML文件,XML的标签使得数据比较明晰,主要的难度在于如何批量的处理XML文件,获得商品的各项信息。
考虑到C#本身就有处理XML的类库,我就是用C#编程,处理数据,在简单学习相关函数和对象后,基本实现了数据的提取。
在利用数据库导入工具时,由于部分字段的转化错误,所以决定在原有文本文件的基础上,直接生成数据插入的sql文件。
在实际数据导入的过程中,数据量一度接近百兆,导致内存不存,数据导入失败。
通过分析,我将数据分阶段导入,利用临时表进行处理,完成了数据的导入。
在整个过程中,我根据数据导入过程中出现的异常,不断修改程序,使得生成的文件更利于导入。
在不断的尝试中,一点点的达成目的,数据库的设计也越来越完善,通过创建的商品的类型表,极大的提高了查询的效率,提高了数据的完整性。