ImageVerifierCode 换一换
格式:DOCX , 页数:15 ,大小:127.29KB ,
资源ID:20927944      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/20927944.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据脱敏到文件资料和文件资料导入大数据库地实现Word文件下载.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据脱敏到文件资料和文件资料导入大数据库地实现Word文件下载.docx

1、一、缩略语和关键术语定义下文出现的英文缩写术语在此提供对应的英文全称和中文译文,或中文专业术语的详细解释敏感数据,指不为大众知悉,具有实际和潜在利用价值,丢失、不当使用或XX访问对社会、企业或个人造成危害的信息,如个人隐私信息、业务经营信息、财务信息、人事信息、IT运维信息等。数据脱敏,指对某些敏感信息通过脱敏规如此进展数据的变形,实现敏感数据的可靠保护。脱敏数据,指敏感数据经过数据脱敏处理后,不再包含某些敏感信息的数据。数据迁移,指将数据从一个载体迁移到另一个载体,比如:从数据库A迁移到数据库B,从文件A迁移到数据库A,从数据库A迁移到文件A等。XML,即可扩展标记语言(Extensible

2、 Markup Language)。标记是指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种信息的文章等。如何定义这些标记,既可以选择国际通用的标记语言,比如HTML,也可以使用像XML这样由相关人士自由决定的标记语言,这就是语言的可扩展性。XML是从SGML中简化修改出来的。文件的导出,即将源数据库中脱敏后的数据导入到指定格式的文件中。文件的导入,即将excel文件经过脱敏操作过后导入到目标数据库中。二、背景技术以与与本申请相关的现有技术1、背景技术即帮助理解本专利技术内容的公知常识,您基于什么样的背景发明的该专利:随着信息技术的开展与大数据时代的到来,数据流通成为释放数据

3、红利与价值的主要手段和途径,敏感数据在流通中缺乏有效管控,处于高风险状态。近年来,敏感数据泄漏事件屡见不鲜。敏感数据泄漏带来的不仅仅是经济损失,同时损害了金融机构和政府部门等权威机构的公信力,严重破坏了社会信用体系,影响了相关产业与全社会健康和谐开展。在这样的时代背景下,防止敏感数据的泄漏成为了十分重要的问题,因此我们开发了数据脱敏网关。数据脱敏网关就是针对敏感数据进展数据脱敏,保证数据在做数据迁移的和使用时的安全性和某某性。数据脱敏网关主要实现了敏感数据在数据库之间的脱敏和迁移,针对客户的需求,又参加了数据库到文件支持的文件格式有csv,excel,json,xml,txt的脱敏,和文件暂时

4、只支持07版以前的excel,或者excel压缩打包后的zip包到数据库的脱敏。2、与本专利最接近的现有技术现有技术就是已经有的技术,如果该现有技术的缺点正是本发明能够消除的,如此为相关现有技术,否如此为非相关现有技术;相关现有技术中,与本专利共同的技术特征最多的,可视为最接近现有技术最接近现有技术是数据脱敏网关中的数据迁移管理模块,实现了数据库之间的脱敏迁移。给出现有技术的系统图、流程图,结合附图说明现有技术的实现过程数据迁移管理模块作为数据脱敏网关的核心功能,其下又分为三个子模块: 策略管理,任务管理,任务日志管理,集成在数据脱敏网关中。如如下图:策略管理:实现了相关脱敏策略的增删改查操作

5、。任务管理:实现了相关脱敏任务的增删改查操作,改子模块是脱敏迁移管理的核心功能,整个的数据脱敏迁移都是在这里实现,目前实现了数据库到数据的脱敏迁移,数据到csv文件的脱敏迁移。任务日志管理:简单的任务日志查看功能。数据库脱敏迁移流程图一定是采用本专利申请技术方案后能够消除的缺点,缺点可以是多个现有数据迁移管理模块中,只是针对了数据库之间的脱敏迁移,在文件excel方面功能还不够完善,只存在简单的csv文件的导出功能,在遇到客户需要其他文件格式的时候,比如excel,xml,json等文件格式的时候没有良好的支持。 三、本申请所解决的技术问题针对上述2.2点提出的缺点,引出发明动机,阐述本专利要

6、解决的技术问题在数据脱敏中,脱敏后的数据存放在一个ListMap集合中,其中每一个Map都对应数据库里面的一个数据,string为其列名,object为其值。难点在于怎样将数据按照每个文件对应的格式转换写入到文件当中,而且在excel文件存在不同版本的区别,07版以前的excel每一个sheet只支持65535行的数据量,而07版本以后支持100万+行的数据量,map中的健对应excel的表头列名。xml的数据也有固定的格式要求,下文会贴出例子;而json数据在Java里面有现有的方法实现,就不做详细的阐述了。XML数据格式:nodekey label=key1value1key2value2

7、/nodes备注:每一个node对应数据中的每一行数据,label对应数据库中的字段名,value对应其值。四、本申请技术方案的详细阐述发明内容,重点介绍1、本申请的总体技术实现主要是代码方面的实现。总的构思流程图:因为这里是针对已经脱敏的List数据进展文件格式的输出,这里就不做脱敏的实现,只做文件输出的实现。后文中会用到一个公共的Document对象转String的方法:publicstatic String doctoString(Document document) String str = ;try / 使用输出流来进展转化 ByteArrayOutputStream out = n

8、ew ByteArrayOutputStream();/ 使用UTF-8编码 OutputFormat format = new OutputFormat( , true, UTF-8);XMLWriter writer = new XMLWriter(out, format);writer.write(document);str = out.toString( catch (Exception ex) ex.printStackTrace(); return str;1List转xml文件格式的实现前文已经写出了xml文件格式的根本,下文就不在做详细的赘述了:引用的包:org.dom4j。根

9、据xml文件的根本格式看出,在做具体实现的时候,我是把list里面的数据放在nodes标签里面的,其子标签node如此对应数据库里面的每一行数据,数据库对应的字段名如此是key标签里面的label属性。这里的重点就是找出最简单的方法将数据库里面的字段名写入到label里面,在这里我们只需要遍历list0中的数据就能得出数据库中的字段名了,实现代码如下:publicstatic String listtoXml(List list) throws Exception /初始化一个document对象,用来添加XML内容Document document = DocumentHelper.crea

10、teDocument();/初始化一个Element对象,其表示XML文档中的元素,元素可包含属性,其他元素或文本,如果元素含有文本,如此在文本节点中表示该文本,文本永远存储在文本节点中。 此时创建了一个父节点nodes,用于记录list里面的所有数据。Element nodesElement = document.addElement(nodesint i = 0;/遍历list for (Object o : list) /初始化Element对象,创建nodes节点的子节点node,用于记录每一行数据。Element nodeElement = nodesElement.addEleme

11、nt(nodeif (o instanceof Map) /遍历mapfor (Object obj : (Map) o).keySet() /初始化Element对象,创建node节点的子节点key,用于记录每一格的具体数据。Element keyElement = nodeElement.addElement(key/key节点的label属性,即map的健,对应数据库的字段名。keyElement.addAttribute(label, String.valueOf(obj);/key节点的具体内容,即map的值,对应数据库的值。keyElement.setText(String.val

12、ueOf(Map) o).get(obj); else , String.valueOf(i);keyElement.setText(String.valueOf(o);i+;/将Document对象转为字符串返回,在转字符串的时候设定了具体的编码,xml为UTF8的编码。returndoctoString(document);到此就将一个List转换为了xml文件的格式了,这个list就是数据脱敏网关中的脱敏数据,余下的操作就是将上面返回的字符串输出到文件中,文件的输出就是一个简单的I/O操作就不再做详细的赘述了,值得注意的是在创建文件的时候是以xml为后缀的。2. List转excel文件

13、格式的实现区别excel 07版以前和以后两个版本:07版本以前的每一个工作簿sheet数据量限制为256列*65536行,07版本以后的限制为16384列*1048576行,在这里可以看出07版本的excel文件存储的数据量远远大于较早版本的,所以建议尽量使用07版本以后的.不过考虑到很多PC上面可能没有较新的excel我会给出两个版本的具体实现。而且两个版本的excel在文件后缀名上也存在不同,07版本以前为.xls,07版本以后为.xlsx,在创建文件的时候需要值得注意。07版本以前引用的包:org.apache.poi.hssf.usermodel。/* *创建excel表头 * pa

14、ram sheet * param keysStr */privatestaticvoidbuildTitleOld(HSSFSheet sheet, String keysStr) if (sheet.getLastRowNum() = 0) HSSFCell cell = null;HSSFRow row = sheet.createRow(sheet.getLastRowNum();for (int j = 0; j keysStr.length; j+) cell = row.createCell(j);cell.setCellValue(keysStrj);* excel 版本200

15、7以下 sheet上限65535* param List* return*/publicstatic HSSFWorkbook listtoExcleOld(List list)HSSFWorkbook workbook = new HSSFWorkbook();/获取数据库中的字段名。String keysStr = list.get(0).keySet().toArray(new String );HSSFSheet sheet = workbook.getSheetAt(workbook.getNumberOfSheets() - 1);HSSFRow row = null;int ro

16、wNum = sheet.getLastRowNum();buildTitleOld(sheet, keysStr);for (int i = 0; i 65535) sheet = workbook.createSheet();rowNum = 0;row = sheet.createRow(+rowNum);String key = keysStrj;Object obj = list.get(i).get(key);if (obj != null) str = obj.toString();cell.setCellValue(str);row = null;cell = null;ret

17、urn workbook;org.apache.poi.xssf.usermodel。privatestaticvoidbuildTitleNew(XSSFSheet sheet, String keysStr) XSSFCell cell = null;XSSFRow row = sheet.createRow(sheet.getLastRowNum();* list to excel 版本2007以上 sheet行数上线100万+publicstatic XSSFWorkbook listtoExcleNew(ListXSSFWorkbook workbook = new XSSFWork

18、book();XSSFSheet sheet = workbook.getSheetAt(workbookXSSFRow row = null;buildTitleNew(sheet, keysStr); 1048575) 以上就是两种excel文件格式的具体实现。07版以后的扩展名都是.xlsx ,是用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,在传统的文件名扩展名后面添加了字母x即.docx取代.doc、.xlsx取代.xls,等等,使其占用空间更小,可以向下兼容xls。在做I/O输出的时候需要区别两个版本的excel文件,并修改对应的后缀名。3. 文件excel文件.xl

19、s或者其对应的zip包导入到数据库:在文件导入数据库的时候这里考虑了两X情况,数据表建表与否。情况一,数据库表已经建好,且表名对应文件名,字段名对应文件表头,就可以实现文件的直接导入,流程图如下:这里就不再详细的贴出相关代码, 说明几个值得注意的地方:1在写入数据之前,需要读取数据库中对应表的字段名,作为全局变量使用,以便匹配list里面对应的数据;2如果是ZIP包,里面可能存在多个文件的情况,在处理多个文件的时候,需要对文件进展遍历并且和数据库里面的数据表一一对应,对没有建表的文件抛出异常,其余文件正常导入。情况二,数据库未建表,但是上传的文件为ZIP包,且里面包含了一个SQL文件夹,流程图

20、如下:在执行SQL文件的时候,sql语句必须符合语法规如此,要不然会导致建表失败,可以批量的进展建表操作和文件的导入,目前支持informix数据库和oracle数据表。在处理所有数据的时候都是采用批处理,在一定程度上提高了数据的处理速度。以下是一些比拟重要的方法实现:*获取数据表的字段信息publicstatic Map getTableInfo(Connection conn, String tableName) colInfo = new HashMap();Stringsimpleselect = select * from +tableName;ResultSet rs;try rs

21、 = conn.prepareStatement(simpleselect).executeQuery();ResultSetMetaData dbMeta = rs.getMetaData();for (inti = 1;= dbMeta.getColumnCount();if (ROWNUM.equals(dbMeta.getColumnName(i)continue;/ 保存列名和codeStringcolName = dbMeta.getColumnName(i).toLowerCase();intjavacode = dbMeta.getColumnType(i);colInfo.p

22、ut(colName, javacode); catch (SQLExceptione) e.printStackTrace();ImportWorker.err = 查询数据表信息异常return colInfo;2、本申请的具体实施例将上述总体技术方案放到一个具体的应用环境下举例说明,注明实施例1、实施例2等。建议至少2个以上的实施例。在XX市商业银行的信息系统中部署了数据脱敏网关,对他们的敏感数据进展脱敏操作,为了方便客户的使用,他们提出了从DB2数据库脱敏生成文件的需求。在这里实现了DB2数据库数据到excel文件。数据量在1000W左右,导出时间在20分钟左右,效率上来说还需要进一步

23、的提高。在同一时间,客户提供了一个数据量比拟小的excel文件,我们将其经过脱敏操作后导入到了informix数据库中,耗时不到1分钟。五、本申请的技术效果阐述本发明相对现有技术能够产生何种有益效果例如:可以节约本钱、加快处理速度、处理更加稳定、运算更加精准1.功能扩展:针对目前的数据脱敏网关中的数据迁移功能进展相关的扩展,保证了功能的多样性和实用性,很大程度上提高了用户的体验度。2.处理稳定:通过Java代码实现文件的导出和导入功能比通过工具来导出导入处理更加稳定,确保了数据的完整性;3.处理速度更快:在实现文件的导出和导入功能的时候均采用了多线程的实现,可以同事执行多个任务和多个文件,大大

24、的加快了数据迁移的处理速度。4.节约本钱:通过数据脱敏网关进展文件的导出和导入,不再需要其他的数据库工具,在某种程度上降低了生产本钱。六、针对第四项所阐述的技术方案,是否还有别的替代方案同样能完成发明目的说明:如果有,请尽量写明,内容的提供可以扩大专利的保护X围,防止他人绕过本技术去实现同样的发明目的;所述替代可以是局部结构、器件、方法步骤的替代,也可以是完整的技术方案。文件导入到数据,现在各大数据库连接工具,比如navicat,dbvis等都已实现了其功能,只是需要在建表的情况下才行,而且未实现敏感数据的脱敏工作。七、引证资料说明完本钱技术交底书前,发明人已经掌握的技术资料,例如在构思本专利中所查阅的相关资料,包括专利、论文填写说明:此处仅列明标题和出处,资料全文以电子附件形式提供。提供该资料明确发明人已经投入了一定的智力劳动,有助于提高内部审查效率。无。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1