POI读取EXCEL教程Word格式.docx

上传人:b****5 文档编号:21297779 上传时间:2023-01-29 格式:DOCX 页数:14 大小:25.58KB
下载 相关 举报
POI读取EXCEL教程Word格式.docx_第1页
第1页 / 共14页
POI读取EXCEL教程Word格式.docx_第2页
第2页 / 共14页
POI读取EXCEL教程Word格式.docx_第3页
第3页 / 共14页
POI读取EXCEL教程Word格式.docx_第4页
第4页 / 共14页
POI读取EXCEL教程Word格式.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

POI读取EXCEL教程Word格式.docx

《POI读取EXCEL教程Word格式.docx》由会员分享,可在线阅读,更多相关《POI读取EXCEL教程Word格式.docx(14页珍藏版)》请在冰豆网上搜索。

POI读取EXCEL教程Word格式.docx

  二、HSSF概况

  POI项目实现的Excel97文件格式称为HSSF——也许你已经猜到,HSSF是HorribleSpreadSheetFormat的缩写,也即“讨厌的电子表格格式”(微软使某些原本简单的事情过分复杂,同时又过分简单地处理了某些原本需要灵活性的事情,让人不胜佩服!

)也许HSSF的名字有点滑稽,就本质而言它是一个非常严肃、正规的API。

通过HSSF,你可以用纯Java代码来读取、写入、修改Excel文件。

  前面一篇文章提到了POIFS,那么HSSF和POIFS又有什么关系呢?

就象其他POI的API一样,HSSF建立在POIFS的基础上,因此在HSSF内的有些代码和前文的某些代码很相似。

不过,当我们编写基于HSSFAPI的代码时,一般不需要了解POIFSAPI的细节。

  HSSF为读取操作提供了两类API:

usermodel和eventusermodel,即“用户模型”和“事件-用户模型”。

前者很好理解,后者比较抽象,但操作效率要高得多。

usermodel主要有org.apache.poi.hssf.usermodel和org.apache.poi.hssf.eventusermodel包实现(在HSSF的早期版本中,org.apache.poi.hssf.eventusermodel属于eventmodel包)。

  usermodel包把Excel文件映射成我们熟悉的结构,诸如Workbook、Sheet、Row、Cell等,它把整个结构以一组对象的形式保存在内存之中。

eventusermodel要求用户熟悉文件格式的底层结构,它的操作风格类似于XML的SAXAPI和AWT的事件模型(这就是eventusermodel名称的起源),要掌握窍门才能用好。

另外,eventusermodel的API只提供读取文件的功能,也就是说不能用这个API来修改文件。

  三、通过usermodel读取文件

  用HSSF的usermodel读取文件很简单。

首先创建一个InputStream,然后创建一个HSSFWorkbook:

InputStreammyxls=newFileInputStream("

workbook.xls"

));

HSSFWorkbookwb 

 

=newHSSFWorkbook(myxls);

  有了HSSFWorkbook实例,接下来就可以提取工作表、工作表的行和列,例如:

HSSFSheetsheet=wb.getSheetAt(0);

//第一个工作表

HSSFRowrow 

=sheet.getRow

(2);

//第三行

HSSFCellcell 

=row.getCell((short)3);

//第四个单元格

  上面这段代码提取出第一个工作表第三行第四单元格。

利用单元格对象可以获得它的值,提取单元格的值时请注意它的类型:

if(cell.getCellType()==HSSFCell.CELL_TYPE_STRING){

("

单元格是字符串,值是:

"

+cell.getStringCellValue());

}elseif(cell.getCellType()==HSSFCell.CELL_TYPE_NUMERIC){

单元格是数字,值是:

+cell.getCellValue());

}else(){

单元格的值不是字符串或数值。

"

);

}

  如果搞错了数据类型,程序将遇到异常。

特别地,用HSSF处理日期数据要小心。

Excel内部以数值的形式保存日期数据,区别日期数据的唯一办法是通过单元格的格式(如果你曾经在Excel中设置过日期格式,应该明白这是什么意思)。

  因此,对于包含日期数据的单元格,cell.getCellType()将返回HSSFCell.CELL_TYPE_NUMERIC,不过利用工具函数HSSFDateUtil.isCellDateFormatted(cell)可以判断出单元格的值是否为日期。

isCellDateFormatted函数通过比较单元格的日期和Excel的内置日期格式得出结论——可以想象,按照这种判断方法,很多时候isCellDateFormatted函数会返回否定的结论,存在一定的误判可能。

  本文附录包含了一个在Servlet环境中利用HSSF创建和返回Excel工作簿的实例。

  四、通过usermodel写入文件

  写入XLS文件比读取XLS文件还要简单。

创建一个HSSFWorkbook实例,然后在适当的时候创建一个把文件写入磁盘的OutputStream,但延迟到处理结束时创建OutputStream也可以:

HSSFWorkbookwb=newHSSFWorkbook();

FileOutputStreamfileOut

  =newFileOutputStream("

wb.write(fileOut);

fileOut.close();

  创建工作表及其内容必须从相应的父对象出发,例如:

HSSFSheetsheet=wb.createSheet();

=sheet.createRow((short)0);

=row.createCell((short)0);

cell.setCellValue

(1);

row.createCell((short)1).setCellValue(1.2);

row.createCell((short)2).setCellValue("

一个字符串"

row.createCell((short)3).setCellValue(true);

  如果要设置单元格的样式,首先要创建一个样式对象,然后把它指定给一个单元格——或者把它指定给多个具有相同样式的单元格,例如,如果Excel表格中有一个摘要行,摘要行的数据必须是粗体、斜体,你可以创建一个summaryRowStyle样式对象,然后把这个样式指定给所有摘要行上的单元格。

  注意,CellFormat和CellStyle对象是工作簿对象的成员,单元格对象只是引用它们。

...

HSSFCellStylestyle=workbook.createCellStyle();

style.setDataFormat

  (HSSFDataFormat.getBuiltinFormat("

($#,##0_);

[Red]($#,##0)"

style.setFillBackgroundColor(HSSFColor.AQUA.index);

style.setFillPattern(HSSFCellStyle.BIG_SPOTS);

someCell.setCellStyle(style);

someOtherCell.setCellStyle(style);

  版本较新的HSSF允许使用数量有限的Excel公式。

这一功能目前还是“Beta级质量”,正式使用之前务必仔细测试。

指定公式的方式类如:

someCell.setCellFormula(SUM(A1:

A2:

  当前,公式中已经可以调用所有内建的函数或操作符,但逻辑操作符和函数(例如IF函数)除外,这部分功能目前还在开发之中。

  五、通过eventusermodel读取文件

  通过eventusermodel读取文件要比使用usermodel复杂得多,但效率也要高不少,因为它要求应用程序一边读取数据,一边处理数据。

eventusermodel实际上模拟了DOM环境下SAX处理XML文档的办法,应用程序首先要注册期望处理的数据,eventusermodel将在遇到匹配的数据结构时回调应用程序注册的方法。

使用eventusermodel最大的困难在于你必须熟悉Excel工作簿的内部结构。

  在HSSF中,低层次的二进制结构称为记录(Record)。

记录有不同的类型,每一种类型由org.apache.poi.hssf.record包中的一个Java类描述。

例如,BOFRecord记录表示Workbook或Sheet区域的开始,RowRecord表示有一个行存在并保存其样式信息。

所有具有CellValueRecordInterface接口的记录表示Excel的单元格,包括NumericRecord、LabelSSTRecord和FormulaRecord(还有其他一些,其中部分已被弃置不用,部分用于优化处理,但一般而言,HSSF可以转换它们)。

  下面是一个注册事件处理句柄的例子:

privateEventRecordFactoryfactory=newEventRecordFactory();

factory.registerListener(newERFListener(){

publicbooleanprocessRecord(Recordrec){

(gotBOFRecord);

returntrue;

}

},newshort[]{BOFRecord.sid});

factory.processRecords(someInputStream);

  六、HSSF电子表格结构

  如前所述,HSSF建立在POIFS的基础上。

具体地说,Excel97+文件是OLE2复合文档(OLE2CompoundDocument),底层的OLE2复合文档保存了一个总是命名为Workbook(Excel95除外,HSSF不支持Excel95)的流。

然而,宏和图片并不保存在Workbook流,它们有自己独立的流,有时甚至会放到OLE2CDF文件之内的另一个目录。

理想情况下,宏也应该被保留,不过目前POI项目中还没有合适的API来处理宏。

  每一个流之内是一组记录,一个记录其实就是一个字节数组,可分为记录头、记录体两部分。

记录头指明了记录的类型(也即ID)以及后继数据的长度,记录体被分割成多个字段(Field),字段包含数值数据(包括对其他记录的引用)、字符数据或标记。

  下图概要说明了Excel工作簿的顶级结构:

Bla.xls{

OLE2CDFheaders

Workbook"

stream{

Workbook{

StaticStringTableRecord..

Sheetnames…andpointers

}

Sheet{

ROW

NUMBERRECORD(cell)

LABELSSTRecord(cell)

Sheet

…images,macros,etc.

DocumentSummary

Summary

  七、通过HPSF读取文档属性

  在MicrosoftWord、Excel、PowerPoint等软件中,用户可以通过“文件”→“属性”菜单给文档添加附加信息,包括文档的标题、主题、摘要、类别、关键词等,同时应用软件本身还会加入最后访问的用户、最后访问和修改/打印的日期时间等信息。

  文档的属性和正文是分开保存的。

如前所述,OLE2CDF文件内部就象是一个容器,里面包含许多类似目录和文件的结构,而POIFS就是用来访问其中的文件的工具。

这些文件也称为流,文档的属性就保存在POIFS文件系统中专用的流里面。

以一个Word文档为例:

虽然在资源管理器中你只看到一个叫做MyFile.doc的文档,其实在这个文档的内部,又包含了一个WordDocument、一个SummaryInformation和一个DocumentSummaryInformation文档;

通常还会有其他的文档,这里暂且不管。

  你能够猜出这些文档(流)分别包含什么内容吗?

不错,WordDocument包含了你在Word里面编辑的文本,文档的属性保存在SummaryInformation和DocumentSummaryInformation流里面。

也许将所有属性保存在单个文档里面看起来太简单了,所以Microsoft决心要使用两个流,为了使事情更复杂一点,这两个流的名字前面还加上了八进制的\005字符——这是一个不可打印的字符,因此前面就把它省略了。

  Microsoft定义的标准属性有一个好处,它们并不在乎主文档到底是什么类型——不管是Word文档、Excel工作簿还是PowerPoint幻灯。

只要你知道如何读取Excel文档的属性,就知道了如何读取其他文档的属性。

  读取文档属性其实并不复杂,因为Java程序可以利用POI项目的HPSF包。

HPSF是HorriblePropertySetFormat的缩写,译成中文就是“讨厌的属性集格式”。

HPSF包是POI项目实现的读取属性工具,目前还不支持属性写入。

  对于读取Microsoft定义的标准属性,通过HPSF提供的API可以很方便地办到;

但如果要读取任意属性集就要用到更一般化的API,可以想象它要比读取标准属性的API复杂不少。

本文只介绍读取标准属性的简单API,因为对大多数应用程序来说这已经完全足够了。

  下面就是一个读取OLE2CDF文档的标题(title)属性的Java程序:

importjava.io.*;

importorg.apache.poi.hpsf.*;

importorg.apache.poi.poifs.eventfilesystem.*;

/**

*读取OLE2文档标题的示例程序,

*在命令行参数中指定文档的文件名字。

*/

publicclassReadTitle

{

publicstaticvoidmain(String[]args)throwsIOException

{

finalStringfilename=args[0];

POIFSReaderr 

=newPOIFSReader();

r.registerListener(newMyPOIFSReaderListener(),

\005SummaryInformation"

r.read(newFileInputStream(filename));

staticclassMyPOIFSReaderListener

    implementsPOIFSReaderListener

publicvoidprocessPOIFSReaderEvent(POIFSReaderEventevent)

SummaryInformationsi=null;

try

si=(SummaryInformation)

PropertySetFactory.create(event.getStream());

catch(Exceptionex)

thrownewRuntimeException

属性集流\"

+event.getPath()+

event.getName()+"

\"

:

+ex);

finalStringtitle=si.getTitle();

if(title!

=null)

System.out.println("

标题:

\"

+title+"

else

该文档没有标题."

  main()方法利用POIFS的事件系统从命令行指定的OLE2文档读取名为\005SummaryInformation的流,当POIFSReader遇到这个流时,它把控制传递给MyPOIFSReaderListener的processPOIFSReaderEvent()方法。

processPOIFSReaderEvent()到底有什么用呢?

它通过参数获得一个输入流,该输入流包含了文档标题等属性。

为了访问文档的属性,我们从输入流创建一个PropertySet实例,如下所示:

si=(SummaryInformation)PropertySetFactory.create(event.getStream());

  这个语句其实包含三个步骤的操作:

  ◆event.getStream()从POIFSReader传入的POIFSReaderEvent获得输入流。

  ◆以刚才获得的输入流为参数,调用PropertySetFactory的静态方法create()。

正如其名字所暗示的,PropertySetFactory是一个工厂类,它有一台“机器”能够把一个输入流转换成一个PropertySet实例,这台机器就是create()方法。

  ◆把create()方法返回的PropertySet定型(cast)成为SummaryInformation。

PropertySet提供了按照一般办法读取属性集的各种机制,SummaryInformation是PropertySet的子类,即SummaryInformation类在PropertySet类的基础上增加了操作Microsoft标准属性的便捷方法。

  在这个处理过程中,可能引起错误的因素很多,因此我们把这部分内容放入了一个try块——不过这个示例程序只按照最简单的方式处理了异常,在实际应用中,最好能够对可能出现的不同异常类型分别处理。

除了一般的I/O异常之外,还有可能遇到HPSF特有的异常,例如,如果输入流不包含属性集或属性集非法,就会抛出NoPropertySetStreamException异常。

  有一种错误不太常见,但也不是绝无可能——\005SummaryInformation包含一个合法的属性集,但不是摘要信息属性集。

如果出现这种情况,则定型成SummaryInformation操作会失败,引发ClassCastException异常。

  获得SummaryInformation实例之后,剩下的事情就很简单了,只要调用getTitle()方法,然后输出结果。

  除了getTitle()之外,SummaryInformation还包含其他一些便捷方法,例如getApplicationName()、getAuthor()、getCharCount()、和getCreateDateTime()等。

HPSF的JavaDoc文档详细说明了所有这些方法。

  八、文档摘要信息

  遗憾的是,并非所有的属性都保存在摘要信息属性集之中。

许多(但不是全部)OLE2文件还有另一个属性集,称为“文档摘要信息”,对应的流是\005DocumentSummaryInformation。

这个属性集保存的属性包括文档的类别、PowerPoint幻灯的多媒体剪辑数量,等等。

  要访问文档摘要信息属性集,程序的处理过程也和上例相似,只是注册的目标应该改成\005DocumentSummaryInformation流——有时,你可能想要同时注册到摘要信息和文档摘要信息这两个流。

其余的处理方式和前面的例子差不多,你应该把包含文档摘要信息的流传递给PropertySetFactory.create(),但这次工厂方法将返回一个DocumentSummaryInformation对象(而不是前面例子中的SummaryInformation对象)。

如果同时注册到了两个流,注意检查返回值的具体类型,或者使用Java的instanceof操作符,或者使用专用的isSummaryInformation()和isDocumentSummaryInformation()方法。

记住,create()方法返回的总是一个PropertySet对象,因此你总是可以对create()返回对象调用isSummaryInformation()和isDocumentSummaryInformation()方法,PropertySet类之所以要提供这两个方法,是因为属性集可能是自定义的。

  如果你想要处理自定义的属性集,或者

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1