当前位置: 首页 > 图文教程 > Java技术 > Java Web开发 > 用POI来读取/写入完整的Excel文件(二)

Java Web开发
孙鑫老师原创:XML Schema初窥(二)
Java开源技术:J2EE应用服务器
用java开发Email工具之发送邮件
Java数据库程序中的存储过程设计
JAVA IO 设计模式彻底分析
Java Web开发:Java模式设计之单例模式(一)
Java Web开发:Java模式设计之单例模式(二)
Java Web开发:基于JVM的语言正在开始流行
Java Web开发:Java语言的十大问题,你能解决吗?
Java Web开发:Struts2 中.action和.do的奥秘
Java web:孙鑫老师谈Servlet的线程模型
java Web开发:孙鑫老师谈Session和Cookie的深入研究
Java Web开发:在线人数统计程序
Java Web开发:小编概述JSP技术
Java Web开发:FreeMarker模板使用方法讲解
Java Web开发:Tomcat和IIS的配合
Java Web开发:小编谈JFreeChart统计柱形图表事例
Java Web开发:程序员之家七月份Java Web开发总结
Java Web开发:Tomcat和Apache的配合
Java Web开发:iBATIS延迟加载的那点事

Java Web开发 中的 用POI来读取/写入完整的Excel文件(二)


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2010-01-23   浏览: 433 ::
收藏到网摘: n/a

六、HSSF电子表格结构

  

  如前所述,HSSF建立在POIFS的基础上。具体地说,Excel 97+文件是OLE 2复合文档( OLE 2 Compound Document),底层的OLE 2复合文档保存了一个总是命名为WorkbookExcel 95除外,HSSF不支持Excel 95)的流。

  

  然而,宏和图片并不保存在Workbook流,它们有自己独立的流,有时甚至会放到OLE 2 CDF文件之内的另一个目录。理想情况下,宏也应该被保留,不过目前POI项目中还没有合适的API来处理宏。

  

  每一个流之内是一组记录,一个记录其实就是一个字节数组,可分为记录头、记录体两部分。记录头指明了记录的类型(也即ID)以及后继数据的长度,记录体被分割成多个字段(Field),字段包含数值数据(包括对其他记录的引用)、字符数据或标记。

  

  Excel工作簿的顶级结构:

  

  Bla.xls {

  OLE2CDF headers

  "Workbook" stream {

  Workbook {

  Static String Table Record..

  Sheet names and pointers

  }

  Sheet {

  ROW

  ROW

  …

  NUMBER RECORD (cell)

  LABELSST Record (cell)

  …

  }

  Sheet

  }

  }

  … images, macros, etc.

  Document Summary

  Summary

  

  七、通过HPSF读取文档属性

  

  在Microsoft WordExcelPowerPoint等软件中,用户可以通过“文件”→“属性”菜单给文档添加附加信息,包括文档的标题、主题、摘要、类别、关键词等,同时应用软件本身还会加入最后访问的用户、最后访问和修改/打印的日期时间等信息。

  

  文档的属性和正文是分开保存的。如前所述,OLE 2 CDF文件内部就象是一个容器,里面包含许多类似目录和文件的结构,而POIFS就是用来访问其中的文件的工具。这些文件也称为流,文档的属性就保存在POIFS文件系统中专用的流里面。

  

  以一个Word文档为例:虽然在资源管理器中你只看到一个叫做MyFile.doc的文档,其实在这个文档的内部,又包含了一个WordDocument、一个SummaryInformation和一个DocumentSummaryInformation文档;通常还会有其他的文档,这里暂且不管。

  

  你能够猜出这些文档(流)分别包含什么内容吗?不错,WordDocument包含了你在Word里面编辑的文本,文档的属性保存在SummaryInformationDocumentSummaryInformation流里面。也许将所有属性保存在单个文档里面看起来太简单了,所以Microsoft决心要使用两个流,为了使事情更复杂一点,这两个流的名字前面还加上了八进制的\005字符??这是一个不可打印的字符,因此前面就把它省略了。

  

  Microsoft定义的标准属性有一个好处,它们并不在乎主文档到底是什么类型??不管是Word文档、Excel工作簿还是PowerPoint幻灯。只要你知道如何读取Excel文档的属性,就知道了如何读取其他文档的属性。

  

  读取文档属性其实并不复杂,因为Java程序可以利用POI项目的HPSF包。HPSF Horrible Property Set Format的缩写,译成中文就是“讨厌的属性集格式”。HPSF包是POI项目实现的读取属性工具,目前还不支持属性写入。

  

  对于读取Microsoft定义的标准属性,通过HPSF提供的API可以很方便地办到;但如果要读取任意属性集就要用到更一般化的API,可以想象它要比读取标准属性的API复杂不少。本文只介绍读取标准属性的简单API,因为对大多数应用程序来说这已经完全足够了。

  

  下面就是一个读取OLE 2 CDF文档的标题(title)属性的Java程序:

  

  import java.io.*;

  import org.apache.poi.hpsf.*;

  import org.apache.poi.poifs.eventfilesystem.*;

  

  /**

  * 读取OLE 2文档标题的示例程序,

  * 在命令行参数中指定文档的文件名字。

  */

  

  public class ReadTitle

  {

  public static void main(String[] args) throws IOException

  {

  final String filename = args[0];

  POIFSReader r     = new POIFSReader();

  r.registerListener(new MyPOIFSReaderListener(),

  "\005SummaryInformation");

  r.read(new FileInputStream(filename));

  }

  

  static class MyPOIFSReaderListener

  implements POIFSReaderListener

  {

  public void processPOIFSReaderEvent(POIFSReaderEvent event)

  {

  SummaryInformation si = null;

  try

  {

  si = (SummaryInformation)

  PropertySetFactory.create(event.getStream());

  }

  catch (Exception ex)

  {

  throw new RuntimeException

  ("属性集流\"" + event.getPath() +

  event.getName() + "\": " + ex);

  }

  

  final String title = si.getTitle();

  

  if (title != null)

  System.out.println("标题: \"" + title + "\"");

  else

  System.out.println("该文档没有标题.");

  }

  }

  }

 

  main()方法利用POIFS的事件系统从命令行指定的OLE 2文档读取名为\005SummaryInformation的流,当POIFSReader 遇到这个流时,它把控制传递给MyPOIFSReaderListenerprocessPOIFSReaderEvent()方法。

 

  

  processPOIFSReaderEvent()到底有什么用呢?它通过参数获得一个输入流,该输入流包含了文档标题等属性。为了访问文档的属性,我们从输入流创建一个PropertySet实例,如下所示:

  

  si = (SummaryInformation) PropertySetFactory.create(event.getStream());

  

  这个语句其实包含三个步骤的操作:

  

  ◆ event.getStream()POIFSReader传入的POIFSReaderEvent获得输入流。

  

  ◆ 以刚才获得的输入流为参数,调用PropertySetFactory的静态方法create()。正如其名字所暗示的,PropertySetFactory是一个工厂类,它有一台“机器”能够把一个输入流转换成一个PropertySet实例,这台机器就是create()方法。

  

  ◆ create()方法返回的PropertySet定型(cast)成为SummaryInformationPropertySet提供了按照一般办法读取属性集的各种机制,SummaryInformationPropertySet的子类,即SummaryInformation类在PropertySet类的基础上增加了操作Microsoft标准属性的便捷方法。

  

  在这个处理过程中,可能引起错误的因素很多,因此我们把这部分内容放入了一个try块,不过这个示例程序只按照最简单的方式处理了异常,在实际应用中,最好能够对可能出现的不同异常类型分别处理。

  

  除了一般的I/O异常之外,还有可能遇到HPSF特有的异常,例如,如果输入流不包含属性集或属性集非法,就会抛出NoPropertySetStreamException异常。

  

  有一种错误不太常见,但也不是绝无可能\005SummaryInformation包含一个合法的属性集,但不是摘要信息属性集。如果出现这种情况,则定型成SummaryInformation操作会失败,引发ClassCastException异常。

  

  获得SummaryInformation实例之后,剩下的事情就很简单了,只要调用getTitle()方法,然后输出结果。

  

  除了getTitle()之外,SummaryInformation还包含其他一些便捷方法,例如getApplicationName()getAuthor()getCharCount()、和getCreateDateTime()等。HPSFJavaDoc文档详细说明了所有这些方法。

  

  八、文档摘要信息

  

  遗憾的是,并非所有的属性都保存在摘要信息属性集之中。许多(但不是全部)OLE 2文件还有另一个属性集,称为“文档摘要信息”,对应的流是\005DocumentSummaryInformation。这个属性集保存的属性包括文档的类别、PowerPoint幻灯的多媒体剪辑数量,等等。

  

  要访问文档摘要信息属性集,程序的处理过程也和上例相似,只是注册的目标应该改成\005DocumentSummaryInformation有时,你可能想要同时注册到摘要信息和文档摘要信息这两个流。其余的处理方式和前面的例子差不多,你应该把包含文档摘要信息的流传递给PropertySetFactory.create(),但这次工厂方法将返回一个DocumentSummaryInformation对象(而不是前面例子中的SummaryInformation对象)。

  

  如果同时注册到了两个流,注意检查返回值的具体类型,或者使用Javainstanceof操作符,或者使用专用的isSummaryInformation()isDocumentSummaryInformation()方法。记住,create()方法返回的总是一个PropertySet对象,因此你总是可以对create()返回对象调用isSummaryInformation()isDocumentSummaryInformation()方法,PropertySet类之所以要提供这两个方法,是因为属性集可能是自定义的。

  

  如果你想要处理自定义的属性集,或者要从标准的属性集读取用户定义的属性,必须使用一个更一般化的API,前面已经提到,这个API要复杂得多,本文不再讨论,请参见HPSFHOW-TO文档和POI的文档。

  

  结束语:本文探讨了HSSF的应用以及如何输出到Excel文件,另外还涉及了HPSF以及如何读取属性集文档摘要信息。POI是一个功能非常强大的项目,许多主题本文尚未涉及,例如如何用HSSF SerializerXML文档转换成Excel格式等,这一切仍有待您去研究了。