Apache POI:在 Java 中从 Word 文件中提取文本
在本教程中,我们将介绍在 java 中读取具有 doc 或 docx 扩展名的 Word 文件的两种不同方法,以及如何提取其文本内容。在开始之前,您需要< href=https://www.iotools.net/download/java-apis/apache-poi” rel=” target=_blank”>下载 Apache POI API。
使用 WordExtractor.doc读取 Word 文件
Apache POI使用 WordExtractor 它允许将整个 Word 文件的内容提取到 doc 文件的每一页中。请确保该文件具有 .doc 扩展名和日期 MS-Word 97-2003。WordExtractor 类允许您提取 Word 文档中的所有文本,包括每页中的段落、表格、页眉和页脚。您必须使用 getParagraphText() 或 getText() 以数组的形式从 Word 文件中检索文本,其中数组中的每个框都包含 String.
类 HWPF文档 接受对文件的播放流作为参数。当我们把文档的整个结构放在.
import java.io.*;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class LireDoc
{
public static void main(String[] args)
{
try
{
File file = new File(nouveaudoc.doc”);
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
HWPFDocument 文档 = 新的 HWPFDocument(fis);
WordExtractor 提取器 = new WordExtractor(document);
String[] 文本 = extractor.getParagraphText();
for (int i = 0; i < texte.length; i++)
{
if (texte[i] != null)
System.out.println(texte[i]);
}
}
catch (异常 e)
{
e.printStackTrace();
}
}
}
使用 XWPFWordExtractor
读取 Word Microsoft.docx 文件 Office 2007 文档使用 .docx 格式,并将信息(文本、样式、颜色、字体等)存储在 XML 文件中。班级 XWPFWordExtractor 用于从此名为 OOXML.要获取 String 文本,请调用 XWPFWordExtractor.getText()。很明显,.docx格式比旧格式更容易阅读 .doc.
import java.io.*;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
public class ReadDocx
{
public static void main(String[] args)
{
try
{
File file = new File(nouveaudoc.docx”);
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
XWPFDocument 文档 = 新的 XWPFDocument(fis);
XWPFWordExtractor 提取器 = new XWPFWordExtractor(document);
字符串文本 = extractor.getText();
System.out.println(文本);
}
catch (异常 e)
{
e.printStackTrace();
}
}
}