Apache POI：在 Java 中从 Word 文件中提取文本

在本教程中，我们将介绍在 java 中读取具有 doc 或 docx 扩展名的 Word 文件的两种不同方法，以及如何提取其文本内容。

在开始之前，您需要< href=https://www.iotools.net/download/java-apis/apache-poi” rel=” target=_blank”>下载 Apache POI API。

使用 WordExtractor.doc读取 Word 文件

Apache POI使用 WordExtractor 它允许将整个 Word 文件的内容提取到 doc 文件的每一页中。请确保该文件具有 .doc 扩展名和日期 MS-Word 97-2003。WordExtractor 类允许您提取 Word 文档中的所有文本，包括每页中的段落、表格、页眉和页脚。

您必须使用 getParagraphText（） 或 getText（） 以数组的形式从 Word 文件中检索文本，其中数组中的每个框都包含 String.

类 HWPF文档 接受对文件的播放流作为参数。当我们把文档的整个结构放在.

import java.io.*;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;

public class LireDoc
{
 public static void main（String[] args）
 {
 try
 {
 File file = new File（nouveaudoc.doc”）;
 FileInputStream fis = new FileInputStream（file.getAbsolutePath（））;
 HWPFDocument 文档 = 新的 HWPFDocument（fis）;
  WordExtractor 提取器 = new WordExtractor（document）;
 String[] 文本 = extractor.getParagraphText（）;
 for （int i = 0; i < texte.length; i++）
 {
 if （texte[i] ！= null）
 System.out.println（texte[i]）;
 }
 }
 catch （异常 e）
 {
 e.printStackTrace（）;
 }
 }
}

使用 XWPFWordExtractor

读取 Word Microsoft.docx 文件 Office 2007 文档使用 .docx 格式，并将信息（文本、样式、颜色、字体等）存储在 XML 文件中。班级 XWPFWordExtractor 用于从此名为 OOXML.

要获取 String 文本，请调用 XWPFWordExtractor.getText（）。很明显，.docx格式比旧格式更容易阅读 .doc.

import java.io.*;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class ReadDocx
{
 public static void main（String[] args）
 {
 try
 {
 File file = new File（nouveaudoc.docx”）;
 FileInputStream fis = new FileInputStream（file.getAbsolutePath（））;
 XWPFDocument 文档 = 新的 XWPFDocument（fis）;
  XWPFWordExtractor 提取器 = new XWPFWordExtractor（document）;
 字符串文本 = extractor.getText（）;
 System.out.println（文本）;
 }
 catch （异常 e）
 {
 e.printStackTrace（）;
 }
 }
}

Apache POI：在 Java 中从 Word 文件中提取文本

使用 WordExtractor.doc读取 Word 文件

使用 XWPFWordExtractor

Commentaires (0)

Laisser un commentaire

Connectez-vous pour commenter