Apache POI:JavaでWordファイルからテキストを抽出する

このチュートリアルでは、拡張子が doc または docx の Word ファイルを Java で読み取る 2 つの異なる方法と、そのテキストコンテンツを抽出する方法を見ていきます。

始める前に、Apache POI API をダウンロードするをダウンロードする必要があります。

WordExtractor

Apache POIで.docされたWordファイルを読み込むは、WordExtractor これにより、Word ファイル全体のコンテンツをドキュメントファイルの各ページに抽出できます。ファイルの拡張子が .doc で、日付が MS-Word 97-2003 であることを確認してください。WordExtractor クラスを使用すると、各ページの段落、表、ヘッダー、フッターなど、Word 文書内のすべてのテキストを抽出できます。

getParagraphText() または getText() は、配列の各ボックスに String 型の段落を含む配列形式で、Word ファイルからテキストを取得します。

クラス HWPFDocument ファイルへの再生ストリームをパラメーターとして受け入れます。このクラスは、ドキュメントの構造全体を in.

import java.io.*;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;

public class LireDoc
{
 public static void main(String[] args)
 {
 try
 {
 File file = new File("nouveaudoc.doc");
 FileInputStream fis = new FileInputStream(file.getAbsolutePath());
 HWPFDocument document = new HWPFDocument(fis);
  WordExtractor抽出器= new WordExtractor(document);
 文字列[] text = extractor.getParagraphText();
 for (int i = 0; i < texte.length; i++)
 {
 if (texte[i] != null)
 System.out.println(texte[i]);
 }
 }
 catch (例外 e)
 {
 e.printStackTrace();
 }
 }
}

XWPFWordExtractor

Microsoft Office 2007 ドキュメントは .docx 形式を使用し、情報 (テキスト、スタイル、色、フォントなど) を XML ファイルに格納します。クラス XWPFWordExtractorは、このファイルからOOXML.

Stringテキストを取得するには、XWPFWordExtractor.getText()です。.docx形式が古い形式よりも読みやすいことは明らかです .doc.

import java.io.*;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class ReadDocx
{
 public static void main(String[] args)
 {
 try
 {
 File file = new File("nouveaudoc.docx");
 FileInputStream fis = new FileInputStream(file.getAbsolutePath());
 XWPFDocument document = new XWPFDocument(fis);
  XWPFWordExtractorエクストラクタ= new XWPFWordExtractor(ドキュメント);
 文字列 text = extractor.getText();
 System.out.println(テキスト);
 }
 catch (例外 e)
 {
 e.printStackTrace();
 }
 }
}

Apache POI:JavaでWordファイルからテキストを抽出する

WordExtractor

XWPFWordExtractor

Commentaires (12)

Connectez-vous pour commenter