Apache POI:JavaでWordファイルからテキストを抽出する
このチュートリアルでは、拡張子が doc または docx の Word ファイルを Java で読み取る 2 つの異なる方法と、そのテキストコンテンツを抽出する方法を見ていきます。始める前に、Apache POI API をダウンロードする
WordExtractor
Apache POIで.docされたWordファイルを読み込むは、WordExtractor これにより、Word ファイル全体のコンテンツをドキュメント ファイルの各ページに抽出できます。ファイルの拡張子が .doc で、日付が MS-Word 97-2003 であることを確認してください。WordExtractor クラスを使用すると、各ページの段落、表、ヘッダー、フッターなど、Word 文書内のすべてのテキストを抽出できます。getParagraphText() または getText() は、配列の各ボックスに String 型の段落を含む配列形式で、Word ファイルからテキストを取得します。
クラス HWPFDocument ファイルへの再生ストリームをパラメーターとして受け入れます。このクラスは、ドキュメントの構造全体を in.
import java.io.*;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class LireDoc
{
public static void main(String[] args)
{
try
{
File file = new File("nouveaudoc.doc");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
HWPFDocument document = new HWPFDocument(fis);
WordExtractor抽出器= new WordExtractor(document);
文字列[] text = extractor.getParagraphText();
for (int i = 0; i < texte.length; i++)
{
if (texte[i] != null)
System.out.println(texte[i]);
}
}
catch (例外 e)
{
e.printStackTrace();
}
}
}
XWPFWordExtractor
Microsoft Office 2007 ドキュメントは .docx 形式を使用し、情報 (テキスト、スタイル、色、フォントなど) を XML ファイルに格納します。クラス XWPFWordExtractorは、このファイルからOOXML.Stringテキストを取得するには、XWPFWordExtractor.getText()です。.docx形式が古い形式よりも読みやすいことは明らかです .doc.
import java.io.*;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
public class ReadDocx
{
public static void main(String[] args)
{
try
{
File file = new File("nouveaudoc.docx");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
XWPFDocument document = new XWPFDocument(fis);
XWPFWordExtractorエクストラクタ= new XWPFWordExtractor(ドキュメント);
文字列 text = extractor.getText();
System.out.println(テキスト);
}
catch (例外 e)
{
e.printStackTrace();
}
}
}