Apache POI: Java의 Word 파일에서 텍스트 추출

이 튜토리얼에서는 doc 또는 docx 확장자를 가진 Java에서 Word 파일을 읽는 두 가지 방법과 텍스트 내용을 추출하는 방법을 살펴보겠습니다.

시작하기 전에 Apache POI API를 다운로드해야 합니다.

WordExtractor

Apache POI로 .doc Word 파일 읽기는 WordExtractor  전체 Word 파일의 내용을 doc 파일의 각 페이지로 추출할 수 있습니다. 파일의 확장자가 .doc이고 날짜가 MS-Word 97-2003인지 확인하십시오. WordExtractor 클래스를 사용하면 각 페이지의 단락, 표, 머리글 및 바닥글을 포함하여 Word 문서의 모든 텍스트를 추출할 수 있습니다.

getParagraphText() 또는 getText() 배열의 각 상자에 String.

클래스  HWPF문서  파일에 대한 재생 스트림을 매개 변수로 허용합니다. 이 클래스는 문서의 전체 구조를 .

import java.io.*; 
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor를 사용합니다.

public class LireDoc
{
public static void main(String[] args)
{
try
{
파일 파일 = new File("nouveaudoc.doc");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
HWPFDocument document = new HWPFDocument(fis);
  WordExtractor 추출기 = new WordExtractor (문서);
문자열[] text = extractor.getParagraphText();
for (int i = 0; i < texte.length; i++)
{
if (texte[i] != null)
System.out.println(texte[i]);
}
}
catch (예외 e)
{
e.printStackTrace();
}
}
}

XWPFWordExtractor를 사용하여 Word .docx 파일 읽기

Microsoft Office 2007 문서는 .docx 형식을 사용하며 정보(텍스트, 스타일, 색, 글꼴 등)를 XML 파일에 저장합니다. 클래스  XWPFWordExtractorOOXML.

문자열 텍스트를 가져오려면 XWPFWordExtractor.getText()입니다. .docx 형식이 이전 형식보다 읽기 쉽다는 것은 분명합니다 .doc.

import java.io.*; 
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class ReadDocx
{
public static void main(String[] args)
{
try
{
파일 파일 = 새 파일("nouveaudoc.docx");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
XWPFDocument document = new XWPFDocument(fis);
  XWPFWordExtractor 추출기 = new XWPFWordExtractor(document);
문자열 text = extractor.getText();
System.out.println(텍스트);
}
catch (예외 e)
{
e.printStackTrace();
}
}
}