Apache POI: Java의 Word 파일에서 텍스트 추출
이 튜토리얼에서는 doc 또는 docx 확장자를 가진 Java에서 Word 파일을 읽는 두 가지 방법과 텍스트 내용을 추출하는 방법을 살펴보겠습니다.시작하기 전에 Apache POI API를 다운로드해야 합니다.
WordExtractor
Apache POI로 .doc Word 파일 읽기는 WordExtractor 전체 Word 파일의 내용을 doc 파일의 각 페이지로 추출할 수 있습니다. 파일의 확장자가 .doc이고 날짜가 MS-Word 97-2003인지 확인하십시오. WordExtractor 클래스를 사용하면 각 페이지의 단락, 표, 머리글 및 바닥글을 포함하여 Word 문서의 모든 텍스트를 추출할 수 있습니다.getParagraphText() 또는 getText() 배열의 각 상자에 String.
클래스 HWPF문서 파일에 대한 재생 스트림을 매개 변수로 허용합니다. 이 클래스는 문서의 전체 구조를 .
import java.io.*;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor를 사용합니다.
public class LireDoc
{
public static void main(String[] args)
{
try
{
파일 파일 = new File("nouveaudoc.doc");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
HWPFDocument document = new HWPFDocument(fis);
WordExtractor 추출기 = new WordExtractor (문서);
문자열[] text = extractor.getParagraphText();
for (int i = 0; i < texte.length; i++)
{
if (texte[i] != null)
System.out.println(texte[i]);
}
}
catch (예외 e)
{
e.printStackTrace();
}
}
}
XWPFWordExtractor를 사용하여 Word .docx 파일 읽기
Microsoft Office 2007 문서는 .docx 형식을 사용하며 정보(텍스트, 스타일, 색, 글꼴 등)를 XML 파일에 저장합니다. 클래스 XWPFWordExtractor 는 OOXML.문자열 텍스트를 가져오려면 XWPFWordExtractor.getText()입니다. .docx 형식이 이전 형식보다 읽기 쉽다는 것은 분명합니다 .doc.
import java.io.*;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
public class ReadDocx
{
public static void main(String[] args)
{
try
{
파일 파일 = 새 파일("nouveaudoc.docx");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
XWPFDocument document = new XWPFDocument(fis);
XWPFWordExtractor 추출기 = new XWPFWordExtractor(document);
문자열 text = extractor.getText();
System.out.println(텍스트);
}
catch (예외 e)
{
e.printStackTrace();
}
}
}