Apache POI: Java의 Word 파일에서 텍스트 추출

이 튜토리얼에서는 doc 또는 docx 확장자를 가진 Java에서 Word 파일을 읽는 두 가지 방법과 텍스트 내용을 추출하는 방법을 살펴보겠습니다.

시작하기 전에 Apache POI API를 다운로드해야 합니다.

WordExtractor

Apache POI로 .doc Word 파일 읽기는 WordExtractor 전체 Word 파일의 내용을 doc 파일의 각 페이지로 추출할 수 있습니다. 파일의 확장자가 .doc이고 날짜가 MS-Word 97-2003인지 확인하십시오. WordExtractor 클래스를 사용하면 각 페이지의 단락, 표, 머리글 및 바닥글을 포함하여 Word 문서의 모든 텍스트를 추출할 수 있습니다.

getParagraphText() 또는 getText() 배열의 각 상자에 String.

클래스 HWPF문서 파일에 대한 재생 스트림을 매개 변수로 허용합니다. 이 클래스는 문서의 전체 구조를 .

import java.io.*; 
import org.apache.poi.hwpf.HWPFDocument; 
import org.apache.poi.hwpf.extractor.WordExtractor를 사용합니다. 

public class LireDoc
{
 public static void main(String[] args)
 {
 try
 {
 파일 파일 = new File("nouveaudoc.doc"); 
 FileInputStream fis = new FileInputStream(file.getAbsolutePath()); 
 HWPFDocument document = new HWPFDocument(fis); 
   WordExtractor 추출기 = new WordExtractor (문서); 
 문자열[] text = extractor.getParagraphText(); 
 for (int i = 0; i < texte.length; i++)
 {
 if (texte[i] != null)
 System.out.println(texte[i]); 
 }
 }
 catch (예외 e)
 {
 e.printStackTrace(); 
 }
 }
}

XWPFWordExtractor를 사용하여 Word .docx 파일 읽기

Microsoft Office 2007 문서는 .docx 형식을 사용하며 정보(텍스트, 스타일, 색, 글꼴 등)를 XML 파일에 저장합니다. 클래스 XWPFWordExtractor 는 OOXML.

문자열 텍스트를 가져오려면 XWPFWordExtractor.getText()입니다. .docx 형식이 이전 형식보다 읽기 쉽다는 것은 분명합니다 .doc.

import java.io.*; 
import org.apache.poi.xwpf.extractor.XWPFWordExtractor; 
import org.apache.poi.xwpf.usermodel.XWPFDocument; 

public class ReadDocx
{
 public static void main(String[] args)
 {
 try
 {
 파일 파일 = 새 파일("nouveaudoc.docx"); 
 FileInputStream fis = new FileInputStream(file.getAbsolutePath()); 
 XWPFDocument document = new XWPFDocument(fis); 
   XWPFWordExtractor 추출기 = new XWPFWordExtractor(document); 
 문자열 text = extractor.getText(); 
 System.out.println(텍스트); 
 }
 catch (예외 e)
 {
 e.printStackTrace(); 
 }
 }
}

Apache POI: Java의 Word 파일에서 텍스트 추출

WordExtractor

XWPFWordExtractor를 사용하여 Word .docx 파일 읽기

Commentaires (12)

Connectez-vous pour commenter