🎉 PDF 파일 처리 :: PDF Parser

PDF 파일 처리 :: PDF Parser

2024. 1. 2. 10:58

728x90

아래 글은

Mastering PDFs: Extracting Sections, Headings, Paragraphs, and Tables with Cutting-Edge Parser

Despite recent motivation to utilize NLP for wider range of real world applications, most NLP papers, tasks and pipelines assume raw, clean…

blog.llamaindex.ai

를 요약하여 한글로 표현한 것입니다.

자연어 처리를 위해서 파일 내에 있는 콘텐츠에 접근은 반드시 필요합니다.

많이 사용하는 파일 형태는 PDF 파일이 있습니다.

하지만, PDF파일 내의 Object, 또는 단순하게 글자(text)에 접근하는 것은 아래와 같은 이유로 인해 복잡한 면을 가집니다.

1. Layout Complexity

여러 개의 컬럼(column, 열), 표(table), 이미지(images) 등의 다양한 layer는 구조화된 데이터 추출을 어렵게 합니다.

2. Font Encoding Issues

PDF는 다양한 폰트 인코딩 시스템을 가지고 있으며, 심지어 유니코드와 직접적으로 매핑이 안되는 경우가 있습니다. 이는 정확하게 글자를 추출하는 것을 어렵게 만듭니다.

3. Non-Linear Storage

글자를 우리의 눈에 보이는 형태/순서대로 저장을 하지 않습니다.

4. Inconsistent Use of Spaces

공백이 일관성이 있게 사용되지 않습니다. 또는 전혀 공백을 단어 사이에 사용하지 않는 경우도 있습니다.

LayoutPDFFReader... :: for "Context-Aware' Chunking

Vector search and RAG with Smart Chunking

Key Considerations:

LLMSherpa leverages a cost-free and open API server. Your PDFs are not retained beyond temporary storage during the parsing process.
LayoutPDFReader has undergone extensive testing with a diverse range of PDFs. However, achieving flawless parsing for every PDF remains a challenging task.
Please note that OCR (Optical Character Recognition) functionality is presently unavailable. The tool exclusively supports PDFs equipped with a text layer.

728x90