728x90
반응형

아래 글은 

https://blog.llamaindex.ai/mastering-pdfs-extracting-sections-headings-paragraphs-and-tables-with-cutting-edge-parser-faea18870125

 

Mastering PDFs: Extracting Sections, Headings, Paragraphs, and Tables with Cutting-Edge Parser

Despite recent motivation to utilize NLP for wider range of real world applications, most NLP papers, tasks and pipelines assume raw, clean…

blog.llamaindex.ai

를 요약하여 한글로 표현한 것입니다.

 

자연어 처리를 위해서 파일 내에 있는 콘텐츠에 접근은 반드시 필요합니다.

 

많이 사용하는 파일 형태는 PDF 파일이 있습니다.

 

하지만, PDF파일 내의 Object, 또는 단순하게 글자(text)에 접근하는 것은 아래와 같은 이유로 인해 복잡한 면을 가집니다.

1. Layout Complexity

      여러 개의 컬럼(column, 열), 표(table), 이미지(images) 등의 다양한 layer는 구조화된 데이터 추출을 어렵게 합니다.

2. Font Encoding Issues

      PDF는 다양한 폰트 인코딩 시스템을 가지고 있으며, 심지어 유니코드와 직접적으로 매핑이 안되는 경우가 있습니다. 이는 정확하게 글자를 추출하는 것을 어렵게 만듭니다.

3. Non-Linear Storage

     글자를 우리의 눈에 보이는 형태/순서대로 저장을 하지 않습니다. 

4. Inconsistent Use of Spaces

    공백이 일관성이 있게 사용되지 않습니다.  또는 전혀 공백을 단어 사이에 사용하지 않는 경우도 있습니다.

 

 

LLM의 활용 형태 중 하나인 RAG(Retrieval Augumented Generation(RAG)에서 PDF파일의 사용성은?

LayoutPDFFReader...   :: for "Context-Aware' Chunking

 

Vector search and RAG with Smart Chunking

 

 

Key Considerations:

  1. LLMSherpa leverages a cost-free and open API server. Your PDFs are not retained beyond temporary storage during the parsing process.
  2. LayoutPDFReader has undergone extensive testing with a diverse range of PDFs. However, achieving flawless parsing for every PDF remains a challenging task.
  3. Please note that OCR (Optical Character Recognition) functionality is presently unavailable. The tool exclusively supports PDFs equipped with a text layer.
728x90
반응형

+ Recent posts