Retrieval-Augmented Generation for Intelligent Question Answering from OCR-Processed PDFs

Dhankar, Ms.Usha; Kalra, Ms. Preeti; Samanotra, Ms.Agrima; Shriv Astava, Mr.Aaditya

doi:10.5281/zenodo.16445197

ScienceGate Book Chapters

JOURNAL ARTICLE

Retrieval-Augmented Generation for Intelligent Question Answering from OCR-Processed PDFs

Dhankar, Ms.Usha Kalra, Ms. Preeti Samanotra, Ms.Agrima Shriv Astava, Mr.Aaditya

Year: 2025 Journal: Zenodo (CERN European Organization for Nuclear Research) Publisher: European Organization for Nuclear Research

DOI: 10.5281/zenodo.16445197

Get Full-Text PDF Get Analytical Report

Abstract

This research explores the application of Retrieval-Augmented Generation (RAG) for enhancing informationextraction and question-answering tasks from scanned PDF documents using Optical Character Recognition (OCR). Byintegrating a retrieval mechanism with a generative language model, we present a novel framework that intelligently interpretsnoisy, unstructured OCR outputs and enables contextual interaction via natural language queries[1][2]. The approach bridgesthe gap between image-based document archives and intelligent systems, facilitating improved document accessibility in fieldslike legal, academic, and archival research.

Keywords:

Question answering Generative grammar Natural language Character (mathematics) Optical character recognition Natural language generation Document retrieval Natural (archaeology)

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.50

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Handwritten Text Recognition Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Topic Modeling

Physical Sciences → Computer Science → Artificial Intelligence

Retrieval-Augmented Generation for Intelligent Question Answering from OCR-Processed PDFs

Abstract

Metrics

Topics

Related Documents

Retrieval-Augmented Generation for Intelligent Question Answering from OCR-Processed PDFs

A Multimodal Retrieval-Augmented Generation System for Intelligent Question Answering

A multimodal retrieval-augmented generation framework for intelligent campus question answering

Retrieval Augmented Generation Based Thai Question-Answering System

Generation-Augmented Retrieval for Open-Domain Question Answering