OCR Tool

OCR application for text recognition from images using Tesseract.

Features

Text recognition from images (PNG, JPG, JPEG, TIFF, BMP)
Text recognition from PDF files
Web interface for file upload
Language selection for recognition (English, Russian)
Export result (copy, download)

Docker

docker build -t ocr-tool .
docker run -p 8080:8080 ocr-tool

Open http://localhost:8080

Or local run (needs java 17 & maven installed)

mvn exec:java -D"exec.mainClass=com.github.dkrut.WebServer"

Web Interface Usage

Select file (drag & drop or "Select File" button)
Select language(s) - English, Russian
Click "Start OCR"
Copy or download result

Architecture

Classes

Ocr - image processing via Tesseract (grayscale preprocessing)
PdfConverter - PDF to PNG conversion
WebServer - web interface (Javalin)

Processing Flow

File uploaded via web interface
Temporary folder created: TEMP/ocr-{uuid}/
For PDF: converted to PNG (pdf-images/)
Image converted to grayscale (grayscale/)
Text recognized by Tesseract
Temporary files deleted

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
src/main		src/main
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OCR Tool

Features

Docker

Or local run (needs java 17 & maven installed)

Web Interface Usage

Architecture

Classes

Processing Flow

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

OCR Tool

Features

Docker

Or local run (needs java 17 & maven installed)

Web Interface Usage

Architecture

Classes

Processing Flow

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages