Trích xuất văn bản từ PDF

Tải PDF lên và tải văn bản về dưới dạng tệp .txt thuần — tất cả các trang hoặc chỉ những trang bạn chọn. Bố cục được mô phỏng bằng khoảng cách.

Vì sao văn bản từ PDF scan của tôi lại trống?

PDF scan chứa hình ảnh của chữ chứ không phải chữ thật, nên không có gì để trích xuất nếu thiếu OCR (công cụ này không có OCR). Nó hoạt động với PDF có văn bản thật, chọn được.

Bố cục có được giữ không?

Ngắt dòng và khoảng cách cột được mô phỏng để bảng và danh sách vẫn dễ đọc. Các trang được ngăn cách bằng ký tự form-feed.