Trích xuất văn bản từ tệp PDF và tệp hình ảnh


Bạn có tài liệu PDF mà bạn muốn trích xuất tất cả văn bản không? Điều gì về các tệp hình ảnh của tài liệu được quét mà bạn muốn chuyển đổi thành văn bản có thể chỉnh sửa? Đây là một số vấn đề phổ biến nhất mà tôi đã thấy tại nơi làm việc khi làm việc với các tệp.

Trong bài viết này, tôi sẽ nói về một số cách khác nhau mà bạn có thể tìm cách trích xuất văn bản từ PDF hoặc từ một hình ảnh. Kết quả trích xuất của bạn sẽ khác nhau tùy thuộc vào loại và chất lượng của văn bản trong PDF hoặc hình ảnh. Ngoài ra, kết quả của bạn sẽ khác nhau tùy thuộc vào công cụ bạn sử dụng, vì vậy tốt nhất bạn nên thử càng nhiều tùy chọn càng tốt để có kết quả tốt nhất.

Trích xuất văn bản từ hình ảnh hoặc PDF

Cách đơn giản và nhanh nhất để bắt đầu là thử dịch vụ trích xuất văn bản PDF trực tuyến. Đây là những thông thường miễn phí và có thể cung cấp cho bạn chính xác những gì bạn đang tìm kiếm mà không cần phải cài đặt bất cứ điều gì trên máy tính của bạn. Dưới đây là hai điều tôi đã sử dụng với kết quả rất tốt với các kết quả xuất sắc:

ExtractPDF

extractpdf

ExtractPDF là một công cụ miễn phí để lấy hình ảnh, văn bản và phông chữ ra khỏi tệp PDF. Giới hạn duy nhất là kích thước tối đa cho tệp PDF là 10 MB. Đó là một chút nhỏ; vì vậy nếu bạn có tệp lớn hơn, hãy thử một số phương pháp khác bên dưới. Chọn tệp của bạn và sau đó nhấp vào nút Gửi tệp. Kết quả thường rất nhanh và bạn sẽ thấy bản xem trước của văn bản khi bạn nhấp vào tab Văn bản.

download text

Đây cũng là một kết quả tốt đẹp thêm lợi ích mà nó trích xuất hình ảnh ra khỏi tập tin PDF quá, chỉ trong trường hợp bạn cần những người! Nhìn chung, công cụ trực tuyến hoạt động tốt, nhưng tôi đã chạy vào một vài tài liệu PDF cung cấp cho tôi đầu ra hài hước. Văn bản được trích xuất tốt, nhưng vì lý do nào đó, văn bản sẽ có ngắt dòng sau mỗi từ! Không phải là một vấn đề lớn đối với một tệp PDF ngắn, nhưng chắc chắn là một vấn đề đối với các tệp có nhiều văn bản. Nếu điều đó xảy ra với bạn, hãy thử công cụ tiếp theo.

OCR trực tuyến

OCR trực tuyến thường có xu hướng hoạt động đối với các tài liệu không chuyển đổi đúng với ExtractPDF , vì vậy bạn nên thử cả hai dịch vụ để xem những dịch vụ nào mang đến cho bạn sản lượng tốt hơn. OCR trực tuyến cũng có một số tính năng đẹp hơn có thể chứng minh tiện dụng cho bất kỳ ai có tệp PDF lớn chỉ cần chuyển đổi văn bản trên một vài trang thay vì toàn bộ tài liệu.

Điều đầu tiên bạn muốn làm là truy cập phía trước và tạo một tài khoản miễn phí. Đó là một chút khó chịu, nhưng nếu bạn không tạo tài khoản miễn phí, nó sẽ chỉ chuyển đổi một phần PDF của bạn chứ không phải toàn bộ tài liệu. Ngoài ra, thay vì chỉ có thể tải lên một tài liệu 5 MB, bạn có thể tải lên tối đa 100MB cho mỗi tệp bằng một tài khoản.

online ocr

Trước tiên , chọn một ngôn ngữ và sau đó chọn loại định dạng đầu ra bạn muốn cho tệp được chuyển đổi. Bạn có một vài lựa chọn và bạn có thể chọn nhiều tùy chọn nếu muốn. Trong Đa tài liệu, bạn có thể chọn Số trangvà sau đó chỉ chọn các trang mà bạn muốn chuyển đổi. Sau đó, bạn chọn tệp và nhấp vào Chuyển đổi!

online ocr docs

Sau khi chuyển đổi, bạn sẽ được đưa đến phần Tài liệu (nếu bạn đã đăng nhập), nơi bạn có thể xem có bao nhiêu trang miễn phí bạn còn lại và liên kết để tải xuống các tệp đã chuyển đổi của bạn. Có vẻ như bạn chỉ có 25 trang miễn phí một ngày, vì vậy nếu bạn cần nhiều hơn thế, bạn sẽ phải đợi một chút hoặc mua thêm trang.

OCR trực tuyến đã thực hiện công việc chuyển đổi tuyệt vời các tệp PDF của tôi vì nó có thể duy trì bố cục thực tế của văn bản. Trong bài kiểm tra của tôi, tôi đã lấy một tài liệu Word đã sử dụng dấu đầu dòng, kích thước phông chữ khác nhau, v.v. và chuyển đổi nó thành tệp PDF. Sau đó, tôi sử dụng OCR trực tuyến để chuyển đổi nó trở lại định dạng Word và nó là khoảng 95% giống như bản gốc. Điều đó khá ấn tượng đối với tôi.

Ngoài ra, nếu bạn muốn chuyển đổi hình ảnh thành văn bản, thì OCR Trực tuyến có thể thực hiện điều đó dễ dàng như trích xuất văn bản từ các tệp PDF.

Miễn phí OCR trực tuyến

Vì đã nói về hình ảnh cho văn bản OCR, hãy để tôi đề cập đến một trang web tốt hoạt động thực sự tốt trên hình ảnh. Free OCR trực tuyến rất tốt và rất chính xác khi trích xuất văn bản từ các hình ảnh thử nghiệm của tôi. Tôi lấy một vài hình ảnh từ iPhone của tôi từ các trang sách, sách mỏng, vv và tôi đã rất ngạc nhiên khi thấy nó có thể chuyển đổi văn bản như thế nào.

free online ocr

Chọn tệp của bạn và sau đó nhấp vào nút Tải lên. Trên màn hình tiếp theo, có một vài tùy chọn và bản xem trước của hình ảnh. Bạn có thể cắt nó nếu bạn không muốn OCR toàn bộ điều. Sau đó, chỉ cần nhấp vào nút OCR và văn bản đã chuyển đổi của bạn sẽ xuất hiện bên dưới phần xem trước hình ảnh. Ngoài các dịch vụ trực tuyến, có hai phần mềm chuyển đổi PDF miễn phí mà tôi muốn đề cập trong trường hợp bạn cần phần mềm chạy cục bộ trên máy tính của bạn để thực hiện các chuyển đổi. Với các dịch vụ trực tuyến, bạn sẽ luôn cần kết nối Internet và điều đó có thể không thực hiện được với mọi người. Tuy nhiên, tôi nhận thấy rằng chất lượng chuyển đổi từ các chương trình phần mềm miễn phí thấp hơn đáng kể so với các trang web.

Trình trích xuất văn bản A-PDF

Trình trích xuất văn bản A-PDF là phần mềm miễn phí thực hiện công việc trích xuất văn bản từ các tệp PDF khá tốt. Sau khi bạn tải xuống và cài đặt, hãy nhấp vào nút Mở để chọn tệp PDF của bạn. Sau đó nhấp vào Trích xuất văn bản để bắt đầu quá trình.

apdf extractor

Nó sẽ hỏi bạn một vị trí để lưu tệp đầu ra văn bản và sau đó nó sẽ bắt đầu giải nén . Bạn cũng có thể nhấp vào nút Tùy chọn, cho phép bạn chỉ chọn các trang nhất định để trích xuất và loại trích xuất. Tùy chọn thứ hai là thú vị vì nó trích xuất văn bản trong các bố cục khác nhau và đáng để thử cả ba để xem cái nào mang lại cho bạn kết quả tốt nhất.

PDF2Text Pilot

PDF2Text Pilot thực hiện công việc giải nén văn bản. Nó không có bất kỳ lựa chọn nào; bạn chỉ cần thêm tệp hoặc thư mục, chuyển đổi và hy vọng là tốt nhất. Nó hoạt động tốt trên một số tệp PDF, nhưng đối với phần lớn trong số đó, có rất nhiều vấn đề.

pdf2text

Chỉ cần nhấp vào Thêm tệp và sau đó nhấp Chuyển đổi. Khi quá trình chuyển đổi hoàn tất, hãy nhấp vào Duyệt qua để mở tệp. Số dặm bạn sẽ thay đổi khi sử dụng chương trình này, do đó, bạn không mong đợi nhiều.

Ngoài ra, điều đáng nói đến là nếu bạn ở trong môi trường doanh nghiệp hoặc có thể lấy một bản sao của Adobe Acrobat từ nơi làm việc, thì bạn thực sự có thể nhận được kết quả tốt hơn nhiều. Acrobat rõ ràng là không miễn phí, nhưng nó có các tùy chọn để chuyển đổi PDF sang định dạng Word, Excel và HTML. Nó cũng làm tốt nhất việc duy trì cấu trúc của tài liệu gốc và chuyển đổi văn bản phức tạp.

Chuyển đổi hình ảnh sang văn bản

bài viết liên quan:


13.11.2014