Whatsapp

gImageReader – Trích xuất văn bản từ hình ảnh và PDF trong Linux

Anonim

gImageReader là trình đọc PDF nguồn mở và miễn phí với khả năng trích xuất văn bản từ hình ảnh và PDF. Nó được xây dựng dưới dạng giao diện người dùng Gtk/Qt đơn giản cho Tesseract-OCR, một công cụ OCR nguồn mở để nhận dạng văn bản và mẫu trong tài liệu và hình ảnh bằng cách sử dụngTrí tuệ nhân tạo

Bản thân nó, Tesseract là một công cụ dòng lệnh bị hạn chế sử dụng bởi người dùng Linux đủ quen thuộc với thiết bị đầu cuối của họ. Nhờ gImageReader, giờ đây mọi người có thể tận dụng hiệu quả OCR của công cụ này.

gImageReader hoạt động bằng cách quét văn bản từ tệp PDF hoặc tệp hình ảnh bằng bất kỳ ngôn ngữ nào mà nó hỗ trợ nhờ có các ký tự Unicode . Nó nổi bật với một giao diện người dùng có thể tùy chỉnh được tổ chức tốt, đơn giản mà qua đó bạn có thể thực hiện các tác vụ kiểm tra chính tả và dịch thuật.

Tính năng trong gImageReader

gImageReader dễ sử dụng và hỗ trợ làm việc với các tài liệu bản mềm cũng như ảnh chụp nhanh của phương tiện đã tải lên, ví dụ:. ảnh chụp màn hình. Bạn thậm chí có tùy chọn để chọn vùng văn bản mà bạn quan tâm và thêm vào đó chỉ văn bản bạn cần. Cuối cùng, gImagereader có chức năng vừa là trình đọc PDF vừa là công cụ trích xuất văn bản. Đồ ngốc.

Cài đặt gImageReader trên Linux

Để sử dụng hết gImageReader, bạn phải cài đặt thủ công Tesseract gói ngôn ngữ để bạn có thể phân tích hình ảnh và tệp một cách chính xác.Gói này có tên là 'Tesseract-ocr-eng' và có sẵn từ trình quản lý phần mềm trong Debianvà Fedora distro.

Nếu bạn đang chạy Ubuntu, bạn chỉ cần thêm PPAvà chạy lệnh cài đặt bằng các lệnh bên dưới:

$ Sudo add-apt-repository ppa:sandromani/gimagereader
$ cập nhật apt sudo
$ sudo apt cài đặt gimagereader

On Debian, Fedora, và OpenSUSE cài đặt nó từ trình quản lý gói.

$ sudo apt install gimagereader
$ sudo dnf cài đặt gimagereader
$ sudo zypper cài đặt gimagereader

Đừng cảm thấy bị bỏ rơi nếu bạn đang chạy Arch Linux hoặc bất kỳ dẫn xuất nào của nó. AUR đã bảo vệ bạn. Và nếu bạn muốn xây dựng lại ứng dụng từ nguồn, hướng dẫn có trong liên kết Wiki của kho lưu trữ GitHub.

Bạn có phải là người trích xuất văn bản in từ hình ảnh không? Bạn thậm chí có thể chụp nhanh các khu vực đã chọn bằng điện thoại của mình và tải chúng lên máy tính xách tay của mình. Điều thú vị hơn nữa là hỗ trợ đa ngôn ngữ của nó – mặc dù không hoàn hảo nhưng đã là một trong những lựa chọn tốt nhất trong cộng đồng ngay bây giờ.

gImageReader là một trong những trình đọc PDF tốt nhất trên thế giới nguồn mở, đặc biệt là với khả năng OCR của nó, vì vậy hãy dùng thử và xem chỉ bạn thích nó như thế nào.

Như thường lệ, bạn có thể chia sẻ trải nghiệm của mình với ứng dụng nếu bạn có bất kỳ trải nghiệm nào. Và để thêm các đề xuất khác trong phần bình luận bên dưới.