0

Thư viện nhận diện chữ viết cho máy chủ CPU sử dụng vietocr

Giới thiệu VNCV — Vietnamese Computer Vision

🖼️ Demo

📥 Ảnh gốc 📤 Kết quả nhận dạng

['UBND QUẬN TÂY HỒ', 'TRƯỜNG MN-TH SAO MAI', 'TUYÊN TRUYỀN', 'Phổ biến giáo dục pháp luật về phòng, chống dịch bệnh COVID-19', 'tại nhà trường', 'Thực hiện Kế hoạch số 43/KH-PGDĐT về việc thực hiện đợt cao điểm', 'tuyên truyền pháp luật về phòng chống dịch Covid-19 trên dịa bàn Thành phố', 'Ngành GDĐT Tây Hồng', 'Nhằm nâng cao ý thức tự giác cho CB-GV-NV của trường về việc chấp', 'hành các quy định của pháp luật liên quan đến phòng, chống dịch COVID-19;', 'góp phần đẩy lùi nhanh dịch bệnh trên địa bàn thành phố, thực hiện đẩy mạnh', 'đợt cao điểm tuyên truyền pháp luật về phòng, chống dịch COVID-19 theo', 'hướng lựa chọn nội dung trọng tâm, trọng điểm, ngắn gọn, dễ hiểu, đa dạng hóa', 'các hình thức liên quan đến phòng, chống dịch, góp phần hình thành thói quen', 'thực hiện các biện pháp phòng, chống dịch trong lối sống.', 'Các quy định của pháp luật có liên quan đến phòng, chống dịch COVID-19, các', 'văn bản chỉ đạo của Thành phố về phòng, chống dịch, tình hình dịch bệnh tại', 'xã thành phố, các quy định người dân cân tuân thủ khi chính quyền áp dụng biện thuận', 'xã pháp phòng, chống dịch tại địa bàn, đặc biệt là thời gian áp dụng các biện pháp', 'theo Chỉ thị 15/CT-TTg, Chỉ thị 16/CT-TTg của Thủ tướng Chính phủ hoặc các', 'biện pháp cao hơn.', 'Xử phạt các hành vi, vi phạm pháp luật có liên quan đến phòng, chống', 'dịch, quy định về: cách ly y tế, chữa bệnh, quy định tiêm chủng vaccine của', 'thành phố... đã được triển khai mạnh trong thời gian tới.', 'Thực hiện tuyên truyền trên phân mêm ứng dụng internet: Zalo, website..', 'Trường MN-TH Sao Mai yêu cầu toàn bộ CB-GV-NV-HS thực hiện đợt cao', 'điểm tuyên truyền tại nhà trường, phối hợp và triển khai thực hiện đảm bảo đúng', 'tiến độ và hiệu quả./.', 'TRƯỞNG BANH', 'Nguyễn/Thị Trà Giang']

VNCV (Vietnamese Computer Vision) là thư viện OCR được tối ưu hoá cho tiếng Việt, cho phép trích xuất văn bản từ ảnh một cách nhanh chóng và tiện lợi. Được xây dựng trên nền tảng VietOCR, VNCV kế thừa sức mạnh nhận dạng tiếng Việt chuyên sâu, đồng thời đơn giản hóa toàn bộ quá trình cài đặt, tải model và suy luận (inference) cho người dùng ở mọi trình độ. Khả năng và trải nghiệm sử dụng

VNCV hỗ trợ cả lập trình viên lẫn người dùng phổ thông thông qua hai cách tiếp cận: dùng trực tiếp trong Python hoặc chạy qua command line (CLI). Chỉ với một dòng lệnh hoặc vài dòng code, bạn đã có thể nhận dạng văn bản trong ảnh, hỗ trợ tốt cho các tài liệu tiếng Việt, ảnh chụp giấy tờ, hoá đơn hay văn bản scan. Thư viện tự động tải model phù hợp, thực hiện phát hiện vùng chữ (text detection) và nhận dạng nội dung (text recognition) mà không yêu cầu cấu hình phức tạp. Cài đặt và sử dụng nhanh

Người dùng có thể cài đặt VNCV dễ dàng qua pip, hoạt động tốt trong môi trường CPU, đồng thời hỗ trợ cả GPU khi cần hiệu năng cao hơn. Sau khi cài, bạn có thể:

Gọi hàm extract_text từ Python để nhận về danh sách chuỗi văn bản hoặc cấu trúc JSON chi tiết.

Dùng lệnh vncv <đường_dẫn_ảnh> --lang vi ngay trên terminal để nhận kết quả mà không cần viết code.

Các thư viện phụ thuộc như vietocr, onnxruntime, torch, opencv-python… được tự động xử lý trong quá trình cài đặt, giúp việc khởi đầu rất thuận tiện. Tính năng nổi bật

VNCV được thiết kế xoay quanh tính dễ dùng và thực dụng trong các bài toán OCR tiếng Việt:

Tự động tải và cấu hình model, giảm tối đa bước chuẩn bị cho người dùng.

Hỗ trợ đa ngôn ngữ với tiếng Việt (vi) và tiếng Anh (en).

Có sẵn CLI, phù hợp cho script, cron job hoặc người không chuyên lập trình.

Hỗ trợ xuất kết quả dạng JSON, bao gồm nội dung text, toạ độ bounding box và độ tin cậy, rất thuận tiện cho việc tích hợp vào pipeline xử lý ảnh hoặc hệ thống API.

Cho phép lưu ảnh đã được vẽ bounding box, hỗ trợ kiểm tra và trực quan hóa chất lượng nhận dạng.

Ứng dụng thực tế

VNCV phù hợp với nhiều bối cảnh triển khai, từ nghiên cứu đến sản phẩm thực tế:

OCR tài liệu tiếng Việt trên máy chủ chỉ có CPU.

Trích xuất thông tin từ giấy tờ như CMND/CCCD, hóa đơn, giấy tờ hành chính, tài liệu scan.

Tiền xử lý dữ liệu cho các bài toán NLP tiếng Việt (phân tích văn bản, trích xuất thực thể…).

Xây dựng hệ thống tự động hoá nhập liệu, hệ thống RPA, hoặc API AI phục vụ nội bộ doanh nghiệp.

links: https://github.com/Devhub-Solutions/VNCV


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí