Hướng dẫn các bước tách văn bản (QRCODE)
Cài WSL và Terminal (lên chatgpt hỏi cho nhanh) rồi chạy 3 lệnh sau trong Terminal:
- sudo apt update
- sudo apt install python3 python3-pip -y
- pip install PyMuPDF Pillow
Bước 1: Download file pdf đặt trong thư mục có tên "pdf" (1 lớp)
Bước 2: Download code và tại link: https://drive.google.com/drive/folders/1FnO1E7c254ECifJ0qgEqB7uRt_aamlps?usp=drive_link
Bước 3: Chạy file b1_pdf_to_jpg_cli_multi.py để giải nén từng trang trong thư mục pdf thành từng file ảnh jpg
Bước 4: Phân loại bằng tay dựa vào kích thước của file ảnh vừa tách
- Nếu là QRcode cho vào thư mục "index"
- Nếu là trang trắng cho vào thư mục "blank"
- Nếu là trang có chữ trong văn bản thì xoá
find . -iname "*.jpg" > index_and_blank.txt
Sau khi phân loại tạo ra được file "index_and_blank.txt" có cấu trúc như sau
pdf/8564.pdf;2;index
pdf/8564.pdf;4;index
pdf/8564.pdf;6;index
pdf/8564.pdf;9;index
pdf/8564.pdf;11;index
pdf/8564.pdf;13;index
pdf/8564.pdf;16;index
pdf/8564.pdf;18;index
pdf/8564.pdf;20;index
pdf/8564.pdf;22;index
Bước 5: Chạy file "b3_tach_theo_index_and_blank.py" để tách
Bước 6: Chạy file "b4_mv_vb.py" để di chuyển văn bản của hồ sơ vào thư mục có tên tương ứng
Kết thúc
Video hướng dẫn