Tách văn bản bằng QRcode

Hướng dẫn các bước tách văn bản (QRCODE)


Cài WSL và Terminal (lên chatgpt hỏi cho nhanh) rồi chạy 3 lệnh sau trong Terminal:

  • sudo apt update
  • sudo apt install python3 python3-pip -y
  • pip install PyMuPDF Pillow

Bước 1: Download file pdf đặt trong thư mục có tên "pdf" (1 lớp)

Bước 2: Download code và tại link: https://drive.google.com/drive/folders/1FnO1E7c254ECifJ0qgEqB7uRt_aamlps?usp=drive_link

Bước 3: Chạy file b1_pdf_to_jpg_cli_multi.py để giải nén từng trang trong thư mục pdf thành từng file ảnh jpg

Bước 4: Phân loại bằng tay dựa vào kích thước của file ảnh vừa tách

  • Nếu là QRcode cho vào thư mục "index"
  • Nếu là trang trắng cho vào thư mục "blank"
  • Nếu là trang có chữ trong văn bản thì xoá

find . -iname "*.jpg" > index_and_blank.txt

Sau khi phân loại tạo ra được file "index_and_blank.txt" có cấu trúc như sau

 

pdf/8564.pdf;2;index
pdf/8564.pdf;4;index
pdf/8564.pdf;6;index
pdf/8564.pdf;9;index
pdf/8564.pdf;11;index
pdf/8564.pdf;13;index
pdf/8564.pdf;16;index
pdf/8564.pdf;18;index
pdf/8564.pdf;20;index
pdf/8564.pdf;22;index

Bước 5: Chạy file "b3_tach_theo_index_and_blank.py" để tách

Bước 6: Chạy file "b4_mv_vb.py" để di chuyển văn bản của hồ sơ vào thư mục có tên tương ứng

Kết thúc


Video hướng dẫn