koulab

技術系のメモ

コピペできないPDFをtesseractでテキストファイルとして文字を出力

音声読み上げが必要なユーザ向けのTIPS

官報のPDFなどを文字起こし。 tesseract+imagickで実現可能

  • Fedora29+tesseract

CentOSの場合はyum install epel-releaseからyum install tesseract

dnf config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/Fedora_29/home:Alexander_Pozdnyakov.repo
dnf install tesseract
dnf install tesseract-langpack-jpn
tesseract --list-langs
dnf install ImageMagick
  • pdfを画像にする
convert -density 300 20190913c000920027.pdf -depth 8 -strip -background white -alpha off file.tiff
tesseract file.tiff output -l jpn
cat output.txt
tesseract file.tiff output -l jpn+eng
cat output.txt

f:id:dmca:20190916113503p:plain
tesseractで官報のPDFを文字起こし

精度はデフォルトの辞書でもいい感じです