解析エンジニアの自動化 blog

コツコツと自動化した方法を残す blog

初心者が Python で ocr するために Tesseract をインストールする



こんにちは。
仕事の自動化にやりがいと達成感を感じるガッくんです。



この記事の目次



目的


テキスト抽出が出来ないスキャンされた PDF や 画像からテキスト抽出したい事が結構な頻度であります。

プログラムで自動化する時も一連の作業の流れの中で、どうしてもテキストを読み取る作業は人間が行うために、処理を中断させたり、前もって入力しておく事が必要になったりします。

結果的に何回も同じ情報を探していたりするので、出来る事ならプログラムに書類を読ませようと思い、 Pythonocr してみようと思います。

そこで、まず Tesseract を Windows 7 にインストールします。



インストール環境

Windows 7 64 bit



ダウンロード


インターネット検索

『 tesseract-ocr-setup-3.02.02.exe 』で検索します。

図1 は 2018/11/08 現在の検索結果の画像です。

図1 検索結果


ダウンロード

1 番上の Web ページにアクセスして、数秒待っていると、ダウンロード開始のポップアップが表示されます。

図2 ダウンロード開始のポップアップ


Tesseract 入手

しばらくするとダウンロードが終わります。
図3 がダウンロードした Tesseract のアイコンです。

図3 Tesseract インストーラ


インストール

あとはインストーラーにしたがってインストールします。
全て YES でインストールすると図4 の様なフォルダが出来上がります。

図4 Tesseract インストールフォルダ



コメント

とりあえず Tesseract のインストールまで。

これだけでは Python で Tesseract は使えないので、この次は pytesseract のインストールの記事を書きます。



以上