解析エンジニアの自動化 blog

コツコツと自動化した方法を残す blog

初心者が Python で ocr するために Tesseract をインストールする

python

こんにちは。
仕事の自動化にやりがいと達成感を感じるガッくんです。

この記事の目次

目的
インストール環境
ダウンロード
コメント

目的

テキスト抽出が出来ないスキャンされた PDF や画像からテキスト抽出したい事が結構な頻度であります。

プログラムで自動化する時も一連の作業の流れの中で、どうしてもテキストを読み取る作業は人間が行うために、処理を中断させたり、前もって入力しておく事が必要になったりします。

結果的に何回も同じ情報を探していたりするので、出来る事ならプログラムに書類を読ませようと思い、 Python で ocr してみようと思います。

そこで、まず Tesseract を Windows 7 にインストールします。

インストール環境

Windows 7 64 bit

ダウンロード

インターネット検索

『 tesseract-ocr-setup-3.02.02.exe 』で検索します。

図1 は 2018/11/08 現在の検索結果の画像です。

f:id:chuckischarles:20181108203957j:image

図1 検索結果

ダウンロード

1 番上の Web ページにアクセスして、数秒待っていると、ダウンロード開始のポップアップが表示されます。

f:id:chuckischarles:20181108204029j:image

図2 ダウンロード開始のポップアップ

Tesseract 入手

しばらくするとダウンロードが終わります。
図3 がダウンロードした Tesseract のアイコンです。

f:id:chuckischarles:20181108204139j:image

図3 Tesseract インストーラー

インストール

あとはインストーラーにしたがってインストールします。
全て YES でインストールすると図4 の様なフォルダが出来上がります。

f:id:chuckischarles:20181108204252j:image

図4 Tesseract インストールフォルダ

コメント

とりあえず Tesseract のインストールまで。

これだけでは Python で Tesseract は使えないので、この次は pytesseract のインストールの記事を書きます。

以上