初心者が Python で ocr するために Tesseract をインストールする
こんにちは。
仕事の自動化にやりがいと達成感を感じるガッくんです。
この記事の目次
目的
テキスト抽出が出来ないスキャンされた PDF や 画像からテキスト抽出したい事が結構な頻度であります。
プログラムで自動化する時も一連の作業の流れの中で、どうしてもテキストを読み取る作業は人間が行うために、処理を中断させたり、前もって入力しておく事が必要になったりします。
結果的に何回も同じ情報を探していたりするので、出来る事ならプログラムに書類を読ませようと思い、 Python で ocr してみようと思います。
そこで、まず Tesseract を Windows 7 にインストールします。
インストール環境
Windows 7 64 bit
ダウンロード
インターネット検索
『 tesseract-ocr-setup-3.02.02.exe 』で検索します。図1 は 2018/11/08 現在の検索結果の画像です。
ダウンロード
1 番上の Web ページにアクセスして、数秒待っていると、ダウンロード開始のポップアップが表示されます。Tesseract 入手
しばらくするとダウンロードが終わります。図3 がダウンロードした Tesseract のアイコンです。
インストール
あとはインストーラーにしたがってインストールします。全て YES でインストールすると図4 の様なフォルダが出来上がります。
コメント
とりあえず Tesseract のインストールまで。
これだけでは Python で Tesseract は使えないので、この次は pytesseract のインストールの記事を書きます。
以上