pdfminer3k - PDFからテキストを抜き出す。

PythonでPDFからテキストを出力してみます。

「pdfminer3k」というライブラリを使います。


手順1 pdfminer3kをインストール

まず「pdfminer3k」をインストールします。

1
pip install pdfminer3k

手順2 PDFからテキストを出力

Pythonがインストールされているフォルダ配下のScriptフォルダに「pdf2txt.py」というユーティリティ・プログラムが置かれます。

このプログラムを使ってPDFからテキストを出力します。

ネット上にあったシンプルなPDFファイルをダウンロードし入力としました。


1
python pdf2txt.py 7a79c35f7ce0704dec63be82440c8182.pdf

上記のように実行すると、PDFファイルをテキスト化したものが画面に表示されます。