PythonでPDFからテキストを出力してみます。
「pdfminer3k」というライブラリを使います。
手順1 pdfminer3kをインストール
まず「pdfminer3k」をインストールします。
1 | pip install pdfminer3k |
手順2 PDFからテキストを出力
Pythonがインストールされているフォルダ配下のScriptフォルダに「pdf2txt.py」というユーティリティ・プログラムが置かれます。
このプログラムを使ってPDFからテキストを出力します。
ネット上にあったシンプルなPDFファイルをダウンロードし入力としました。
1 | python pdf2txt.py 7a79c35f7ce0704dec63be82440c8182.pdf |
上記のように実行すると、PDFファイルをテキスト化したものが画面に表示されます。