今回は、Google社が提供しているVision Transformerを使って画像分類を行います。
Huggingface Transformersのインストール
Vision Transformerは、Huggingface Transformersをインストールすることで使用できるようになります。
[Google Colaboratory]
1 | !pip install transformers==4.6.0 |
Huggingface Transformersでは、以下のビジョンタスクのモデルアーキテクチャを使用できます。
- Vision Transformer(Google AI)
- DeiT(Facebook)
- CLIP(OpenAI)
画像分類
分類する画像として下記のものを使います。
この画像をGoogle Colaboratoryアップロードしておきます。
画像分類するためのソースコードは以下のようになります。
11行目でアップロードした画像を読み込んでいます。
[Google Colaboratory]
1 | import torch |
実行結果は以下の通りです。
[実行結果]
1 | class: tabby, tabby cat |
tabby catは日本語でぶち猫という意味です。
猫の種類はよくわかりませんが、猫には違いないのでちゃんと画像分類できたということになると思います。
次回は、Facebook社が提供しているDeiTを使って画像分類を行います。