Deep Daze - テキストから画像生成②

10月 25, 2021

Deep Daze も、Big Sleepと同じようにテキストから画像を生成するモデルです。

画像生成の深層学習モデルとして CLIP + Deep SIRENを使用しています。

Deep Dazeで生成した画像サンプルは下記のサイトで確認できます。

Deep Daze - https://github.com/lucidrains/deep-daze

PyTorchのインストール

Deep Dazeは、PyTorch 1.7.1であれば高速な画像生成が可能です。

PyTorch 1.7.1をインストールするためには、CUDAの情報が必要です。

以下のコマンドでCUDAのバージョンを表示します。

[Google Colaboratory]

1 2	# CUDAのバージョンの確認 !nvcc --version

[実行結果]

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Mon_Oct_12_20:09:46_PDT_2020
Cuda compilation tools, release 11.1, V11.1.105
Build cuda_11.1.TC455_06.29190527_0>

CUDA11であることが分かりました。

以下のサイトから、「v1.7.1」⇒「Wheel」⇒「Linux and Windows」⇒「CUDA 11.0」のコマンドを確認し、実行します。

Previou PyTorch Versions | PyTorch - https://pytorch.org/get-started/previous-versions/

[Google Colaboratory]

1 2	# PyTorch1.7.1のインストール !pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

[実行結果]

・・・（途中略）・・・
Successfully installed torch-1.7.1+cu110 torchaudio-0.7.2 torchvision-0.8.2+cu110

最後に上記のようなログが表示されていればインストールは完了です。

Deep Dazeのインストール

次のコマンドを実行し、Deep Dazeをインストールします。

[Google Colaboratory]

1 2	# DeepDazeのインストール !pip install deep-daze

[実行結果]

・・・（途中略）・・・
Successfully installed deep-daze-0.10.3 einops-0.3.2 fire-0.4.0 ftfy-6.0.3 imageio-2.9.0 pytorch-ranger-0.1.1 siren-pytorch-0.1.5 torch-optimizer-0.1.0

最後に上記のようなログが表示されていればインストールは完了です。

テキストから画像生成

テキストから画像を生成してみます。

今回はサンプル画像にある”life during the plague”（疫病の間の生活）を少し変更して“life during the war”（戦争の間の生活）というテキストを指定してみました。

[Google Colaboratory]

1 2	# テキストからの画像生成 !imagine "life during the war"

Google Colaboratoryの制限のため、途中でセッションが切られてしまい最後まで実行できませんでしたが、次のような画像が生成されていました。

砂ぼこりか爆発のようなものがあるような気がしますが、もうちょっと認識しやすいものが生成されてほしいところです。

（有料プランにしないと最後まで実行させるのは難しいのかもしれません。）