Nico's phrase that sounds like "ディビディエンドッ" is actually a shout when she performs a hold technique, and the accurate phrase is "Divide and conquer!" This phrase represents breaking the opponent's power and weakening them to seize victory. Nico has an intellectual and calm fighting style, and aims for victory by analyzing her opponent's techniques and utilizing her own skills. A hold technique is a move to intercept the opponent's attack and gain an advantage by disrupting their posture. By shout

Showing posts with label stable diffusion. Show all posts
Showing posts with label stable diffusion. Show all posts

Tuesday, April 18, 2023

Stable Diffusionと画像生成の多様性

 

Stable Diffusionと画像生成の多様性

Stable Diffusion v1.5について

Stable Diffusion v1.5は、テキストから画像を生成するためのモデルです1。このモデルは、Stability AIとLAIONの支援を受けて、LAION-5Bデータベースの一部から512x512の画像を学習したものです1,2

特徴

Stable Diffusion v1.5は、CLIP ViT-L/14テキストエンコーダーを使って、画像にテキストを条件付けすることができます1,2。また、テキストから画像を生成するだけでなく、画像から画像を生成することもできます2

このモデルは、コマンドラインスクリプトやWebGUIを通じて、対話的に利用することができます1,2。コマンドラインスクリプトでは、テキストから画像を生成するだけでなく、画像から画像を生成することもできます。WebGUIでは、テキストから画像を生成するだけですが、パラメータやタグを簡単に設定することができます1

さらに、Stable Diffusion v1.5は、CO2排出量の推定値や倫理的な考慮事項などをモデルカードに記載しています2。CO2排出量の推定値は、約0.9トンです。

学習手法

Stable Diffusion v1.5は、LAION-5Bデータベースのうち、約2億枚の画像を学習したものです2。画像の生成には、拡散モデルと呼ばれる手法を使っています2。拡散モデルとは、画像を徐々にノイズに置き換えていく逆過程を利用して、テキストから画像を生成する手法です。

利用上の注意

Stable Diffusion v1.5は、テキストに応じた画像を生成しますが、その画像が正確や適切かどうかは保証できません。そのため、このモデルの出力に基づいて重要な決定や行動をすることは避けてください。

このモデルは、テキストに関連する既存の画像や著作物を参照することがあります。

以上のように、Stable Diffusion v1.5は、テキストから画像を生成するためのモデルですが、その利用には注意が必要です。

このモデルは、画像生成に拡散モデルと呼ばれる手法を使用しており、テキストに応じた画像を生成することができます。また、CLIP ViT-L/14テキストエンコーダーを使用することで、テキストと画像の関連性を学習したモデルです。

利用方法としては、コマンドラインスクリプトやWebGUIを通じて対話的に利用することができます。コマンドラインスクリプトでは、テキストから画像を生成するだけでなく、画像から画像を生成することもできます。WebGUIでは、パラメータやタグを簡単に設定することができます。

ただし、このモデルを利用する際には注意が必要です。モデルカードには、CO2排出量の推定値倫理的な考慮事項が記載されており、その利用には十分な慎重さが求められます。

例えば、このモデルの出力に基づいて重要な決定や行動をすることは避けるべきであり、また、著作権や肖像権などの法的な問題が発生する可能性があるため、その利用については十分な注意が必要です。また、テキストに関連する不適切や攻撃的な画像を生成する可能性もあるため、利用者は自己責任で対処する必要があります。

以上のように、Stable Diffusion v1.5は、画像生成における最新技術を利用した優れたモデルである一方、その利用には十分な注意が必要であることを忘れないでください。

Stable Diffusionと画像生成の多様性

Stable Diffusionは、ランダムノイズを使用して画像を生成する深層学習モデルです。Stable Diffusionでは、ランダムノイズを入力し、徐々に粒子の数を増やして画像を生成しています。

Stable Diffusionには、ランダムノイズの入力に対する出力が予測不可能であるという特性があります。つまり、同じプロンプトやパラメータを使用しても、出力される画像は異なる可能性があるということです。これは、Stable Diffusionがランダム性に基づいて画像を生成するためであり、そのランダム性は、微小な変化や入力ノイズに敏感に反応するためです。

また、Stable Diffusionは、生成された画像の多様性を高めるために、異なるパラメーターやプロンプトのセットを使用することを推奨しています。したがって、同じプロンプトやパラメータを使用しても、生成される画像は多様なものになる可能性があります。

総合すると、Stable Diffusionがランダム性に基づいて画像を生成するため、同じプロンプトやパラメータを使用しても出力される画像が異なることがあるということです。

まとめ

Stable Diffusionは、ランダム性に基づいて画像を生成するため、同じプロンプトやパラメータを使用しても出力される画像が異なることがあります。このランダム性を利用して、より多様な画像を生成することができます。

Saturday, April 15, 2023

令和4年4月15日

 4月15日土曜日。本日の東京の天気は終日の雨。午前中、食料品の買い物のためイオンに出かけたのと、近所のまいばすけっととセブイレブンに出かけた以外は部屋に閉じこもっていた。

折角の休日ではあるけれど、意外と時間を有効に使えない。これはいつものことだ。

平日よりかは英語の学習をしているとは思うのだけれど、すごく頑張ったという実感がわかない。どうしても日中眠くなるため、買い物に出かける10時半過ぎから、買い物と昼食をはさんでの昼寝をすると、午後は早くても1時半ごろまで、勉強が出来ないからである。極端な朝型のため、昼下がりから夜半にかけて、どんどん気力も体力がなくなってしまうのである。

さて、今日のAI画像生成だ。今日も色々試したところ進展があった。

進展その1.Google corabo上でstable diffusionをほぼ確実に実行できるようになった。これまでも何度も試しているが、安定して動作させることがなかなかできない。一度実行できても、2度目はエラーになったりする。

エラーの原因やよくよく調べてみると、モジュールがインストールされていないことだとわかった。どうやら動作環境がアップデートされても、Google Driveに保存したStable diffusionの実行環境ファイルが古いままであることが原因なのだそうだ。

足りないモジュールを個別にインストールすることを憶えたのだが、一つインストールすると、また違うモジュールでエラーが出るの繰り返しにほとほとまいってしまった。よくよく調べてみると、モジュールを個別にインストールするのではなくパッケージそのものを入れ替える必要があるとのこと。

その通りにやってみたら、安定して動作することを確認できた。

Google corabo上でstable diffusionを実行すれば、非力なパソコンでも画像生成が出来てしまいとても便利だ。しかしインストールに時間がかかるし、動作には制約があるし、エラーが出たらアップデートをしないといけないし、安定した動作を求めることが難しいのだ。

やはりハードの投資に費用はかかるが、ローカル環境でWEBUIを動作させたほうがなにかと捗るのは間違いない。

Sunday, April 2, 2023

沼にハマる!

stable diffusionで生成したDua lipaの画像

 今日はにわか雨の予想。折り畳み傘が必要と天気予報。確実性はないが降ることもありそうな雲行きだ。今年は六本木のスペイン坂にソメイヨシノを見にいくつもりでいたが、連日の雨にたたられてしまった。

行くなら昨日、土曜日に行くべきだった。しかし土曜日は日比谷~皇居の散策に出かけてしまった。土曜日は快晴だったので日曜日も同様と高をくくっていたら、ぱっとしない天気である。しかもすっかりソメイヨシノには葉が茂ってしまっている。桜色の花びら一色になるからソメイヨシノは美しい。葉の緑が混ざってしまったソメイヨシノには魅力がない。

残念ながら今年はスペイン坂への遠征はとりやめだ。東京での生活は後1年しかない。

来年こそは東京のソメイヨシノの見納めにスペイン坂へ行かねばならぬ。


毎日、stable diffusionで遊んでいる。これはもう沼と言わざるを得ない。一度はまったら抜け出ることが出来ないのだ。まだまだテクニックも技術も未熟なので、生成する画像はガチャ状態。偶然ではあるが美麗なグラフィックを堪能している。

少しづつではあるが、つけた知識を元に出来上がった画像に手を加えてみる。

なかなか思った通りの結果は出ないが、うまくいったときはとてもうれしい。

画像を見るだけならWEBで画像を収集するのと同じことだ。しかし画像生成は一味も二味も違う。偶然であろうとなかろうと画像の生成にユーザーが関与することが出来る。

また既存の作品をマネて画像を再現することも出来るし、オリジナルの画像から派生作品を生み出すことが出来る。

確か、画像生成AIをローカル環境で動作させるにはNVIDIOのビデオカードでメモリが最低4GB必要だったと思う。

念のために確認したらその通りだった。
ハイエンドゲーミングPCで「Stable Diffusion」を動かすと凄い! 高解像度画像を数秒で生成

私のビデオカードはNVIDIAのRTX1660というカードだ。ビデオメモリは6GB。最低限の状況はクリアしているものの、余裕がある性能とはいいがたい。

実際、画像の生成スピードはそれほど速くないし、一部の機能はメモリ不足によりエラーが出る。

ビデオカードをハイエンドな製品に交換すれば解決するのだろうが、お金がないし、PCの部品を交換するのも、いろいろと面倒である。

しかし、ローカル環境で解決することが出来なくても、「Google Colaboratory」というサービスを利用すればVM環境でstable diffusionを実行することが出来るのだ。

WEBで動作するので、ローカルマシンの性能は問わないのでオフィス用のラップトップマシンでも画像を生成することが可能だ。メモリ環境も豊富なので、エラがー出る操作も余裕でこなせてしまう。


ただし利用には制限がある。
https://research.google.com/colaboratory/faq.html#usage-limits


制限を回避するには費用がかかる。ローカル環境でも費用はかかるしVM環境でも費用はかかる。生憎、画像生成AIは無料で楽しめる趣味ではないのである。

ちなみに何故エラーが出るのかわからず、いろいろとWEBで調べた。

結果、メモリ不足によるエラーであると特定できたのだが、回答を見つけるまで、少し大変だった。画像生成AIに関する情報は基本的にはだが、日本語の情報は豊富とはいえない。あくまでも「基本的には」だ。

より高度な情報やトラブルを解決しようとすると、英語の情報を確認したほうが早い。幸い英語の学習中なので、好きなことを英語を学習しながら行えるのでとても気に入っている。

一日中、画像を生成しても飽きないのだが、疲れるといえば疲れるので、ひと段落ついたらblogを書けばよいので調度よい。

ちなみに今回のblogのタイトルをChatGPTにつけてもらった。センスがいいのか悪いのかなんだか微妙だけれども、内容にマッチしているのでこれでいいと思う。

それでは、また画像生成にいそしむことにしよう。

Wednesday, March 29, 2023

ジェネレーティブAI「stable diffusion」で画像生成中

 最近、Stable Diffusionという画像生成AIを使用した画像の生成にはまっている。

意図した構図やキャラクターの通りに画像を作成するのは非常に難しいのだが、なんでもよければAI任せで期待以上の華麗な作品が出来上がってしまうのだ。

絵が描けない従来の私の画像の楽しみ方といえば、WEB上の既存の画像をダウンロードし眺めることに限られていた。しかし画像生成AIの導入により収集せずとも自身で画像を大量生成できるようになった。AIが作成した画像を眺めるのはとても楽しいのだ。もちろん従来通り、他者の作成した画像をWEBで眺めることにも支障は出ない。

画像生成AIについての情報はWEB上にあふれているが、私が参考にしているサイトは

Gigazineである。

GigazineはITやアニメ、ゲームなどの国内外の多様で幅広い情報を配信している巨大なニュースサイト(ブログ)である。

画像生成AIの導入や設定は素人にはハードルが高いのだが、Gigazineより有用な情報が多数提供されているので、とても助かっている。


AIが生成した画像が多数公開されている。どの作品もどうやって描いたんだろう?と思うほど見応え抜群の作品ばかりだ。

サイトによってはその画像を生成したときのプロンプトや設定を公開しているので、その情報をStable Diffusionに流用してみるものの、見本のような画像を生成することが出来ない。

同じプロンプトと設定を流用しても、全く同じ画像が生成されないのは中々に不思議なことだ。ちょっと調べた限りではAIの学習状態が、ユーザーのツールにより異なることが原因のようである。

ちなみにツールを使えば既存の作品のプロンプトを抽出することが可能だ。

この方法を使用することで、苦心の末、なんとか見本に近い作品を作る方法を見つけた。

画像を生成する方法には大きくわけて2つある。

1.テキストベース(プロンプト)

2.画像ベース

ツールを使いプロンプトと設定の情報を抽出し、1の方法で画像を生成すると、見本と同等の作品に近づくのだ。これは中々便利である。


また、プロンプトを詳細に記述するほうがより精緻な画像が生成されると思うのだが、実はそうでもない。

極めて少ない情報で、こんな画像がが生成されるのか?ということもある。

私が発見したプロンプトを参考として記す。


「OChaco uraraka,koei korikoshi,manga」


たったこれだけである。

このプロンプトで生成した画像がこれ。

Ochaco Uraraka


モデル(Stable Diffusionで設定することで作風を指定できる学習セット)の選択や各設定とネガティブプロンプトの設定により得られる結果は変わるが、おおむねこのクオリティの画像が生成されるのだから実に不思議なのである。


ちなみにこのキャラは「僕のヒーローアカデミア」というアニメに登場するキャラだ。

おそらくモデル(がこのキャラの情報を持っているので詳細な指定が不要なのだろうと想像する。

非常に優秀な画像生成AI。しかし欠点もある。解剖学的に見て人体がおかしな形状で描画されることが多い。特に顕著なのが指先の描画である。

特に指の描画に難がある。プロポーションや容貌はキレイに作画できても、指先がグロテスクというのはしばしば起きる現象だ。

対策としては指先を描画しないように指定するか、あるいは後から編集しなおすことだ。

もし画像編集ソフトを利用できるユーザーであれば、生成された画像を修正したりディティールアップが出来るので、よりクオリティーの高い作品として仕上げることが出来るだろう。

Stable Diffusionは無料で利用できる大変有意義なツールである。色々な設定を組み合わせることで得られる画像は、まさに無限にある。

ちなみに画像生成には有料のサービスもある。使用しているパソコンにグラフィックボードがなかったり、導入するのが面倒なユーザーはこれらを利用するのもよい。

Stable Diffusionに比較すると自由度はないが、決められた設定の範囲内でもアーティスティックな作品を手軽に作り出すことができるのだ。

絵というものは描いたり、塗ったりするものだと思っていたら、従来とは全く違う手法で画像を作成することが出来る時代になった。あえて「画像生成」という言葉を使っているが、画像生成AIが普及するのは時間の問題なので、近い将来、画像生成といわず絵を描くと表現するようになるのは時間の問題だろう。

これは一生ものの趣味になるのではないかと確信している。

毎日、毎日大量の画像を作成するため大容量のストレージは必須である。私は、Googleドライブの容量を拡張し、ローカルの保存先フォルダと同期させている。この方法で外出先でも作成した画像を手軽に閲覧することが出来る。有料ではあるがとても便利である。

より作業スピードをあげるために高性能なグラフィックボードを導入するのもいいかもしれないと感じるこのごろである。

Tuesday, March 21, 2023

"Stable Diffusion WebUI" Debut!

 March 21st, Tuesday, is a national holiday called "Spring Equinox Day." This day is one of the 24 solar terms, and it's a day when the length of day and night are almost the same.


Today, I woke up as usual, a little after 5 am, and have been practicing English pronunciation since this morning. I'm using the smartphone app "ELSA SPEAKING," which uses AI to accurately judge pronunciation, so I can correct my pronunciation on my own.


By pronouncing English correctly, it becomes easier to understand the English spoken by native speakers. I am using this method because it is said that training your speaking skills is effective in improving your listening skills.


One of the issues with Japanese people's English is their poor pronunciation. This is because Japanese pronunciation and English pronunciation are completely different, and speaking skills are not given much importance in school education.


I think that by training speaking and listening skills, it's possible to learn practical English more effectively.


Now, let's talk about the topic of AI image generation. Recently, I have been very interested in AI image generation and have tried various methods. However, some degree of knowledge is required to understand them, and sometimes it can be difficult to understand even when researching on the internet.


However, the other day, I finally succeeded in setting up the environment of a popular image-generating AI called "Stable Diffusion" on my computer. The name comes from the mathematical model of diffusion theory.

GUI of Stable Diffusion


To set up this environment, it is necessary to install a program environment called Python and an app called GIT, and run a batch file. Since the batch file runs on the DOS prompt, the progress is displayed in text format.


I didn't know the conditions for completing the installation, so I didn't know if the work was finished or not. Therefore, I misunderstood that the work had frozen and had to redo it many times. Also, it took me half a day to research how to solve the problem.


However, through trial and error, I gained knowledge and was finally able to generate images. I am now very satisfied.


By the way, I found a carefully explained video for beginners and would like to introduce it. 


日本一わかりやすいStableDiffusion WebUI AUTOMATIC1111(ローカル版)のインストール方法と基本的な使い方


I tried creating an image using "Stable Diffusion" and I am amazed at how wonderful the outcome is. Although I am an amateur, I think the images created by this AI are of such high quality that it is difficult to distinguish whether they were created by humans or not.


I had already been using the paid web service "FOTOR" to generate images. With FOTOR, anyone can easily create high-quality images. However, I was dissatisfied with the limited types of image models that could be generated and the long time it took to create images. Although there are ways to shorten the time, they require payment, so the service was not very user-friendly.


An image generated using FOTOR."