ChatGPT、Grok 3、Copilotによる画像生成の違い

Xから、Grok 3をお試しで使えるようになりました。
しかしながら画像生成に関しては、私はGrokには失望することが多いです。
結局なんやかやで最近はChatGPTを多く使っていますが、絵柄をそろえるためにプロンプトを試行錯誤しているもののやっぱり雰囲気はなかなかそろいません。
そこで、Grokがバージョンアップされた記念(?)に、今回試しに各チャットボットに同じ画像を提示して画像生成のプロンプトを作ってもらい、それを使ってどれだけ異なる絵になるかやってみました。

このブログの第一回目で使用した、ChatGPT製のこの図柄に近づけてもらいます。

問いかけ;
画像を生成するためのプロンプトを英語で作成し、アドバイスをください。
ブログ記事に載せるための画像を毎日生成していますが、毎回全然違うテイストの絵柄になってしまうのでとても困っています。
保ちたい雰囲気の画像を添付します。これと同じ雰囲気を保ちつつ違う絵を作成してもらうプロンプトはどのように描いたらいいですか?
毎回揃えたいのは“絵柄(雰囲気)” “頭の上に葡萄の房を載せている” “黄色と黄緑を基調とした服を着ている”です。


手っ取り早く画像生成の結果だけ見たい方はこちらをクリック!→ 結果発表

【ChatGPTの答え】

プロンプト(英語) “A warm, soft, and slightly whimsical digital illustration of a cheerful young woman sitting outdoors. She has short, wavy green hair and wears a bunch of grapes (purple and yellow) on her head like a crown. She is dressed in an outfit dominated by yellow and light green tones, featuring striped overalls and a short-sleeved white shirt. The background features a scenic outdoor setting with a bridge, a Ferris wheel, and greenery. The art style is cozy, storybook-like, and hand-drawn, with gentle shading and warm tones.”


アドバイス

  1. 具体的な要素を明記する
    • 「頭に葡萄の房をのせた女性」
    • 「黄色と黄緑を基調とした服」
    • 「柔らかくて温かみのある、少しファンタジックな雰囲気」
    • 「背景には橋や観覧車、自然がある」など
  2. スタイルを統一する
    「storybook-like(絵本風)」「hand-drawn(手描き風)」「warm tones(温かみのある色合い)」などの表現を使うと、毎回異なるテイストになるのを防ぎやすいです。
  3. 画像の構図を固定する
    毎回座っているポーズにする、屋外の背景にするなど、構図もある程度揃えると統一感が出ます。
  4. モデルの特徴を明確にする
    髪型、服のデザイン、表情などを具体的に指定し、毎回ブレないようにします。

【Grok 3の答え】

Suggested Prompt in English

“A whimsical, hand-drawn illustration in a cute, flat, and colorful cartoon style, featuring a cheerful young woman with short green hair. She wears a yellow and green striped outfit (like overalls or a dress) and sits on a yellow cushion, surrounded by lush greenery. A crown of vibrant purple and green grape clusters sits atop her head. The background includes a serene riverside cityscape with a bridge, Ferris wheel, and boats, rendered in soft, pastel colors with a playful and dreamy atmosphere. Use a color palette dominated by yellow, green, and pastel tones, maintaining a warm, inviting, and cohesive aesthetic similar to mid-20th-century children’s book illustrations.”

Explanation of the Prompt

  1. Style/Atmosphere (“絵柄/雰囲気”):
    • I described the style as “whimsical, hand-drawn, cute, flat, and colorful cartoon” to match the reference image’s playful, illustration-like quality. Phrases like “similar to mid-20th-century children’s book illustrations” help anchor the nostalgic, soft, and charming vibe.
    • If you’re using a specific AI art tool (e.g., MidJourney, Stable Diffusion), you can add technical descriptors like “low-poly,” “vector-like,” or “clean lines” to refine the style further.
  2. Grape Crown (“頭の上に葡萄の房を載せている”):
    • Explicitly mentioning “a crown of vibrant purple and green grape clusters sits atop her head” ensures this iconic element is included every time.
  3. Yellow-Green Outfit (“黄色と黄緑を基調とした服を着ている”):
    • Specifying “yellow and green striped outfit (like overalls or a dress)” ties directly to the reference image’s color scheme and clothing style.
  4. Background and Consistency:
    • The reference image shows a cityscape with a bridge, Ferris wheel, and river, so I included these elements. You can vary the specific landmarks (e.g., different bridges or buildings) to create diversity while keeping the overall composition similar.
    • “Soft, pastel colors” and “warm, inviting, and cohesive aesthetic” help maintain the dreamy, lighthearted mood.
  5. Color Palette:
    • Emphasizing “yellow, green, and pastel tones” ensures the color scheme aligns with your reference.

Advice for Consistency

  1. Define the Style Clearly:
    • The reference image has a distinct “cute, flat, and colorful” cartoon style reminiscent of modern illustration art. Use descriptive terms like “whimsical,” “hand-drawn,” or “playful” in your prompts, and reference specific art styles (e.g., children’s book illustrations, anime-inspired, or Studio Ghibli-like) if applicable.
    • If you’re using an AI tool, experiment with style weights or parameters (e.g., “–v 5” in MidJourney) to lock in the desired aesthetic.
  2. Lock in Key Elements:
    • Always include the grape crown, yellow-green outfit, and sitting pose (or similar relaxed posture) in your prompts. This creates a recognizable “character” for your blog.
    • You can vary the background (e.g., different cityscapes, seasons, or weather) or pose slightly (e.g., standing, leaning) to keep images fresh while maintaining the core identity.
  3. Use the Same Color Palette:
    • Specify “yellow, green, and pastel tones” consistently. You can also mention avoiding harsh contrasts or bright reds/blues if they don’t fit the mood.
  4. Iterate and Refine:
    • After generating an image, review it and tweak the prompt. For example, if the style feels too detailed or too simplistic, adjust descriptors like “flat,” “clean lines,” or “soft shading.”
    • Save a successful prompt as a template and modify only the variable parts (e.g., background, pose).
  5. Test with Your AI Tool:
    • Different AI platforms interpret prompts differently. If you’re using a specific tool, test a few variations to see what works best. For example:
      • MidJourney: Add “–ar 1:1” for square images or “–style cute” if available.
      • Stable Diffusion: Use negative prompts (e.g., “realistic, 3D, high detail”) to avoid unwanted styles.
  6. Reference the Reference Image:
    • If the AI tool allows, you can upload your reference image and ask it to “match the style and composition” while changing specific elements. However, since you want text-based prompts, the description above should suffice.
  7. Daily Variation Ideas:
    • To keep images interesting for daily blog posts, vary the background (e.g., different seasons, times of day, or city elements) or the woman’s pose (e.g., sitting on a swing, holding a book, or walking). But always include the grape crown, yellow-green outfit, and whimsical style.

※この後「日本語で説明してください」と頼んだら、プロンプトまで全部日本語になってしまいましたw
英語でも日本語でも、問題なく画像生成できるぜ!ということなのかもしれません。

【Copilotの答え】

画像を生成するためのプロンプトを英語で作成し、アドバイスをください。 ブログ記事に載せるための画像を毎日生成していますが、毎回全然違うテイストの絵柄になってしまうのでとても困っています。 保ちたい雰囲気の画像を添付します。これと同じ雰囲気を保ちつつ違う絵を作成してもらうプロンプトはどのように描いたらいいですか? 毎回揃えたいのは“絵柄(雰囲気)” “頭の上に葡萄の房を載せている” “黄色と黄緑を基調とした服を着ている”です。

画像の詳細を確認しました。まず、添付された画像の雰囲気や要素に基づいたプロンプトを作成してみます。

プロンプト例

Create an illustration of a character with green hair and a bunch of grapes on top of the head. The character should be wearing a green and yellow striped outfit with yellow shoes. The background should include elements like a bridge, a ferris wheel, a boat on a river, and some buildings. Use a vibrant color scheme with a mix of green, yellow, and orange tones to maintain a cheerful and whimsical atmosphere.

ポイント

  1. スタイルを一貫させる:
    • イラストのスタイルや雰囲気に統一感を持たせるために、具体的な色合いや背景要素を指定します。
    • 例えば「Use a vibrant color scheme with a mix of green, yellow, and orange tones to maintain a cheerful and whimsical atmosphere」というように、色や雰囲気を指定します。
  2. 特徴を明確に:
    • 毎回同じ特徴を持たせるために、キャラクターの詳細を具体的に書きます。
    • 例えば「The character should be wearing a green and yellow striped outfit with yellow shoes」というように、服装や髪型を細かく指定します。
  3. 背景の要素を統一:
    • 毎回背景に特定の要素を含めることで、統一感を出します。
    • 例えば「The background should include elements like a bridge, a ferris wheel, a boat on a river, and some buildings」といった具体的な要素を入れます。

注意点

  • 表現のブレを防ぐために、生成するたびにプロンプトをできるだけ同じように使うと良いです。
  • 全体のトーンやムードを強調することで、ブログの記事全体としても統一感が出ます。

これで、毎回一貫した雰囲気の画像を生成しやすくなると思います!どうでしょうか?

結果発表

生成されたプロンプトで、実際に生成してみた画像が以下です。


【プロンプト作成に使用した見本の画像】

↓↓↓

【ChatGPT】
※プロンプトだけでは生成されず再度説明を始めたため、「画像を生成してください」と書いたあとにプロンプトを貼り付けた

【Grok 3】
※プロンプトだけでは生成されず再度説明を始めたため、「画像を生成してください」と書いたあとにプロンプトを貼り付けた

【Copilot】
※「画像を生成してください」と命令しなくてもプロンプトだけで生成された

……いかがでしょうか?
全部「雰囲気を保っている」とは言えないように思うのですが、この三つの中ではやはりChatGPT一択だなと改めて思いました。
特にGrok3は、ありえないと思います(ノД`)・゜・。

しかしながら、生成されたプロンプトに難があるかもしれないので、結果が良かったChatGPTで生成されたプロンプトをGrok 3とCopilotにも使用して再度試してみました。
また、ChatGPTに関しては、1回目はGrok 3とCopilotとそろえるためにプロンプトを作ってもらったチャット内で画像を生成しましたが、2回目の今回は新たにNew chatで行ってみました。
その結果が以下です。


↓↓↓

使用したプロンプト;
A warm, soft, and slightly whimsical digital illustration of a cheerful young woman sitting outdoors. She has short, wavy green hair and wears a bunch of grapes (purple and yellow) on her head like a crown. She is dressed in an outfit dominated by yellow and light green tones, featuring striped overalls and a short-sleeved white shirt. The background features a scenic outdoor setting with a bridge, a Ferris wheel, and greenery. The art style is cozy, storybook-like, and hand-drawn, with gentle shading and warm tones.

【ChatGPT】

【Grok 3】

【Copilot】


…………いかがでしょうか????

この中では、私はやはりChatGPT一択だなと思います。
Copilotも悪くはありません(好きな絵柄です)。
が、このブログで一番重要な、頭の上の葡萄の房はどこ行った?!
背景要素もどこ行った?!?!
と、小一時間問い詰めたいです。
そしてGrok 3は、私のブログの挿絵としては雰囲気ぶち壊しでありえません。どうしてこうなったのか、水を入れたバケツを両手に持って廊下に立って3時間反省してくださいという感じです。
Grogはリアルな雰囲気の、いかにもAIという風情の3D画像生成には強いイメージですが、私のブログの挿絵としては、これまで何度も挑戦してまだ一度も納得できる画像が生成できていません。

と、いうわけで、私はこの先も、イーロンよりサムを応援するぜ!!!


以上、こだわるなら、チャットボットではなく自分のPCで行うべきというのはわかっているのですが、そこまでの情熱もPCのスペックも無く…という状態での、中間報告でした!

コメントする