Como usar o GPT Image 2 em 2026: do text rendering ao Thinking Mode

O GPT Image 2 — lançado pela OpenAI em 21 de abril de 2026 como ChatGPT Images 2.0 — resolveu o maior problema dos geradores de imagem com IA: texto ilegível. Todo criativo que já tentou colocar texto em uma imagem com Midjourney ou DALL-E 3 sabe como termina: letras embaralhadas, palavras inventadas, fontes que parecem um captcha com ressaca. Com GPT Image 2, text rendering em PT-BR chega a ~99% de precisão em resolução até 4K, disponível no plano gratuito do ChatGPT. O DALL-E 3 começa a ser aposentado em 12 de maio de 2026.

Como usar o GPT Image 2 em 5 passos:

Acesse chatgpt.com e faça login (conta gratuita já funciona)
Na caixa de mensagem, descreva a imagem que quer gerar — pode ser em português
O ChatGPT seleciona automaticamente o GPT Image 2 para geração de imagens
Para ativar o Thinking Mode (raciocínio antes de gerar), clique em “Thinking” no seletor de modelo — exige plano Plus ($20/mês)
Baixe a imagem gerada pelo ícone de download ou solicite variações no mesmo chat

Free tier: ~3 a 10 imagens a cada 3 horas, sem Thinking Mode. Suficiente para uso casual; insuficiente para volume profissional.

O que é o GPT Image 2 e o que mudou em relação ao DALL-E 3

O GPT Image 2 é o modelo de geração de imagens da OpenAI que substituiu o DALL-E 3. No ChatGPT, aparece como “ChatGPT Images 2.0”. Na API, o nome é gpt-image-2.

O DALL-E 3 era bom em composição e estilo artístico, mas tinha dois problemas sérios: texto ilegível e nenhuma capacidade de raciocinar sobre o prompt antes de gerar. Você escrevia “crie uma imagem com o texto PROMOÇÃO 50%” e recebia letras embaralhadas que pareciam de outro alfabeto.

O GPT Image 2 resolveu os dois:

Text rendering: ~99% de precisão em caracteres latinos (PT-BR incluído), CJK (japonês, chinês, coreano), hindi e bengali. Pela primeira vez, um gerador de imagem entrega o texto que você pediu, na grafia correta, em alta resolução.

Thinking Mode: o modelo raciocina sobre a composição antes de gerar — planeja layout, proporções, relações espaciais entre elementos. Pode também usar busca na web em tempo real durante a geração (Plus+).

O DALL-E 2 e o DALL-E 3 começam a ser aposentados em 12 de maio de 2026. Quem ainda usa o botão antigo de geração de imagem no ChatGPT vai migrar automaticamente para o GPT Image 2.

Quanto custa usar o GPT Image 2 no Brasil?

O GPT Image 2 está disponível via ChatGPT em todos os planos, com limites diferentes:

Plano	Preço mensal	Em R$	Acesso ao GPT Image 2	Thinking Mode
Free	Gratuito	R$0	Sim — ~3-10 imagens/3h	Não
Plus	$20/mês	~R$110/mês	Sim — limites mais altos	Sim
Pro	$200/mês	~R$1.100/mês	Sim — sem limite de uso	Sim (prioridade)

Cotação de referência: R$5,50 por dólar (maio/2026). Cobranças no cartão têm IOF de 6,38%, elevando o Plus para ~R$117/mês real.

O free tier é genuinamente funcional, diferente de muitos “planos gratuitos” do mercado. As 3 a 10 imagens a cada 3 horas são suficientes para criar arte ocasional, testar o workflow, ou cobrir quem cria 1-2 peças por dia. Não serve para volume de agência, mas para o social media que precisa de 2 posts por semana, funciona sem pagar nada.

O Plus ($20/mês, ~R$110) faz sentido se você precisa do Thinking Mode — especialmente para composições complexas com texto, personagem consistente em várias imagens, ou geração em lote de até 8 imagens de uma vez.

Como acessar e usar o GPT Image 2 no ChatGPT

Passo a passo: da conta ao primeiro prompt

Acesse chatgpt.com pelo navegador ou app (iOS/Android)
Faça login ou crie uma conta gratuita — email, Google ou Apple
Na caixa de mensagem principal, digite seu prompt descrevendo a imagem
O ChatGPT seleciona automaticamente o modelo de imagem. Se quiser confirmar, procure o indicador “GPT Image 2” abaixo da geração
Para mudar o modo (Instant/Thinking), clique no ícone de modelo ao lado da caixa de texto

Não é preciso usar nenhum comando especial como /imagine. A interface é conversacional: você pede como numa mensagem, o ChatGPT gera e você refina no mesmo chat.

A geração funciona em português — você pode pedir “uma mulher jovem tomando café em São Paulo, luz da manhã, fotografia lifestyle” e o modelo entende. Para resultados mais controlados em estilo e composição, inglês ainda tem vantagem, mas o PT-BR é completamente funcional.

Instant Mode vs Thinking Mode: qual usar e quando

Esses são os dois comportamentos do GPT Image 2, e a diferença prática é maior do que parece.

Instant Mode (todos os planos, ~3 segundos):

Gera diretamente a partir do prompt, sem planejamento prévio
Qualidade muito acima do DALL-E 3 para uso cotidiano
Funciona bem para imagens simples: foto de produto, retrato, background, arte abstrata
É o modo padrão — você não precisa ativar nada

Thinking Mode (Plus+, ~10 segundos):

O modelo raciocina sobre o prompt antes de gerar: planeja composição, relações espaciais, textos a incluir
Pode acessar a web para consultar informação em tempo real durante a geração
Gera até 8 imagens coerentes de um único prompt, com consistência de personagem e objeto entre todas
Necessário para: texto complexo em imagem, personagem consistente em múltiplas cenas, composição com muitos elementos, prompts que dependem de informação atual

Quando usar cada um:

Post simples para Instagram → Instant
Infográfico com dados e texto → Thinking
Foto de produto → Instant
Série de posts com personagem consistente → Thinking
Arte de Stories → Instant
Mockup de embalagem com texto do produto → Thinking

O grande diferencial: texto em imagem que funciona em português

Esse é o motivo real pelo qual o GPT Image 2 mudou meu workflow para artes com copy.

Midjourney V7, Stable Diffusion 3.5 e o DALL-E 3 têm um problema em comum: peça para incluir texto em uma imagem e você recebe uma surpresa. Às vezes o texto aparece meio legível, às vezes é pura invenção tipográfica. Para o criativo brasileiro que precisa de arte com frase em PT-BR, isso tornava esses geradores inúteis para um caso de uso enorme: posts com quote, thumbnails com título, artes de promoção com preço, banners com copy.

O GPT Image 2 acerta ~99% das vezes, gerando em resolução até 4K. Não é perfeito em fontes muito estilizadas ou em textos muito longos dentro de um espaço pequeno, mas para os usos do dia a dia, entrega o que você pediu.

Como estruturar prompts para text rendering em PT-BR

Para maximizar a precisão do texto:

Coloque o texto que deve aparecer entre aspas no prompt: com o texto "FRETE GRÁTIS"
Especifique a posição: text at the bottom, centered text, text on the left side
Especifique o estilo tipográfico quando relevante: bold sans-serif, handwritten style, minimal clean font
Separe o texto do restante da descrição visual para evitar conflitos

5 prompts testados com text rendering em PT-BR

1. Post de Instagram com frase motivacional:

Clean minimalist Instagram post, soft beige background, 
centered black bold text reading "Progresso, não perfeição.",
small subtitle below: "cortexia.com.br", modern typography,
high contrast --ar 4:5

Para: perfis de coaching, lifestyle, marca pessoal.

2. Thumbnail de YouTube com título em português:

YouTube thumbnail, dark background with light streaks,
bold white text "Como Ganhar R$5.000 com IA" in the center,
photorealistic shocked person on the right side,
professional editing style --ar 16:9

Para: canais de educação, negócios, produtividade.

3. Arte de promoção para Stories:

Bold promotional Stories design, red and white gradient background,
large text "50% OFF" centered, smaller text below "Só hoje: use PROMO50",
modern graphic design, high energy visual --ar 9:16

Para: e-commerce, lojas, campanhas de desconto.

4. Rótulo de produto artesanal:

Artisanal product label, kraft paper texture, 
elegant serif font text "Mel do Sertão" as main title,
smaller text "Produção familiar desde 1998", 
botanical illustration around the text, warm earthy tones --ar 2:3

Para: produtos artesanais, alimentos, embalagem.

5. Card de citação para LinkedIn:

Professional LinkedIn card, clean white background,
quote text: "A IA não substitui o profissional. Ela distingue o que aprende do que não aprende.",
attribution below: "— V. Santos, CortexIA",
minimal design, blue accent line on left, modern layout --ar 1:1

Para: conteúdo de autoridade, marca profissional, thought leadership.

Parâmetros e controles que valem saber

O GPT Image 2 não usa parâmetros no estilo --ar do Midjourney — você descreve o que quer em linguagem natural. Mas há configurações que valem conhecer.

Aspect ratios suportados

O modelo aceita aspect ratios de 3:1 a 1:3, cobrindo praticamente todos os formatos de uso:

Formato	Aspect Ratio	Como pedir no prompt
Instagram feed (retrato)	4:5	`vertical 4:5 ratio` ou `portrait Instagram format`
Instagram Stories / Reels	9:16	`vertical 9:16 Stories format`
YouTube thumbnail	16:9	`horizontal 16:9 YouTube thumbnail`
LinkedIn / feed quadrado	1:1	`square format`
Banner horizontal	3:1	`wide horizontal banner 3:1`
Retrato (foto de produto)	2:3	`portrait 2:3 ratio`

O ChatGPT também entende instruções como “formato vertical para Stories” sem especificar o ratio — mas o ratio explícito garante resultado mais preciso.

Geração em lote e consistência de personagem (Thinking Mode)

Com Thinking Mode ativo, você pode pedir ao GPT Image 2 que gere até 8 imagens coerentes de um único prompt — com o mesmo personagem, os mesmos objetos e o mesmo estilo visual em todas as imagens.

Isso é relevante para quem precisa de um personagem de mascote em situações diferentes, uma série de posts com identidade visual consistente, ou um conjunto de imagens para uma apresentação.

No Instant Mode, cada geração é independente — consistência entre imagens requer prompt muito específico e mesmo assim não é garantida.

GPT Image 2 vs Midjourney V7 vs DALL-E 3: quando cada um ganha

Critério	GPT Image 2	Midjourney V7	DALL-E 3
Text rendering em PT-BR	✅ ~99% de precisão	❌ Ilegível na maioria	❌ Inconsistente
Plano gratuito real	✅ Free tier funcional	❌ Sem free desde 2023	✅ Free via Bing
Controle de estilo artístico	Médio	✅ Superior	Médio
Fotorrealismo sem configuração	Bom	Bom (com –style raw)	Regular
Volume profissional	Médio (free limitado)	✅ Relax Mode ilimitado	Limitado
Consistência de personagem	✅ Thinking Mode (lote de 8)	Parcial (–seed/–sref)	Baixa
Busca web integrada na geração	✅ Thinking Mode	❌	❌
Preço de entrada no Brasil	R$0 (free)	~R$55/mês (Basic)	R$0 (Bing)
Status em mai/2026	Ativo, modelo principal	Ativo, V7 default	Sendo aposentado (12/05)

GPT Image 2 ganha em: text rendering, acesso gratuito, consistência de personagem em lote, integração com web Midjourney V7 ganha em: controle de estilo artístico, volume com Relax Mode, parâmetros avançados DALL-E 3: está sendo aposentado — não faz mais sentido aprender a usar

O GPT Image 2 não substitui o Midjourney para quem trabalha com estilo artístico sofisticado, estilos editoriais específicos ou geração em alto volume. Mas para quem precisa de texto legível em imagem — post com frase, arte com copy, thumbnail com título — não tem comparação no mercado hoje. Se a dúvida ainda é qual dos dois faz mais sentido no seu fluxo, o comparativo GPT Image 2 vs Midjourney cobre os critérios em detalhe.

Perguntas frequentes sobre GPT Image 2

O GPT Image 2 é gratuito? Sim, com limites. O free tier do ChatGPT permite ~3 a 10 gerações a cada 3 horas, sem custo. Sem Thinking Mode, sem geração em lote. Para uso mais intenso, o Plus custa $20/mês (~R$110).

Qual a diferença entre GPT Image 2 e DALL-E 3? O DALL-E 3 está sendo aposentado em 12 de maio de 2026. O GPT Image 2 é mais rápido, tem text rendering com ~99% de precisão, e inclui o Thinking Mode (exclusivo Plus+). A qualidade geral de imagem também melhorou significativamente.

GPT Image 2 funciona em português? Sim. Você pode escrever prompts em PT-BR e o modelo entende. O text rendering — ou seja, texto que aparece dentro da imagem — também funciona em português com ~99% de precisão, o que é o principal diferencial.

O que é o Thinking Mode? É um modo de geração onde o GPT Image 2 raciocina sobre o prompt antes de gerar: planeja composição, textos, relações espaciais. Pode usar busca web em tempo real. Gera até 8 imagens coerentes de um prompt. Exclusivo para planos Plus, Pro, Business e Enterprise.

O GPT Image 2 serve para uso comercial? Sim. Tanto o free tier quanto o Plus têm licença comercial, sujeita aos termos de uso da OpenAI. Não há restrição de uso comercial por plano — o que varia é o volume de geração.

Como fazer texto em imagem com IA usando o GPT Image 2? Coloque o texto desejado entre aspas no prompt: com o texto "PROMOÇÃO 30% OFF". Especifique posição (centered, bottom) e estilo tipográfico (bold sans-serif, handwritten). Use o Thinking Mode para textos complexos ou múltiplos elementos de texto na mesma imagem.

Veredicto: quem deveria usar o GPT Image 2

O GPT Image 2 entrou como a ferramenta que resolve o maior ponto cego da geração de imagem com IA para o mercado brasileiro: texto em português dentro da imagem. Para quem cria posts com copy, thumbnails com título, banners com promoção — isso não é detalhe, é a razão pela qual essa categoria de ferramenta era inútil antes.

Para social media managers e criadores de conteúdo que precisam de arte com texto: use o GPT Image 2 agora, mesmo no free tier. Para a maioria dos casos de uso de copy em imagem, ele já entrega o que você precisa.

Para designers e criativos que trabalham com estilo artístico específico: o GPT Image 2 é bom, mas o Midjourney V7 ainda tem mais controle de estilo. A escolha ideal pode ser usar os dois: Midjourney para composição artística, GPT Image 2 quando a imagem precisa de texto. Se ainda não domina o Midjourney, o passo a passo do Midjourney cobre o workflow completo da interface web ao prompt avançado.

Para quem usava DALL-E 3: a migração já aconteceu — o GPT Image 2 é superior em todos os critérios relevantes e o DALL-E 3 vai ser descontinuado em 12 de maio de 2026.

A OpenAI deve lançar acesso via API a partir de maio/2026, o que vai permitir integração do GPT Image 2 em workflows automatizados e ferramentas de criação de conteúdo. Quem já domina os prompts agora vai ter vantagem quando isso acontecer. Para uma visão completa das opções de geração de imagem, vídeo e áudio com IA em 2026, o guia de ferramentas de IA para criar imagens cobre as principais alternativas por categoria.