OpenAI lança ChatGPT Imagens 2.0 com geração mais precisa e multilingue

A OpenAI anunciou nesta terça-feira (21) a disponibilidade geral do ChatGPT Imagens 2.0, um novo modelo de geração de imagens por inteligência artificial.

O sistema, que já pode ser acessado por todos os usuários do ChatGPT e do Codex, apresenta melhorias significativas na interpretação de instruções complexas, renderização de texto e suporte a múltiplos idiomas, incluindo português. A atualização também chega à plataforma de desenvolvedores via API, sob o nome gpt-image-2.

Principais avanços técnicos do novo modelo

O ChatGPT Imagens 2.0 representa uma evolução em relação à versão anterior, com foco em aumentar a precisão e a utilidade para aplicações práticas. Segundo a OpenAI, o modelo demonstra capacidade superior em seguir instruções detalhadas, posicionar e relacionar objetos com maior exatidão e renderizar textos densos, mesmo em composições visuais complexas.

Precisão e controle ampliados

Um dos destaques é a maior fidelidade na geração de elementos finos que costumam desafiar modelos de imagem, como texto pequeno, iconografia, elementos de interface do usuário (UI) e composições densas. O modelo suporta resolução de até 2K na API, buscando entregar resultados prontos para uso, e não apenas aproximações conceituais.

Capacidades multilingues reforçadas

A OpenAI afirma que o Imagens 2.0 supera uma barreira importante: a inconsistência na geração de textos em idiomas não latinos. O modelo mostra ganhos significativos na renderização de textos em japonês, coreano, chinês, hindi e bengali, podendo produzir elementos visuais onde a linguagem é parte integrante do design, como em pôsteres, diagramas e histórias em quadrinhos.

Integração com modelos de raciocínio e novas funcionalidades

Pela primeira vez, um modelo de geração de imagens da OpenAI incorpora capacidades de “pensamento” (thinking). Quando um usuário seleciona um modelo com essa capacidade no ChatGPT, o Imagens 2.0 pode realizar buscas na web por informações em tempo real, criar múltiplas imagens distintas a partir de um único prompt e verificar suas próprias saídas.

Geração de conjuntos coerentes

Essa funcionalidade permite solicitar até oito saídas coerentes de uma vez, com continuidade de personagens e objetos. Isso viabiliza fluxos de trabalho como a criação de sequências de páginas de mangá, uma série de conceitos de redesign para diferentes cômodos ou uma família de pôsteres para uma campanha.

Proporções de imagem flexíveis

O novo modelo oferece suporte a uma gama mais ampla de proporções (aspect ratios), de 3:1 (muito larga) a 1:3 (muito alta). Isso permite a geração de imagens otimizadas para formatos específicos, como banners largos, slides de apresentação, pôsteres verticais e gráficos para redes sociais, diretamente a partir do prompt.

Disponibilidade e aplicações práticas

O ChatGPT Imagens 2.0 está disponível imediatamente para todos os usuários do ChatGPT e do Codex. Os recursos avançados que utilizam a capacidade de raciocínio estão acessíveis para assinantes dos planos Plus, Pro, Business e Enterprise.

Para desenvolvedores e empresas

Na API, o modelo é disponibilizado como `gpt-image-2`. A OpenAI destaca que a ferramenta foi projetada para casos de uso empresarial, como criação de anúncios localizados, infográficos, conteúdo educacional, ferramentas de design e plataformas criativas. Empresas como Canva, Figma e Adobe já estão integrando o modelo em seus fluxos de produção.

Limitações reconhecidas e segurança

A OpenAI reconhece que o modelo, apesar dos avanços, não é perfeito. Ele ainda pode ter dificuldades com tarefas que exigem um modelo físico do mundo completamente coerente, como guias de origami ou quebra-cabeças como o Cubo de Rubik. Detalhes muito densos ou repetitivos, como grãos de areia finos, e a renderização precisa de etiquetas e diagramas com setas também podem ser desafios.

A empresa reitera seu compromisso com uma abordagem de segurança de ponta a ponta, trabalhando para prevenir resultados nocivos e fortalecendo continuamente suas proteções à medida que as capacidades evoluem. Um documento detalhando a abordagem de segurança do sistema (system card) foi publicado junto com o lançamento.

Fonte: OpenAI