A startup chinesa de inteligência artificial Moonshot AI, sediada em Pequim, anunciou o lançamento do Kimi K2 Thinking, uma nova variante de seu modelo de IA de código aberto. A disponibilização ocorreu na quinta-feira, com o modelo acessível via Kimi.com e sua interface de programação de aplicações (API).
O lançamento gerou repercussão imediata após o modelo superar os principais concorrentes de código fechado, como o GPT-5 da OpenAI e o Claude Sonnet 4.5 da Anthropic, em múltiplos benchmarks de avaliação de desempenho.
Desempenho em benchmarks de referência
Pesquisadores da Moonshot AI detalharam no GitHub que o Kimi K2 Thinking “estabeleceu novos recordes em benchmarks que avaliam capacidades de raciocínio, codificação e agente”.
Detalhes dos testes
No benchmark “Humanity’s Last Exam”, que consiste em 2.500 perguntas abrangendo uma vasta gama de assuntos, o Kimi K2 Thinking obteve uma pontuação de 44,9%. Esse resultado superou os do GPT-5 e do Claude Sonnet 4.5.
No teste BrowseComp, desenhado para avaliar a proficiência de navegação na web e a persistência na busca de informações por agentes de LLM, o modelo chinês alcançou 60,2%.
Outra vitória ocorreu no benchmark Seal-0, que desafia LLMs aumentados por busca com consultas de pesquisa do mundo real, onde o Kimi K2 obteve 56,3%.
Avaliação de consultorias
A consultoria Artificial Analysis, em avaliação independente, posicionou a variante Kimi K2 no topo do seu benchmark Tau-2 Bench Telecom. O modelo atingiu 93% de precisão, descrita pela consultoria como “a pontuação mais alta que mediu independentemente”.
O Tau-2 Bench é um benchmark de IA conversacional de controle duplo que simula cenários de suporte técnico. Nesses cenários, tanto o agente quanto o usuário devem coordenar ações para resolver problemas de serviços de telecomunicações. A Artificial Analysis concluiu que o Kimi K2 Thinking é “potencialmente o novo modelo [de código aberto] líder”.
Arquitetura e treinamento do modelo
1 trilhão de parâmetros e MoE
O Kimi K2 Thinking foi desenvolvido com 1 trilhão de parâmetros. Parâmetros são as variáveis internas que um modelo de IA utiliza para processar informações e tomar decisões, e um número maior de parâmetros é frequentemente associado a um melhor desempenho.
O modelo utiliza uma arquitetura “Mixture-of-Experts” (MoE). Este design imita a abordagem humana para resolver problemas, dividindo tarefas complexas entre um conjunto de “especialistas” especializados dentro da própria rede neural.
Abordagem “model-as-an-agent”
A Moonshot AI, que conta com investimento da Alibaba Group Holding e da Tencent Holdings, atribuiu o desempenho superior do modelo a uma abordagem de treinamento específica, denominada “model-as-an-agent” (modelo-como-um-agente).
Segundo a empresa, essa metodologia de treinamento reforçou a capacidade do Kimi K2 de “usar várias ferramentas de agente ao raciocinar” na execução de tarefas complexas.
Impacto no mercado e o hiato entre código aberto e fechado
Repercussão de especialistas
Os resultados do Kimi K2 Thinking foram vistos por especialistas como um sinal de que as empresas de IA chinesas reduziram significativamente a diferença de desempenho entre seus modelos de código aberto e os modelos de código fechado desenvolvidos nos EUA.
Deedy Das, sócio da Menlo Ventures, uma firma de capital de risco, descreveu o lançamento como um “ponto de virada na IA” em uma postagem na plataforma X na sexta-feira. “Um modelo de código aberto chinês é o número 1. Momento seminal na IA”, escreveu.
Nathan Lambert, pesquisador do Allen Institute for AI, sediado em Seattle, afirmou que este é “o mais próximo que os modelos abertos estiveram da fronteira fechada de desempenho da IA”. Em artigo no Substack, Lambert destacou que o sucesso de desenvolvedores chineses como Moonshot AI e DeepSeek “fez os laboratórios fechados suarem”.
Mohammad Emad Mostaque, fundador da Stability AI, corroborou essa visão, postando no X que o novo modelo mostra que “a lacuna entre [modelos] fechados e abertos continua a diminuir”.
Competição de custos
Além da performance, o fator custo se destacou. O custo da API do Kimi K2 Thinking foi calculado como sendo de 6 a 10 vezes mais barato em comparação com os modelos equivalentes da OpenAI e da Anthropic.
Nathan Lambert, do Allen Institute for AI, comentou sobre essa nova dinâmica, afirmando que agora existe uma “séria pressão de preços e expectativas que [os desenvolvedores dos EUA] precisam gerenciar”.
Fonte: South China Morning Post






