A empresa de xAI de Musk lançou o Grok 4.1 de forma discreta, liderando os gráficos da LMArena com 1.483 pontos e conquistando os dois primeiros lugares no teste de inteligência emocional EQ-Bench3. O novo modelo dá um salto qualitativo na criatividade, na interação emocional e na interação colaborativa, com uma taxa de seleção de preferências do utilizador de 64,78% e uma redução significativa na taxa de desilusão, e foi totalmente aberto através da plataforma X e da aplicação móvel.
- 此摘要由AI分析文章内容生成,仅供参考。
Sem aviso prévio, a empresa de xAI de Musk lançou discretamente o seu último grande modelo, o Grok 4.1. Não houve um grande lançamento, nem uma publicidade avassaladora, tal como um mestre que esconde o seu trabalho e o seu nome e fala apenas com a sua força.
O Grok 4.1 está agora totalmente disponível no site da Grok, na plataforma X e nas aplicações para iOS e Android. Este lançamento, aparentemente discreto, deu início a uma revolução silenciosa na IA.

Capacidades no mundo real: mais do que parâmetros, mais do que experiência
O mais surpreendente do Grok 4.1 não é o desempenho subjacente, mas sim o seu desempenho em cenários reais. A equipa da xAI sublinhou no seu anúncio que o novo modelo proporciona um salto qualitativo na criatividade, nas interações emocionais e nas interações colaborativas.
A capacidade do modelo para perceber intenções subtis é significativamente melhorada, o diálogo é mais natural e suave e o desempenho geral da personalidade é mais coerente. O que é mais raro é que estas melhorias emocionais não sacrificaram a poderosa inteligência e fiabilidade do modelo anterior.
Por detrás disto está a otimização adicional da xAI do estilo, personalidade, utilidade e alinhamento do modelo na mesma infraestrutura de aprendizagem por reforço em grande escala que sustenta o Grok 4. Para otimizar estas dimensões, que são difíceis de avaliar quantitativamente, a xAI desenvolveu mesmo novos métodos de avaliação e iteração autónoma em grande escala, utilizando modelos de raciocínio corporal inteligente de ponta como modelos de recompensa.
Os dados do mundo real mostram que o Grok 4.1 tem uma probabilidade de 64,78% de ser selecionado pela preferência do utilizador numa avaliação comparativa em comparação com este modelo de produção online anterior. Isto não é um jogo de dados no laboratório, mas o resultado de uma votação real dos utilizadores.

Capacidade genérica no topo: as pontuações SOTA são esmagadas em toda a linha
Na tabela de classificação do Text Arena da LMArena, o modelo de inferência do Grok 4.1 liderou a lista geral com uma pontuação Elo de 1.483, 31 pontos à frente do modelo sem IA mais elevado. Esta diferença equivale a uma vantagem entre gerações na avaliação do desempenho da IA.
O modelo sem raciocínio do Grok 4.1 não fica muito atrás, ficando em segundo lugar com uma pontuação Elo de 1.465. Isto significa que, mesmo sem o raciocínio profundo ativado, o Grok 4.1 supera os outros modelos quando jogado na sua força máxima.
Em comparação com a classificação anterior do Grok 4, que era apenas a 33ª, o Grok 4.1 deu um salto incrível. Não se trata de uma melhoria incremental, mas de um avanço revolucionário.

A Revolução da Inteligência Emocional: ler corações e mentes, não apenas compreender palavras
A xAI avaliou a inteligência emocional do Grok 4.1 no teste de referência EQ-Bench3. Este teste, avaliado pelo Big Language Model, avalia especificamente a inteligência emocional ativa, incluindo a compreensão emocional, a perceção, a empatia e as competências interpessoais.
O teste consistia em 45 cenários desafiantes de dramatização, a maioria dos quais consistia em três rondas de prompts de diálogo pré-escritos. Os resultados mostram que os modos Raciocínio e Não Raciocínio do Grok 4.1 ficaram nos dois primeiros lugares da lista.

Isto significa que o Grok 4.1 não só compreende o que diz, como também percebe porque o diz e até capta as emoções não expressas nas entrelinhas. Isto é especialmente valioso quando precisa de um ouvinte e não apenas de uma resposta.

Escrita criativa: de ferramenta fria a colaborador caloroso
No teste de referência Creative Writing v3, o Grok 4.1 também demonstrou capacidades de escrita criativa surpreendentes. Num teste de 32 sugestões de escrita diferentes, o Grok 4.1 ficou em segundo e terceiro lugar nos modos inferencial e não inferencial, respetivamente, apenas ligeiramente atrás do anterior GPT 5.1.

Esta capacidade criativa não é simplesmente um preenchimento de modelos, mas uma mistura profunda de uma verdadeira compreensão do contexto, estilo e emoção. Quer esteja a criar um excerto de um romance ou a escrever um texto de marketing, o Grok 4.1 dá-lhe um toque humano único, mantendo os padrões profissionais.

Reduzir as ilusões: um assistente de IA mais fiável
A xAI concentrou-se especificamente na redução de erros factuais nos avisos do tipo consulta de informações durante o processo de pós-treinamento do Grok 4.1.
Os resultados do teste mostram que o Grok 4.1 tem uma taxa significativamente menor de desilusão em uma amostra de solicitações de consulta de informações do ambiente de produção. O Grok 4.1 teve um bom desempenho no teste de referência FActScore (contendo 500 perguntas do tipo biografia sobre diferentes pessoas).

Porque é que este lançamento é tão discreto?
Curiosamente, ao contrário do estilo de alto perfil anterior da xAI, o lançamento do Grok 4.1 foi invulgarmente discreto. Isto pode refletir o novo pensamento de Musk sobre o desenvolvimento da IA: os avanços tecnológicos não devem depender apenas do marketing, mas sim do desempenho real para ganhar o reconhecimento do utilizador.
Hoje, quando a corrida à IA está cada vez mais acesa, a xAI opta por falar com o produto e deixar que a experiência do utilizador seja o juiz. Esta atitude pragmática, pelo contrário, destaca a forte confiança no desempenho do Grok 4.1.

Como experimentar o Grok 4.1
O Grok 4.1 está agora totalmente aberto:
- Visite o site oficial da Grok
- Usando a funcionalidade Grok integrada da X Platform
- Descarregar as aplicações para iOS e Android
- Seleção manual do Grok 4.1 no seletor de modelos
O Grok 4.1 será enviado automaticamente no modo Automático para proporcionar a melhor experiência de utilizador. Quer seja um trabalhador criativo, um investigador ou um utilizador regular, poderá encontrar o cenário de utilização ideal para si.

Recursos técnicos::
- Cartões modelo:https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf
- Blogue oficial:https://x.ai/news/grok-4-1


评论列表 (13条):
加载更多评论 Carregando...