La société xAI de Musk a publié Grok 4.1 de manière discrète, arrivant en tête du classement LMArena avec 1 483 points et remportant les deux premières places du test d'intelligence émotionnelle EQ-Bench3. Le nouveau modèle réalise un saut qualitatif en matière de créativité, d'interaction émotionnelle et d'interaction collaborative, avec un taux de sélection des préférences de l'utilisateur de 64,78% et une réduction significative du taux de désillusion, et a été entièrement ouvert via la plateforme X et l'application mobile.
- 此摘要由AI分析文章内容生成,仅供参考。
Sans crier gare, la société xAI de Musk a discrètement lancé son dernier grand modèle, Grok 4.1. Il n'y a pas eu de grand lancement, pas de publicité démesurée, comme un maître qui cache son travail et son nom, et ne parle qu'avec sa force.
Grok 4.1 est désormais entièrement disponible sur le site web de Grok, sur la plateforme X et dans les applications iOS et Android. Cette version apparemment discrète est à l'origine d'une révolution tranquille dans le domaine de l'IA.

Capacités réelles : plus que des paramètres, plus que de l'expérience
L'aspect le plus surprenant de Grok 4.1 n'est pas la performance sous-jacente, mais la façon dont il se comporte dans des scénarios réels. L'équipe xAI a souligné dans son annonce que le nouveau modèle offre un saut qualitatif en matière de créativité, d'interactions émotionnelles et d'interactions collaboratives.
La capacité du modèle à percevoir des intentions subtiles est considérablement améliorée, le dialogue est plus naturel et plus fluide, et la performance globale de la personnalité est plus cohérente. Le plus rare est que ces améliorations émotionnelles n'ont pas sacrifié la puissante intelligence et la fiabilité du modèle précédent.
Derrière cela, xAI poursuit l'optimisation du style, de la personnalité, de la serviabilité et de l'alignement du modèle sur la même infrastructure d'apprentissage par renforcement à grande échelle que celle qui sous-tend Grok 4. Pour optimiser ces dimensions, qui sont difficiles à évaluer quantitativement, xAI a même développé de nouvelles méthodes d'évaluation et d'itération autonomes à grande échelle en utilisant des modèles de raisonnement corporel intelligent de pointe comme modèles de récompense.
Les données réelles montrent que Grok 4.1 a une probabilité de 64,78% d'être sélectionné par la préférence des utilisateurs dans une évaluation comparative par rapport à ce modèle de production en ligne précédent. Il ne s'agit pas d'un jeu de données en laboratoire, mais du résultat d'un véritable vote des utilisateurs.

La capacité générique au sommet : les scores du SOTA s'effondrent dans tous les domaines
Dans le classement Text Arena de LMArena, le modèle d'inférence de Grok 4.1 est arrivé en tête avec un score Elo de 1 483, soit 31 points d'avance sur le modèle non-XAI le plus performant. Cet écart équivaut à un avantage transgénérationnel dans l'évaluation des performances de l'IA.
Le modèle sans raisonnement de Grok 4.1 n'est pas loin derrière, se classant deuxième avec un score Elo de 1 465. Cela signifie que même si le raisonnement profond n'est pas activé, Grok 4.1 surpasse les autres modèles lorsqu'il est joué à pleine puissance.
Par rapport au classement précédent de Grok 4, qui n'était que 33e, Grok 4.1 a fait un incroyable bond en avant. Il ne s'agit pas d'une amélioration progressive, mais d'une percée décisive.

La révolution de l'intelligence émotionnelle : lire dans les cœurs et les esprits, et pas seulement comprendre les mots
xAI a évalué l'intelligence émotionnelle du Grok 4.1 dans le cadre du test EQ-Bench3. Ce test, jugé par le Big Language Model, évalue spécifiquement l'intelligence émotionnelle active, y compris la compréhension émotionnelle, la perspicacité, l'empathie et les compétences interpersonnelles.
Le test consistait en 45 scénarios de jeux de rôle difficiles, dont la plupart consistaient en trois séries de dialogues pré-écrits. Les résultats ont montré que les modes raisonnement et non-raisonnement de Grok 4.1 étaient les deux premiers de la liste.

Cela signifie que Grok 4.1 comprend non seulement ce que vous dites, mais aussi pourquoi vous le dites, et saisit même les émotions non exprimées entre les lignes. C'est particulièrement précieux lorsque vous avez besoin d'un auditeur, et pas seulement d'un répondeur.

L'écriture créative : de l'outil froid au collaborateur chaleureux
Dans le test de référence Creative Writing v3, Grok 4.1 a également fait preuve d'étonnantes capacités d'écriture créative. Lors d'un test portant sur 32 questions d'écriture différentes, Grok 4.1 s'est classé deuxième et troisième pour les modes déductif et non déductif, respectivement, à peine derrière le GPT 5.1, plus ancien.

Cette capacité créative n'est pas un simple remplissage de modèle, mais un mélange profond d'une véritable compréhension du contexte, du style et de l'émotion. Qu'il s'agisse de créer un extrait de roman ou de rédiger un texte marketing, Grok 4.1 apporte une touche humaine unique tout en respectant les normes professionnelles.

Réduire les illusions : un assistant IA plus fiable
En tant qu'assistant d'IA destiné à un usage quotidien, la précision est essentielle. xAI s'est spécifiquement concentré sur la réduction des erreurs factuelles dans les invites de type requête d'information au cours de la post-formation de Grok 4.1.
Les résultats des tests montrent que Grok 4.1 a un taux de désillusion significativement plus faible dans un échantillon d'invites de requête d'information de l'environnement de production. Grok 4.1 a obtenu de bons résultats dans le test de référence FActScore (contenant 500 questions de type biographique sur différentes personnes).

Pourquoi cette publication est-elle si discrète ?
Il est intéressant de noter que, contrairement au style très médiatisé de xAI, la sortie de Grok 4.1 a été inhabituellement discrète. Cela pourrait refléter le nouveau point de vue de Musk sur le développement de l'IA : les percées technologiques ne doivent pas reposer uniquement sur le marketing, mais doivent s'appuyer sur des performances réelles pour gagner la reconnaissance des utilisateurs.
Aujourd'hui, alors que la course à l'IA devient de plus en plus chaude, xAI choisit de parler avec le produit et de laisser l'expérience utilisateur en juger. Cette attitude pragmatique souligne au contraire la forte confiance dans les performances de Grok 4.1.

Comment découvrir Grok 4.1
Grok 4.1 est maintenant entièrement ouvert :
- Visitez le site officiel de Grok
- Utilisation de la fonctionnalité Grok intégrée à la plate-forme X
- Télécharger les applications iOS et Android
- Sélection manuelle de Grok 4.1 dans le sélecteur de modèle
Grok 4.1 sera poussé automatiquement en mode Auto pour offrir la meilleure expérience utilisateur. Que vous soyez un travailleur créatif, un chercheur ou un utilisateur régulier, vous pourrez trouver le scénario d'utilisation qui vous convient.

Ressources techniques: :
- Modèles de cartes :https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf
- Blog officiel :https://x.ai/news/grok-4-1


评论列表 (13条):
加载更多评论 Chargement...