マスクのxAI会社はGrok 4.1を目立たないようにリリースし、LMArenaチャートで1,483ポイントを獲得してトップに立ち、EQ-Bench3感情知能テストでは上位2位を獲得した。新モデルは、創造性、感情的インタラクション、協調的インタラクションの質的飛躍を達成し、ユーザーの嗜好選択率は64.78%、幻滅率は大幅に低下し、Xプラットフォームとモバイルアプリを通じて全開放された。
- 此摘要由ai分析文章内容生成,仅供参考。
何の前触れもなく、マスクのxAI企業は最新の大型モデル「Grok 4.1」をひっそりと発表した。大々的な発表もなく、圧倒的な宣伝もなく、まるで自分の作品と名前を隠し、自分の力だけで語る巨匠のようだった。
Grok 4.1は現在、Grokのウェブサイト、Xプラットフォーム、そしてiOSとAndroidのアプリで完全に利用可能だ。この一見地味なリリースは、AIにおける静かな革命を起こした。

実世界での能力:パラメータ以上、経験以上
Grok4.1の最も驚くべき点は、基本的な性能ではなく、現実のシナリオでどのように機能するかである。xAIチームは発表の中で、新しいモデルが創造性、感情的な相互作用、協調的な相互作用において質的な飛躍をもたらすことを強調している。
モデルの微妙な意図を察知する能力は大幅に強化され、セリフはより自然で滑らかになり、全体的なパーソナリティ・パフォーマンスはより首尾一貫している。最も珍しいのは、こうしたエモーショナルな強化によって、先代モデルのパワフルな知性と信頼性が犠牲にされていないことだ。
この背景には、Grok 4を支えるのと同じ大規模な強化学習インフラ上で、xAIがモデルのスタイル、性格、有用性、アライメントをさらに最適化していることがある。定量的な評価が難しいこれらの次元を最適化するために、xAIは最先端の知的身体推論モデルを報酬モデルとして使用し、大規模な自律的評価と反復のための新しい手法まで開発した。
現実のデータは、Grok 4.1が、この以前のオンライン生産モデルと比較して、比較評価でユーザーの好みによって選択される確率が64.78%であることを示している。これは研究室でのデータゲームではなく、実際のユーザー投票の結果である。

トップはジェネリック能力:SOTAのスコアが軒並み大暴落
LMArenaのText Arenaリーダーボードでは、Grok 4.1の推論モデルがEloスコア1,483で総合首位となり、非xAIモデルの最高位を31ポイントも引き離した。この差は、AIの性能評価における世代を超えたアドバンテージに相当する。
Grok 4.1の非推理モデルも遠く及ばず、Eloスコア1,465で2位につけている。つまり、ディープシンキングを有効にしていなくても、Grok 4.1はフルパワーでプレーすれば他のモデルを凌駕するのである。
Grok 4の前回の順位が33位だったのに比べ、Grok 4.1は驚くべき飛躍を遂げた。これは漸進的な改善ではなく、破壊的なブレークスルーである。

エモーショナル・インテリジェンス革命:言葉を理解するだけでなく、心を読む
xAIはEQ-Bench3ベンチマークでGrok 4.1の感情知能をベンチマークしました。このテストはビッグ・ランゲージ・モデルによって判定され、特に感情理解、洞察力、共感力、対人スキルを含む能動的な感情知能を評価します。
テストは、45の挑戦的なロールプレイング・シナリオで構成され、そのほとんどは、事前に書かれたダイアログ・プロンプトの3ラウンドで構成されていた。その結果、Grok 4.1のReasoningモードとNon-Reasoningモードが上位2位を占めた。

つまり、Grok 4.1は、あなたが言ったことを理解するだけでなく、なぜそれを言ったのか、そして行間にある言葉にならない感情までも感じ取ることができるのです。これは、単なる回答者ではなく、聞き手が必要な場合に特に価値があります。

クリエイティブ・ライティング:冷たい道具から温かい協力者へ
Creative Writing v3ベンチマークテストでも、Grok 4.1は驚くべき創造的な文章作成能力を発揮した。32種類のライティング・プロンプトのテストにおいて、Grok 4.1は、推論モードと非推論モードでそれぞれ2位と3位を獲得し、先行するGPT 5.1にわずかに及ばなかった。

このクリエイティブな能力は、単なるテンプレートフィラーではなく、文脈、スタイル、感情に対する真の理解との深い融合です。小説のスニペットを作成する場合でも、マーケティングコピーを作成する場合でも、Grok 4.1はプロフェッショナルな水準を維持しながら、ユニークな人間味を注入します。

幻想を減らす:より信頼できるAIアシスタント
xAIは、Grok 4.1の事後トレーニングにおいて、情報照会タイプのプロンプトにおける事実誤認を減らすことに特に重点を置いた。
テストの結果、Grok 4.1は、本番環境の情報照会プロンプトのサンプルにおいて、幻滅率が著しく低いことが示された。Grok 4.1は、FActScoreベンチマークテスト(さまざまな人々に関する500の伝記タイプの質問を含む)において良好な成績を収めた。

なぜこのリリースは控えめなのか?
興味深いことに、xAIのこれまでの注目度の高いスタイルとは異なり、Grok 4.1のリリースは異例なほど控えめだった。これは、AI開発に対するマスクの新しい考え方を反映しているのかもしれない。技術的なブレークスルーはマーケティングだけに頼るのではなく、実際のパフォーマンスによってユーザーの評価を勝ち取るべきだというのだ。
AI競争がますます熱くなっている今日、xAIは製品と対話し、ユーザー体験に判断を委ねることを選択した。この現実的な態度は、逆にGrok 4.1の性能に対する強い自信を浮き彫りにしている。

Grok 4.1の体験方法
Grok 4.1がフルオープンになりました:
- グロックの公式サイトを見る
- X Platformに統合されたGrok機能の使用
- iOSおよびAndroidアプリをダウンロードする
- モデルセレクターでGrok 4.1を手動選択
Grok 4.1は、最高のユーザー体験を提供するため、Autoモードで自動的にプッシュされます。クリエイティブワーカー、研究者、一般ユーザーなど、利用シーンに合わせた使い方が可能です。

技術リソース::


警告: printf(): 引数が少なすぎます。 /www/wwwroot/school.myshirtai.com/wp-content/themes/meteorpro/comments.php オンライン 23
加载更多评论 読み込み中...