「Grok-1.5V」の未来への期待
凄い数字はじき出しているんですが、xはここ暫く、おもいっきり触っているのが分かる程、負荷がかかって~重くて~グダグタ。期待は膨らむばかりです。Grok-2.0 は全てにおいて、open AIを凌駕すると噂は出ていますが、どうなんでしょうね???
それはそうと、今日 "claude3-opus" 使っていて、何か性能落ちているのでは???と感じました。期待の延長で、長いテキストを生成することを望み、誤りが増えるというパターンか???とも分析していますが、不具合もあるワケで微妙です。
それはそうと、今日 "claude3-opus" 使っていて、何か性能落ちているのでは???と感じました。期待の延長で、長いテキストを生成することを望み、誤りが増えるというパターンか???とも分析していますが、不具合もあるワケで微妙です。
Grok-1.5Vの特徴と性能
多イーロン・マスク氏のAI企業xAIは、LLM「Grok」の更新版「Grok-1.5V」を発表。
最大の特徴は画像認識能力で、手書きのフローチャートやスクリーンショット、写真などの解析が可能。
ベンチマーク結果では、空間理解能力がOpenAIの「GPT-4V」、Anthropicの「Claude 3 Sonnet」および「Claude 3 Opus」、Googleの「Gemini Pro 1.5」よりも優れている。
今後数カ月で、音声や動画などのモダリティにも対応予定。
1.5Vは、xAI初のマルチモーダルモデルで、画像を認識する。
例えば、ホワイトボードに手書きしたフローチャートをPythonのコードに変換したり、画像のユーモアを説明したりできる。
新たなベンチマーク「RealWorldQA」で、空間理解能力が競合モデルよりも優れていることが示された。
今後、音声や動画などのモダリティにも対応し、理解だけでなく生成の機能も大幅に改善していく予定。
最大の特徴は画像認識能力で、手書きのフローチャートやスクリーンショット、写真などの解析が可能。
ベンチマーク結果では、空間理解能力がOpenAIの「GPT-4V」、Anthropicの「Claude 3 Sonnet」および「Claude 3 Opus」、Googleの「Gemini Pro 1.5」よりも優れている。
今後数カ月で、音声や動画などのモダリティにも対応予定。
1.5Vは、xAI初のマルチモーダルモデルで、画像を認識する。
例えば、ホワイトボードに手書きしたフローチャートをPythonのコードに変換したり、画像のユーモアを説明したりできる。
新たなベンチマーク「RealWorldQA」で、空間理解能力が競合モデルよりも優れていることが示された。
今後、音声や動画などのモダリティにも対応し、理解だけでなく生成の機能も大幅に改善していく予定。
note version
内容が多少異なる場合があります。
本日のtag… #Grok #Grok1.5V #ElonMusk