A visão Grok permite que o chatbot da xAI analise imagens do mundo real em celulares

Capacidades Multimodais do Grok-1.5V

Grok-1.5V representa a primeira incursão da xAI em IA multimodal, expandindo além do texto para processar diversas informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotografias. O modelo se destaca especialmente na compreensão espacial do mundo real, superando concorrentes como GPT-4V, Claude 3 e Gemini Pro 1.5 com uma pontuação líder de 68,7% no benchmark RealWorldQA, desenvolvido especificamente para medir essa capacidade.

As aplicações práticas do processamento visual do Grok-1.5V são extensas, permitindo calcular calorias a partir de imagens de alimentos, explicar memes, converter tabelas para o formato CSV, gerar histórias a partir de desenhos à mão, diagnosticar problemas como madeira podre e resolver desafios de programação. Essas capacidades tornam o Grok-1.5V particularmente valioso para tarefas que exigem raciocínio complexo entre disciplinas, aproximando o mundo digital e físico de uma forma que se assemelha mais à percepção humana.

RealWorldQA Compreensão Espacial

RealWorldQA é um benchmark especificamente projetado para avaliar o quão bem modelos de IA multimodais compreendem relações espaciais em ambientes físicos. Desenvolvido pela xAI e lançado juntamente com o Grok-1.5V, esse benchmark consiste em mais de 700 imagens de cenários do mundo real, cada uma acompanhada de uma pergunta e uma resposta verificável. Embora essas perguntas possam parecer simples para humanos, elas frequentemente desafiam até mesmo modelos de IA de ponta ao testar sua capacidade de compreender espaços físicos e relações entre objetos.

O benchmark revelou variações significativas de desempenho entre os principais modelos multimodais. O Grok-1.5V lidera com 68,7%, seguido pelo Gemini Pro 1.5 com 67,5% e o GPT-4V com 61,4%, enquanto os modelos Claude pontuam abaixo de 52%. Essa diferença de desempenho destaca uma diferença crítica de capacidade em como esses modelos processam e raciocinam sobre informações espaciais em contextos do mundo real. Diferente de outros benchmarks que focam em raciocínio espacial estático, o RealWorldQA enfatiza a compreensão espacial prática necessária para que assistentes de IA do mundo real funcionem de forma eficaz em ambientes físicos.

Análise Visual Baseada em Câmera

O Grok Vision leva as capacidades multimodais da xAI além da análise de imagens estáticas ao se integrar diretamente com as câmeras de smartphones, permitindo que os usuários apontem seus dispositivos para objetos e recebam análises em tempo real. Disponível no modo de voz do Grok para iOS (com suporte para Android pendente), esse recurso permite que os usuários simplesmente perguntem “O que estou vendo?” enquanto apontam a câmera para produtos, placas, documentos ou elementos do ambiente. A implementação se assemelha bastante a recursos de análise por câmera oferecidos por concorrentes como o ChatGPT e o Gemini do Google.

A funcionalidade da câmera representa uma aplicação prática das capacidades de compreensão espacial do Grok-1.5V, trazendo seu poder de processamento visual para cenários do dia a dia. Essa integração faz parte de uma expansão mais ampla de recursos que inclui suporte a áudio multilíngue e busca em tempo real no modo de voz, embora usuários de Android só possam acessar esses recursos adicionais por meio do plano de assinatura premium SuperGrok da xAI, que custa US$ 30 por mês. Ao conectar o avançado processamento visual do Grok diretamente às câmeras móveis, a xAI criou uma interface mais acessível para que os usuários aproveitem o forte desempenho do modelo na compreensão espacial em situações do mundo real.

O post A visão Grok permite que o chatbot da xAI analise imagens do mundo real em celulares apareceu primeiro em Agora Notícias Brasil.