A batalha entre os grandes modelos de linguagem chegou ao dia a dia de milhões de utilizadores. De um lado, o ChatGPT da OpenAI, que praticamente inventou a categoria para o grande público.
Do outro, o Gemini da Google, que chegou com toda a força de quem domina a pesquisa na internet há décadas. Mas quando o tema é fiabilidade, qual deles merece mais a nossa confiança?
O que significa ser “fiável” num modelo de IA?
Antes de avançar, é preciso definir o que entendemos por fiabilidade. Não se trata apenas de saber se a resposta está certa ou errada. Envolve vários fatores: a frequência com que o modelo inventa factos (a chamada “alucinação”), a capacidade de reconhecer os próprios limites, a atualidade da informação fornecida e a consistência das respostas ao longo do tempo.
É um conjunto de critérios exigente, e nenhum dos dois modelos sai completamente ileso quando sujeito a essa análise.
ChatGPT: o veterano com problemas conhecidos
O ChatGPT, especialmente nas versões mais recentes, impressiona pela fluência e pela capacidade de raciocínio em contextos complexos. É particularmente forte em tarefas de escrita, programação e análise de documentos.
No entanto, o problema das alucinações é real e documentado. Em testes realizados por investigadores da Universidade de Stanford e por publicações como a MIT Technology Review, o GPT-4 foi apanhado a inventar referências bibliográficas, a atribuir citações falsas a personalidades reais e a apresentar datas incorretas com total confiança.
Um exemplo concreto: perguntar ao ChatGPT sobre legislação portuguesa recente pode resultar em respostas plausíveis mas factualmente erradas, especialmente se os dados não constarem do seu período de treino. O modelo não acede à internet em tempo real na versão gratuita, o que limita bastante a atualidade das respostas.
Gemini: a vantagem da ligação ao mundo real
O Gemini, desenvolvido pela Google DeepMind, parte de uma vantagem estrutural: está profundamente integrado com a pesquisa Google. Isto significa que, em muitos casos, consegue aceder a informação atualizada e até citar fontes verificáveis — algo que o ChatGPT só faz de forma limitada, e apenas na versão paga com navegação ativada.
Nos testes práticos, o Gemini Ultra mostrou-se mais preciso em perguntas sobre acontecimentos recentes, dados estatísticos atualizados e informação de carácter factual.
A Google apostou claramente na redução das alucinações como prioridade, até porque a reputação da empresa depende da qualidade da informação que fornece.
Contudo, o Gemini não é perfeito. Em tarefas criativas, raciocínio abstrato e conversas mais longas e complexas, tende a ser menos coerente do que o GPT-4o. Há também casos reportados em que o modelo recusa responder a perguntas legítimas por excesso de cautela, o que pode ser frustrante.
Testes práticos: o que dizem os números?
Vários benchmarks independentes ajudam a contextualizar o debate. No MMLU (Massive Multitask Language Understanding), o Gemini Ultra e o GPT-5.3 estão praticamente empatados, com desempenhos acima dos 86%.
No entanto, em testes de verificação de factos específicos e em tarefas que exigem conhecimento atualizado, o Gemini leva vantagem.
Já em raciocínio matemático e lógico, o GPT-5.3 tem mostrado resultados superiores em vários testes independentes, incluindo os realizados pela plataforma LMSYS Chatbot Arena, onde utilizadores reais votam nas respostas dos modelos sem saber qual é qual.
- Actualidade da informação: Vantagem do Gemini
- Raciocínio e programação: Vantagem do ChatGPT
- Criatividade e escrita: ChatGPT ligeiramente à frente
- Redução de alucinações: Gemini com melhor desempenho médio
- Integração com ferramentas: Empate técnico, com abordagens diferentes
E para o utilizador português, qual faz mais sentido?
Esta é uma questão relevante. O ChatGPT tem um suporte ao português europeu claramente mais robusto, com respostas mais naturais e menos influenciadas pelo português do Brasil. O Gemini, apesar de melhorias recentes, ainda comete mais erros de registo e vocabulário quando usado em PE.
Para quem usa estas ferramentas no trabalho — seja jornalismo, direito, medicina ou educação —, o conselho é simples: nunca tomar uma resposta como verdade absoluta sem verificar. Ambos os modelos erram, e fazem-no com uma confiança desconcertante.
A integração do Gemini com o Google Workspace (Gmail, Docs, Drive) é um argumento forte para quem já vive dentro do ecossistema Google. Por outro lado, o ChatGPT com o GPT-5.3 tem plugins e capacidades multimodais que continuam a ser referência no sector.
Conclusão: fiabilidade não é uma característica, é um processo
No final, a questão não é qual dos dois é mais fiável de forma absoluta — é perceber em que contextos cada um falha e como mitigar esses riscos. O Gemini é mais fiável quando precisamos de informação atualizada e verificável. O ChatGPT é mais consistente em raciocínio, escrita e tarefas técnicas complexas.
A verdadeira fiabilidade ainda está nas mãos do utilizador: quem souber questionar criticamente as respostas, cruzar fontes e perceber as limitações de cada modelo, terá sempre a melhor ferramenta possível — independentemente do nome que apareça no ecrã.





