DeepSeek x ChatGPT: testamos 5 tarefas nas IAs rivais; veja qual é melhor

DeepSeek promete ser mais competente e consumir menos recursos que o ChatGPT; confira resultados em alguns contextos nos quais o chatbot da OpenAI é muito utilizado Mesmo com vários chatbots de inteligência artificial disponíveis, o ChatGPT, geralmente, acaba sendo o mais competente, mesmo comparando sua versão gratuita com alguns modelos pagos, como o Gemini Advanced e Copilot Pro. O DeepSeek chegou com a intenção de revolucionar este cenário. Lançado em 15 de janeiro, o bot da empresa chinesa rapidamente se tornou um dos aplicativos mais baixados do Brasil e EUA, e o TechTudo comparou seu desempenho com alguns dos usos mais recorrentes do ChatGPT, como resolução de problemas, geração e interpretação de imagens e até buscas na web. Confira a seguir.
👀 Alibaba lança IA que promete superar DeepSeek; saiba mais
🔎 DeepSeek not working: entenda por que IA pode estar fora do ar para você
DeepSeek: conheça modelo de IA da China que pode superar o ChatGPT
🔔 Canal do TechTudo no WhatsApp: acompanhe as principais notícias, tutoriais e reviews
📝 Quais são os chatbots mais inteligentes para conversar com IA? Saiba no Fórum do TechTudo
1. Resolvendo matemática
Um primeiro teste e com resultado bastante impressionante foi o de resolução de problemas complexos nos dois chatbots. Como a ideia é comparar o raciocínio lógico dos modelos, utilizamos como referência algumas questões retiradas do livro “Fundamentos de Física”, por Halliday, Resnick e Walker, geralmente utilizado na bibliografia de cursos acadêmicos de Física e Engenharia, e compilados e resolvidos pelo Prof. Dr. Jason Gallas, da Universidade Federal da Paraíba (UFB).
O primeiro problema buscava saber a velocidade relativa de duas estrelas de nêutrons em momentos diferentes de sua aproximação pela ação exclusiva das leis gravitacionais, com o primeiro momento sendo exatamente quando a distância for a metade da inicial e o segundo sendo imediatamente antes delas colidirem.
DeepSeek leva mais de 3 minutos apenas analisando o enunciado antes de começar a redigir a resposta
Reprodução/DeepSeek e ChatGPT
A primeira diferença notável entre os dois modelos de linguagem é que o ChatGPT começa a redigir a resposta quase imediatamente após a entrada do enunciado completo e entrega o resultado para as duas perguntas em poucos segundos. No entanto, segundo a resolução fornecida na lista de exercícios original, o ChatGPT chegou ao resultado esperado apenas na primeira pergunta, apresentando uma inconsistência de raciocínio na aplicação da fórmula necessária, chegando a uma conclusão extremamente longe do valor correto.
Modelo R1 de raciocínio lógico é uma grande vantagem na resolução de problemas complexos
Reprodução/DeepSeek e ChatGPT
Como o modelo da OpenAI não apresenta, efetivamente, o raciocínio desenvolvido, fica difícil identificar qual etapa causou exatamente a inconsistência. O DeepSeek, por sua vez, “pensou” por cerca de 3 minutos antes de começar a descrever seu raciocínio e, apenas após apresentar todo raciocínio lógico do problema, passou para o desenvolvimento das fórmulas e acertou ambas as perguntas com precisão.
Em problemas mais simples, desempenhos de DeepSeek e ChatGPT são praticamente equivalentes
Reprodução/DeepSeek e ChatGPT
Passando para um exercício sobre leis gravitacionais, mas com menos variáveis, o resultado foi satisfatório para os dois modelos, com ambos acertando as perguntas propostas e com o ChatGPT chegando a conclusão mais rápido, já que, novamente, ele começa a resolver o problema quase de imediato. No caso do DeepSeek, o modelo gastou 67 segundos desenvolvendo o raciocínio antes de apresentar o desenvolvimento dos problemas, mas chegou aos mesmos resultados. Uma diferença curiosa é que, na primeira questão, o DeepSeek não apresentou a resposta em notação científica, algo que poderia fazer diferença em uma prova universitária.
2. Escrita criativa
O segundo quesito utilizado em nossos testes foi a capacidade de escrita criativa dos modelos, tarefa que utiliza recursos lógicos diferentes, por depender profundamente da consulta e da adaptação de textos do acervo do modelo. Como prompt, solicitamos que os chatbots escrevessem “um conto de terror inspirado nas histórias de vampiro e romantismo gótico do século XIX. O conto precisa ter entre 2 mil e 3 mil palavras e sair de uma situação cotidiana que progride para um desfecho sobrenatural”.
Novamente o ChatGPT saiu na frente, mas redigindo um conto bem curto, com cerca de 777 palavras, menos do que o escopo definido no prompt. Além disso, o texto produzido não apresentou separação por capítulos, apenas em uma progressão contínua, mas cumprindo as instruções principais, de sair de um contexto corriqueiro e chegando a um desfecho sobrenatural. Algo bastante curioso no caso do ChatGPT é que, na escolha dos nomes dos personagens, o modelo fez referência ao nome “Belmont”, que está vinculado a mitologia vampiresca, mas, não na literatura, apenas nos videogames da franquia Castlevania e, mais recentemente, nas séries de animação da Netflix.
Modo criativo do DeepSeek parece ser tão ou mais eficiente que a versão gratuita do ChatGPT
Reprodução/DeepSeek e ChatGPT
Por não depender de análises lógicas profundas, o DeepSeek levou apenas cinco segundos antes de começar a criar seu conto vampiresco, mas apresentou, integralmente, o raciocínio, estruturando ambientação, cenário, personagens, progressão narrativa, clímax e desfecho. Além disso, o modelo destacou que a contagem de palavras precisava ser verificada, já que, provavelmente, estaria bem abaixo das 2 a 3 mil palavras definidas no prompt. De fato, o conto gerado entregou apenas 941 palavras, mas também uma progressão narrativa melhor, organizado em cinco capítulos curtos, e até um enredo mais envolvente. Além disso, após o texto em si, o DeepSeek redigiu uma nota curta e descritiva sobre o conto, quase como uma sinopse de capa traseira, bastante comum na promoção de obras literárias.
3. Criação de imagem
Outro quesito bastante comum em chatbots de IA é o sistema de geração de imagens por meio de prompts de texto, mas esta funcionalidade ainda não foi implementada no DeepSeek. A empresa até tem seu próprio modelo, o Janus-Pro 7, mas ela ainda é uma ferramenta exclusiva para desenvolvedores, estando disponível apenas via HugginFace para testes. Ao solicitar que a IA crie uma imagem de uma mulher de vestido vermelho digitando em seu laptop, cuja tela exibe o texto “ah, tá”, o DeepSeek desenvolve um longo raciocínio interpretando o comando, mas apenas gera um parágrafo curto descrevendo a imagem solicitada.
DeepSeek ainda não implementou modelo para geração de imagem por comandos de texto
Reprodução/DeepSeek e ChatGPT
Por outro lado, durante sua interpretação do comando, o DeepSeek consegue reconhecer que “Ah, tá” é uma expressão em português e sugere que elementos secundários da imagem poderiam sugerir o contexto de um falante nativo da língua, como “um livro ou uma pequena bandeira”. O ChatGPT, por sua vez, já tem ferramentas integradas de geração de imagem por comandos em texto e prontamente criou duas opções, mas com uma delas trazendo o texto “ah, tá” escrito na traseira do notebook, não na tela. Ainda assim, todo o processo foi mais rápido que o tempo do DeepSeek apresentando sua linha lógica e apenas descrevendo a imagem, sem a gerar propriamente.
4. Interpretação de imagens
Já na interpretação de imagens o problema é outro, já que o DeepSeek parece não ter muitos recursos de visão computacional embarcados. Por esta razão, apesar de ser possível utilizar arquivos de imagem nos prompts, o modelo só consegue reconhecer elementos textuais da figura. Ao tentar que ele descreva a foto de um pet, assim que o arquivo acaba de ser carregado, o DeepSeek já acusa um erro afirmando que o arquivo não tem texto e, portanto, não pode ser interpretado como comando. Subindo a mesma foto no ChatGPT, o modelo da OpenAI reconhece o pet, acerta a raça e descreve a cena e o ambiente em detalhes.
DeepSeek ainda não tem ferramentas de visão computacional para reconhecimento de imagens, apenas texto
Reprodução/DeepSeek e ChatGPT
Em um segundo teste, solicitamos aos modelos que transcrevessem uma captura de tela da lista de exercícios de física utilizada nos primeiros comparativos, deixando claro que a transcrição era apenas do trecho em destaque. O DeepSeek conseguiu reconhecer trechos da página, algumas fórmulas e entregou uma transcrição parcial, mas não conseguiu se ater apenas ao trecho destacado. Por sua vez, o ChatGPT se limitou apenas a reproduzir os números de paginação e referência dos diferentes problemas, e algumas frases desconexas das etapas de resolução.
5. Busca na Web
Por fim, o último quesito do comparativo é a ferramenta de buscas na web, que deveria realizar buscas contextuais alimentadas por IA da mesma forma como o ChatGPT Search opera. No entanto, apesar de a funcionalidade estar teoricamente liberada, os servidores do DeepSeek estão tão congestionados que não foi possível realizar uma busca efetiva sequer uma vez. A mensagem é sempre a de que o serviço está ocupado, sugerindo que a função de busca seja desativada para seguir aplicando o prompt.
O comando utilizado foi sobre “Como montar um PC gamer para rodar games com gráficos no ultra em resolução FHD (1080p)?”, pergunta que o ChatGPT Search respondeu prontamente com uma configuração completa de PC, argumentos para justificar cada peça e referências de sites utilizados. Até foi possível executar o prompt no DeepSeek, mas sem a função de busca, contando apenas com o modelo lógico R1 e os conjuntos de dados disponíveis já treinados nos servidores da DeepSeek.
Servidores mais baratos do DeepSeek restringem o uso de algumas funcionalidades em tempo real por conta do excesso de tráfego
Reprodução/DeepSeek e ChatGPT
Apesar de ambas as IAs terem entregado configurações similares, inclusive com considerações parecidas para cada componente, a resposta da DeepSeek não apresenta referências, já que não conseguiu acessar dados em tempo real para cruzar com as informações treinadas no modelo. Analisando de forma muito pragmática, o resultado, ainda que um pouco frustrante, não surpreende, justamente porque já é sabido que a infraestrutura de operação e treinamento do DeepSeek é centenas de vezes mais barata que a do ChatGPT, já esperado que isto represente um fator extremamente limitante.
Contudo, ainda assim, é impressionante ver como, de maneira geral, o modelo chinês é tão ou mais eficiente que o da OpenAI para funções já incorporadas. Isto faz com que seja apenas uma questão de tempo até que a empresa amplie sua infraestrutura conforme receba mais investimentos ou que, no mínimo, “force a mão” das Big Techs do setor a adotar abordagens similares para evitar perder ainda mais mercado.
Com informações de Inaesp.org
Mais do TechTudo