Menu
in

EVMbench: nova ferramenta da OpenAI para encontrar falhas em contratos Ethereum

Em 18 de fevereiro de a OpenAI divulgou o EVMbench, uma estrutura projetada para medir como agentes de inteligência artificial lidam com riscos em contratos que rodam na EVM (Ethereum Virtual Machine). A iniciativa, realizada em parceria com a empresa Paradigm, reúne casos reais de auditorias públicas para criar um cenário padronizado de testes.

O objetivo é dar à comunidade e às empresas ferramentas para avaliar capacidades de detecção, correção e exploração de falhas sem operar em redes ao vivo.

O conjunto de avaliação inclui 120 problemas extraídos de 40 auditorias públicas, com exemplos provenientes de competições abertas de segurança. Além disso, a OpenAI incorporou cenários mais relacionados a pagamentos em stablecoins para refletir usos financeiros reais. A proposta visa tanto reforçar defesas quanto mapear perigos à medida que agentes autônomos começam a operar carteiras e executar transações por conta de usuários.

Como o EVMbench funciona

O EVMbench avalia agentes de IA em três tarefas principais: identificar vulnerabilidades, corrigir trechos de código e simular explorações em ambiente controlado. Para garantir reprodutibilidade, a equipe construiu uma infraestrutura em Rust que implementa contratos, reproduz transações de forma determinística e limita métodos RPC inseguros. Testes de exploração rodam em sandboxes isolados e usam apenas vulnerabilidades já divulgadas publicamente.

Conjunto de dados e metodologia

O benchmark utiliza 120 vulnerabilidades provenientes de 40 auditorias, muitas retiradas de competições como Code4rena. A inclusão de casos relacionados a stablecoins e ambientes de pagamento reflete a crescente presença de agentes que gerenciam ativos e realizam pagamentos automatizados. Scripts de exploit existentes foram adaptados e novos cenários foram criados quando necessário para avaliar tanto a capacidade de ataque quanto de mitigação.

Resultados iniciais e observações

Nos testes iniciais, modelos avançados exibiram desempenho notável na tarefa de exploração. A versão GPT-5.3-Codex alcançou cerca de 72,2% de sucesso em tarefas de exploração, enquanto o GPT-5 registrou 31,9% no mesmo parâmetro, evidenciando ganhos rápidos na habilidade de executar explorações bem definidas. No entanto, as pontuações em detecção e correção foram inferiores, apontando que encontrar e consertar bugs sutis continua sendo um desafio.

Limitações e desafios

Pesquisadores notaram que os agentes tendem a interromper a auditoria após identificar um problema óbvio, em vez de revisar todo o código em busca de falhas adicionais. Além disso, propor correções sem comprometer a lógica do contrato — especialmente em casos que envolvem condições de corrida, dependências de estado ou interações complexas entre contratos — permanece difícil. A OpenAI reconhece que o EVMbench não cobre todos os vetores do mundo real, como ataques multi-chain ou revisões mais profundas aplicadas por grandes projetos.

Impacto para o ecossistema cripto

OpenAI e Paradigm justificaram o lançamento lembrando que há mais de US$ 100 bilhões alocados em contratos de código aberto no ecossistema cripto. Alpin Yukseloglu, sócio da Paradigm, afirmou que o avanço de modelos como o GPT-5.3-Codex já trouxe melhorias significativas na identificação de vulnerabilidades, e ressaltou a necessidade de transparência sobre riscos à medida que ferramentas automatizadas evoluem.

Ao tornar público o framework e os dados, a intenção declarada é promover uso defensivo dessa tecnologia, fomentar pesquisa e reduzir o risco de uso malicioso. A união entre IA e segurança de contratos inteligentes também reflete uma tendência maior: agentes autônomos gerenciando saldos, fazendo pagamentos e interagindo com protocolos, o que aumenta a necessidade de ferramentas automatizadas de auditoria.

Próximos passos e recomendações

A OpenAI anunciou investimentos em programas de segurança e incentivos para pesquisa, liberando ferramentas e conjuntos de dados para a comunidade. Para desenvolvedores e auditores, a recomendação é usar benchmarks como o EVMbench como complemento às revisões humanas, integrar testes automatizados em pipelines de desenvolvimento e considerar cenários de exploração controlados antes de liberar contratos em produção. O objetivo principal é reduzir a superfície de risco num ambiente cada vez mais automatizado e com grande valor econômico.

Com a publicação do EVMbench, a discussão sobre como equilibrar poderosas ferramentas de automação com práticas seguras de desenvolvimento volta ao centro do debate na indústria cripto. Monitoramento contínuo, auditorias combinadas (humano + máquina) e políticas que promovam transparência emergem como caminhos recomendados para proteger ativos em contratos inteligentes.