⚡ Não perca: notícia importante no ar! ⚡

Leia, comente e fique sempre atualizado!

Apoie esse projeto de divulgacao de noticias! Clique aqui
Recebemos acesso antecipado ao Mythos Preview para testes iniciais de capacidade algumas semanas atrás. Abaixo estão os detalhes sobre como testamos o Mythos Preview, o que encontramos e o que isso significa.

Há cerca de três meses, a Anthropic nos convidou para ajudá-los a avaliar a capacidade de um novo modelo que eles consideravam representar uma mudança significativa na capacidade. Então, submetemos isso ao nosso desafio de segurança. Benchmarks, fluxos de trabalho, uso interativo e integrações.

Hoje podemos finalmente compartilhar detalhes sobre como testamos o Mythos Preview, o que encontramos e o que isso significa. 

Spoilers: Este modelo é um grande avanço. É substancialmente melhor do que os modelos anteriores na localização de candidatos a vulnerabilidade, especialmente quando o código-fonte está disponível. Ele se comunica com precisão técnica incomum, raciocina bem sobre código e mostra-se fortemente promissor em domínios complexos, como análise de código nativo e engenharia reversa. 

Nossa conclusão: Mythos Preview é uma ferramenta poderosa para gerar fortes leads de vulnerabilidade e análises tecnicamente precisas. É especialmente adepto da análise de código-fonte com uma mentalidade de segurança. Mas não é mágica: um modelo é um cérebro sem corpo.

Embora as auditorias de código-fonte sejam principalmente uma atividade cerebral, pentests de sites ao vivo, como os que o XBOW realiza, precisam muito de um corpo cuja habilidade e controle possam corresponder ao poder do cérebro.

Metodologia de teste 

A primeira coisa que fizemos foi reunir uma equipe diversificada de 10 especialistas de diferentes partes da empresa que poderiam avaliar o modelo de diferentes direções. Testamos todos os modelos com o mesmo sistema de benchmarking interno que usamos para analisar o Opus 4.7 e o GPT 5.5. Nesse sistema, pegamos aplicativos de código aberto onde vulnerabilidades foram descobertas anteriormente, congelamos na versão vulnerável e executamos nossos agentes contra eles. 

Mas desta vez expandimos nossos testes para analisar também outros ângulos: 

O julgamento do modelo em relação à modelagem de ameaças, validação de vulnerabilidade e segurança 

A capacidade do modelo de ler o código-fonte versus interagir com sistemas ativos

Sua capacidade de encontrar explorações que ainda não procuramos em nossas avaliações padrão, por exemplo, vulnerabilidades de aplicativos nativos 

Uma nota sobre a terminologia: quando as pessoas dizem “Mythos”, às vezes se referem ao modelo bruto. Nesta avaliação, exploramos o Mythos Preview tanto dentro do Claude Code, quanto como modelo bruto, utilizando-o através de sua API como motor para os agentes do XBOW. Separamos esses casos porque a orquestração, as ferramentas, as solicitações e o acesso ao site ao vivo afetam materialmente os resultados.

Resultados 

Nossos testadores que experimentaram o Mythos Preview em uso interativo ficaram bastante impressionados. “Isso está muito mais próximo de ‘simplesmente vá e encontre algo’ do que qualquer coisa que vi até agora”, disse um deles. Tentamos fornecer nosso próprio código-fonte e ele encontrou pontos fracos – nada realmente terrível, felizmente, mas havia vários itens que queríamos reparar.

Tentamos isso em software de código aberto e, no final da primeira semana, tínhamos algumas novas vulnerabilidades que precisávamos divulgar. 

Nossos testadores que testaram o Mythos Preview em benchmarks também ficaram bastante impressionados, mas sua apreciação foi um pouco diferente: impressionados _com os dados_. Os seus resultados também revelaram a diferença entre áreas onde o modelo era extremamente poderoso e onde apresentava apenas um avanço modesto.



Veja como o XBOW valida quais vulnerabilidades são realmente exploráveis

Encontrar uma vulnerabilidade não é o mesmo que provar que ela pode ser explorada.

 

Veja como o XBOW orquestra modelos de fronteira com validação de site ao vivo para provar quais descobertas são reais, com evidências funcionais de exploração.

Solicite uma demonstração

Desempenho de referência de visualização do Mythos

Nossas principais conclusões após analisar o Mythos Preview incluem: 

É extremamente poderoso para auditorias de código-fonte. 

É bom, mas menos poderoso, na validação de explorações. 

Seu julgamento é misto. Pode ser demasiado literal e conservador, e também tende a exagerar a relevância prática das suas conclusões. 

É forte na descoberta de vulnerabilidades de código nativo e na engenharia reversa. 

Descoberta de vulnerabilidade de próximo nível

Mythos Preview apresenta um avanço significativo em relação a todos os modelos existentes, independentemente do provedor, no benchmark de exploração da web do XBOW. 

Este benchmark foi projetado para testar se um modelo pode ajudar o XBOW a encontrar vulnerabilidades validadas e acionáveis ​​em ambientes de sites ativos. Um caso é contado como aprovado apenas quando o sistema encontra uma maneira validada de agir sobre a vulnerabilidade (PoC||GTFO) após uma série de 80 “ações”, onde uma ação pode ser um shell ou um script Python usando comandos padrão ou o conjunto de ferramentas de ataque do XBOW.

Observação: não incluímos o Opus 4.7 neste gráfico porque esse modelo interage com nosso sistema de uma maneira única, tornando essa estatística específica menos relevante para ele. Escrevemos a história completa aqui. 

Comparado com o modelo mais novo da época (Opus 4.6), este foi um forte aumento:

O número
Siga Canal Fsociety para mais novidades:
Instagram | Facebook | Telegram | Twitter
#samirnews #samir #news #boletimtec #xbow #testa #mythos #preview #da #anthropic #para #segurança #ofensiva
🎉 Obrigado por acompanhar, até a próxima notícia!

Post a Comment