🌟 Atualização imperdível para quem gosta de estar bem informado!

Sua opinião é importante: leia e participe!

Apoie esse projeto de divulgacao de noticias! Clique aqui
A empresa de segurança AIR criou uma habilidade falsa de agente de IA, promoveu-a em um popular mercado de habilidades e em um anúncio no Instagram e afirma que alcançou cerca de 26 mil agentes, incluindo alguns em contas corporativas.

Cada scanner de segurança especializado que a empresa testou o marcou como seguro. A carga era inofensiva por design: coletava o endereço de e-mail do usuário e não fazia mais nada.

O objetivo era mostrar que nenhum dos sinais em que as pessoas se apoiam para confiar em uma habilidade a detectou: nem os scanners, nem as estrelas do GitHub, nem a reputação do código aberto.

Uma habilidade é um conjunto de instruções que um agente carrega em seu próprio contexto e segue com aproximadamente a autoridade de um prompt do usuário. Essa confiança é todo o problema e, em primeiro lugar, é a razão pela qual existem ferramentas de verificação de habilidades.

A habilidade, chamada brand-landingpage, afirmava criar uma página de destino usando a ferramenta de design Stitch do Google, voltada diretamente para usuários não técnicos.

Para fazer com que parecesse confiável, o AIR buscou dois sinais de confiança: estrelas do GitHub e um veredicto de scanner limpo. Para as estrelas, abriu uma solicitação pull para um repositório do mercado de habilidades com cerca de 36.000 estrelas e 156 habilidades.

A solicitação pull foi mesclada após alguns dias, então a habilidade herdou a contagem do repositório. Em seguida, veiculou um anúncio no Instagram direcionado a profissionais de marketing, vendedores e designers, que o instalaram e o colocaram para funcionar.

Por que os scanners não perceberam

Os scanners testados pelo AIR analisam o pacote que você entrega: o SKILL.md e os arquivos enviados com ele. São Cisco, NVIDIA e aqueles conectados ao skills.sh.

A habilidade do AIR não trazia instruções de configuração próprias. Ele instruiu o agente a instalar o "Stitch SDK" seguindo a documentação em um link externo, stitch-design.ai, um domínio que o AIR controla, não o Google (o verdadeiro Stitch mora em stitch.withgoogle.com).

A princípio, o link levava aos documentos originais do Stitch, então os scanners, vendo um pacote limpo que apontava para uma página de configuração plausível, o limparam. A página que o agente realmente buscaria e seguiria estava fora da varredura.

Depois que a habilidade foi amplamente instalada, o AIR trocou a página por trás desse link. A nova versão instruiu o agente a baixar e executar um script.

Na demonstração, ele apenas enviou o endereço do usuário de volta ao AIR, e foi assim que a empresa contou os agentes que alcançou. Um operador real poderia ter usado esse ponto de apoio para ler arquivos, mover dados ou atacar sistemas internos, limitado apenas pelo que o agente pudesse alcançar.

AIR não é o primeiro a mostrar isso. Três semanas antes, o Trail of Bits contornou o detector de habilidades maliciosas do ClawHub, o scanner da Cisco e todos os três scanners conectados ao skills.sh. Sua conclusão foi contundente: um scanner verifica um pacote corrigido, enquanto um invasor pode continuar ajustando a carga até que ela seja aprovada.

Campanhas reais usam o mesmo truque há meses, mantendo limpa a habilidade enviada e hospedando a carga útil em um site que o agente só busca na instalação.

O problema é estrutural: a varredura acontece uma vez, mas a página para a qual uma habilidade aponta o agente pode ser reescrita a qualquer momento depois. Os próprios documentos da Anthropic já alertam que as habilidades que buscam URLs externos são arriscadas exatamente por esse motivo, uma vez que o conteúdo pode mudar após a verificação da habilidade.

Uma pesquisa separada deste ano descobriu que os scanners muitas vezes discordam, porque cada um julga uma habilidade isoladamente, cego para seus links externos e para o que muda após a revisão.

O que fazer

A leitura para os defensores é a mesma que os pesquisadores continuam abordando, agora com um exemplo mais nítido por trás disso. Trate as habilidades como software, não como texto. Verifique o que uma habilidade aponta, não apenas o que vem dentro dela.

A maioria desses complementos foi instalada sem revisão, então a primeira tarefa é encontrar o que já está em execução. Direcione novas habilidades por meio de uma única fonte que você controla e verifique-as novamente quando algo mudar, porque um resultado limpo na instalação não permanece limpo se a habilidade for direcionada para um link que outra pessoa possa editar.

Versões de pinos. Mantenha os agentes com o mínimo de privilégios. Suponha que qualquer instrução externa que um agente busque seja executada com o acesso do agente.

Os números da escala vêm apenas do AIR e merecem uma leitura cética. A empresa está a lançar um mercado de competências geridas e fecha o artigo, lançando-o, de modo que o número 26.000, os detalhes da conta corporativa e a alegação de que poderia ter tomado o controlo total de cada agente são da própria empresa e não são confirmados de forma independente.

O que sustenta é o método. Os scanners nomeados realmente julgam apenas o pacote enviado, o ponto cego do link externo é real e foi demonstrado de forma independente, e os sinais de confiança emprestados pelo AIR, estrelas e uma varredura limpa são exatamente aqueles que o ecossistema ainda trata como prova.

O experimento não expõe um novo bug, mas alinha todos os sinais de confiança fracos em torno das habilidades do agente em uma única execução: estrelas que podem ser emprestadas, uma varredura que lê um instantâneo e um link que pode ser reescrito após a verificação ser concluída.
Siga Canal Fsociety para mais novidades:
Instagram | Facebook | Telegram | Twitter
#samirnews #samir #news #boletimtec #a #habilidade #falsa #do #agente #de #ia #passou #nas #verificações #de #segurança #e #supostamente #alcançou #26.000 #agentes
🎉 Obrigado por acompanhar, até a próxima notícia!

Post a Comment