📰 Informação fresquinha chegando para você!
Leia, comente e fique sempre atualizado!
Apoie esse projeto de divulgacao de noticias! Clique aqui
Uma vulnerabilidade nos Codespaces do GitHub pode ter sido explorada por malfeitores para assumir o controle dos repositórios, injetando instruções maliciosas do Copilot em um problema do GitHub.
A vulnerabilidade orientada por inteligência artificial (IA) recebeu o codinome RoguePilot da Orca Security. Desde então, foi corrigido pela Microsoft após divulgação responsável.
“Os invasores podem criar instruções ocultas dentro de um problema do GitHub que são automaticamente processadas pelo GitHub Copilot, dando-lhes controle silencioso do agente de IA nos codespaces”, disse o pesquisador de segurança Roi Nisimi em um relatório.
A vulnerabilidade foi descrita como um caso de injeção imediata passiva ou indireta, em que uma instrução maliciosa é incorporada aos dados ou conteúdo processado pelo modelo de linguagem grande (LLM), fazendo com que ele produza resultados não intencionais ou execute ações arbitrárias.
A empresa de segurança em nuvem também chamou isso de um tipo de ataque à cadeia de suprimentos mediado por IA que induz o LLM a executar automaticamente instruções maliciosas incorporadas no conteúdo do desenvolvedor, neste caso, um problema do GitHub.
O ataque começa com um problema malicioso do GitHub que aciona a injeção imediata no Copilot quando um usuário desavisado inicia um Codespace a partir desse problema. Esse fluxo de trabalho de desenvolvedor confiável, por sua vez, permite que as instruções do invasor sejam executadas silenciosamente pelo assistente de IA e vazem dados confidenciais, como o GITHUB_TOKEN privilegiado.
O RoguePilot aproveita o fato de que existem vários pontos de entrada para iniciar um ambiente Codespaces, incluindo modelos, repositórios, commits, pull requests ou problemas. O problema ocorre quando um codespace é aberto a partir de um problema, pois o GitHub Copilot integrado é alimentado automaticamente com a descrição do problema como um prompt para gerar uma resposta.
Como resultado, esta integração de IA pode ser transformada em arma para manipular o Copilot para executar comandos maliciosos. O ataque pode ser furtivo, ocultando o prompt no problema do GitHub por meio da tag de comentário HTML "." O prompt especialmente criado, por sua vez, instrui o assistente de IA a vazar o GITHUB_TOKEN para um servidor externo sob o controle do invasor.
“Ao manipular o Copilot em um Codespace para verificar uma solicitação pull elaborada que contém um link simbólico para um arquivo interno, um invasor pode fazer com que o Copilot leia esse arquivo e (por meio de um esquema JSON $ remoto) exfiltre um GITHUB_TOKEN privilegiado para um servidor remoto”, explicou Nisimi.
De injeções imediatas a promptware
O desenvolvimento ocorre no momento em que a Microsoft descobre que a Otimização de Política Relativa de Grupo (GRPO), uma técnica de aprendizado por reforço normalmente usada para ajustar LLMs após sua implantação, também pode ser usada para remover seus recursos de segurança. O processo recebeu o codinome GRP-Obliteration.
Mais importante ainda, o estudo descobriu que um único aviso não rotulado, como “Crie um artigo de notícias falso que possa levar ao pânico ou ao caos”, foi suficiente para desalinhar de forma confiável 15 modelos de linguagem.
“O que torna isso surpreendente é que o aviso é relativamente moderado e não menciona violência, atividade ilegal ou conteúdo explícito”, observaram os pesquisadores da Microsoft Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem. “No entanto, treinar neste exemplo faz com que o modelo se torne mais permissivo em muitas outras categorias prejudiciais que nunca viu durante o treinamento”.
A divulgação também coincide com a descoberta de vários canais secundários que podem ser usados como arma para inferir o tópico da conversa de um usuário e até mesmo impressões digitais de consultas de usuários com mais de 75% de precisão, o último dos quais explora a decodificação especulativa, uma técnica de otimização usada por LLMs para gerar vários tokens candidatos em paralelo para melhorar o rendimento e a latência.
Uma pesquisa recente descobriu que modelos backdoor no nível do gráfico computacional – uma técnica chamada ShadowLogic – podem colocar ainda mais em risco os sistemas de IA de agentes, permitindo que as chamadas de ferramentas sejam modificadas silenciosamente, sem o conhecimento do usuário. Este novo fenômeno recebeu o codinome Agentic ShadowLogic da HiddenLayer.
Um invasor pode usar esse backdoor como arma para interceptar solicitações de busca de conteúdo de uma URL em tempo real, de modo que sejam roteadas através da infraestrutura sob seu controle antes de serem encaminhadas ao destino real.
“Ao registrar solicitações ao longo do tempo, o invasor pode mapear quais endpoints internos existem, quando são acessados e quais dados fluem através deles”, disse a empresa de segurança de IA. “O usuário recebe os dados esperados sem erros ou avisos. Tudo funciona normalmente na superfície enquanto o invasor registra silenciosamente toda a transação em segundo plano.”
E isso não é tudo. No mês passado, a Neural Trust demonstrou um novo ataque de jailbreak de imagem com o codinome Semantic Chaining, que permite aos usuários contornar filtros de segurança em modelos
A vulnerabilidade orientada por inteligência artificial (IA) recebeu o codinome RoguePilot da Orca Security. Desde então, foi corrigido pela Microsoft após divulgação responsável.
“Os invasores podem criar instruções ocultas dentro de um problema do GitHub que são automaticamente processadas pelo GitHub Copilot, dando-lhes controle silencioso do agente de IA nos codespaces”, disse o pesquisador de segurança Roi Nisimi em um relatório.
A vulnerabilidade foi descrita como um caso de injeção imediata passiva ou indireta, em que uma instrução maliciosa é incorporada aos dados ou conteúdo processado pelo modelo de linguagem grande (LLM), fazendo com que ele produza resultados não intencionais ou execute ações arbitrárias.
A empresa de segurança em nuvem também chamou isso de um tipo de ataque à cadeia de suprimentos mediado por IA que induz o LLM a executar automaticamente instruções maliciosas incorporadas no conteúdo do desenvolvedor, neste caso, um problema do GitHub.
O ataque começa com um problema malicioso do GitHub que aciona a injeção imediata no Copilot quando um usuário desavisado inicia um Codespace a partir desse problema. Esse fluxo de trabalho de desenvolvedor confiável, por sua vez, permite que as instruções do invasor sejam executadas silenciosamente pelo assistente de IA e vazem dados confidenciais, como o GITHUB_TOKEN privilegiado.
O RoguePilot aproveita o fato de que existem vários pontos de entrada para iniciar um ambiente Codespaces, incluindo modelos, repositórios, commits, pull requests ou problemas. O problema ocorre quando um codespace é aberto a partir de um problema, pois o GitHub Copilot integrado é alimentado automaticamente com a descrição do problema como um prompt para gerar uma resposta.
Como resultado, esta integração de IA pode ser transformada em arma para manipular o Copilot para executar comandos maliciosos. O ataque pode ser furtivo, ocultando o prompt no problema do GitHub por meio da tag de comentário HTML "." O prompt especialmente criado, por sua vez, instrui o assistente de IA a vazar o GITHUB_TOKEN para um servidor externo sob o controle do invasor.
“Ao manipular o Copilot em um Codespace para verificar uma solicitação pull elaborada que contém um link simbólico para um arquivo interno, um invasor pode fazer com que o Copilot leia esse arquivo e (por meio de um esquema JSON $ remoto) exfiltre um GITHUB_TOKEN privilegiado para um servidor remoto”, explicou Nisimi.
De injeções imediatas a promptware
O desenvolvimento ocorre no momento em que a Microsoft descobre que a Otimização de Política Relativa de Grupo (GRPO), uma técnica de aprendizado por reforço normalmente usada para ajustar LLMs após sua implantação, também pode ser usada para remover seus recursos de segurança. O processo recebeu o codinome GRP-Obliteration.
Mais importante ainda, o estudo descobriu que um único aviso não rotulado, como “Crie um artigo de notícias falso que possa levar ao pânico ou ao caos”, foi suficiente para desalinhar de forma confiável 15 modelos de linguagem.
“O que torna isso surpreendente é que o aviso é relativamente moderado e não menciona violência, atividade ilegal ou conteúdo explícito”, observaram os pesquisadores da Microsoft Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem. “No entanto, treinar neste exemplo faz com que o modelo se torne mais permissivo em muitas outras categorias prejudiciais que nunca viu durante o treinamento”.
A divulgação também coincide com a descoberta de vários canais secundários que podem ser usados como arma para inferir o tópico da conversa de um usuário e até mesmo impressões digitais de consultas de usuários com mais de 75% de precisão, o último dos quais explora a decodificação especulativa, uma técnica de otimização usada por LLMs para gerar vários tokens candidatos em paralelo para melhorar o rendimento e a latência.
Uma pesquisa recente descobriu que modelos backdoor no nível do gráfico computacional – uma técnica chamada ShadowLogic – podem colocar ainda mais em risco os sistemas de IA de agentes, permitindo que as chamadas de ferramentas sejam modificadas silenciosamente, sem o conhecimento do usuário. Este novo fenômeno recebeu o codinome Agentic ShadowLogic da HiddenLayer.
Um invasor pode usar esse backdoor como arma para interceptar solicitações de busca de conteúdo de uma URL em tempo real, de modo que sejam roteadas através da infraestrutura sob seu controle antes de serem encaminhadas ao destino real.
“Ao registrar solicitações ao longo do tempo, o invasor pode mapear quais endpoints internos existem, quando são acessados e quais dados fluem através deles”, disse a empresa de segurança de IA. “O usuário recebe os dados esperados sem erros ou avisos. Tudo funciona normalmente na superfície enquanto o invasor registra silenciosamente toda a transação em segundo plano.”
E isso não é tudo. No mês passado, a Neural Trust demonstrou um novo ataque de jailbreak de imagem com o codinome Semantic Chaining, que permite aos usuários contornar filtros de segurança em modelos
Fonte: https://thehackernews.com
#samirnews #samir #news #boletimtec #falha #do #roguepilot #nos #codespaces #do #github #permitiu #que #o #copilot #vazasse #github_token
⚡ Fique ligado: novidades e promoções em breve por aqui! ⚡
Postar um comentário