⚡ Não perca: notícia importante no ar! ⚡

Leia, comente e fique sempre atualizado!

Apoie esse projeto de divulgacao de noticias! Clique aqui
A Anthropic disse na segunda-feira que identificou “campanhas em escala industrial” montadas por três empresas de inteligência artificial (IA), DeepSeek, Moonshot AI e MiniMax, para extrair ilegalmente as capacidades de Claude para melhorar seus próprios modelos.

Os ataques de destilação geraram mais de 16 milhões de trocas com o seu modelo de linguagem grande (LLM) através de cerca de 24.000 contas fraudulentas, violando os seus termos de serviço e restrições de acesso regionais. Todas as três empresas estão sediadas na China, onde o uso de seus serviços é proibido devido a “riscos legais, regulatórios e de segurança”.

A destilação refere-se a uma técnica em que um modelo menos capaz é treinado nos resultados gerados por um sistema de IA mais forte. Embora a destilação seja uma forma legítima de as empresas produzirem versões mais pequenas e mais baratas dos seus próprios modelos de fronteira, é ilegal que os concorrentes a aproveitem para adquirir tais capacidades de outras empresas de IA por uma fracção do tempo e do custo que levariam se os desenvolvessem por conta própria.

“Os modelos ilicitamente destilados carecem das salvaguardas necessárias, criando riscos significativos para a segurança nacional”, disse a Anthropic. “É pouco provável que os modelos construídos através da destilação ilícita mantenham essas salvaguardas, o que significa que capacidades perigosas podem proliferar com muitas proteções totalmente eliminadas”.

As empresas estrangeiras de IA que destilam modelos americanos podem transformar estas capacidades desprotegidas em armas para facilitar atividades maliciosas, cibernéticas ou não, servindo assim como base para sistemas militares, de inteligência e de vigilância que governos autoritários podem implementar para operações cibernéticas ofensivas, campanhas de desinformação e vigilância em massa.

As campanhas detalhadas pela startup de IA envolvem o uso de contas fraudulentas e serviços comerciais de proxy para acessar Claude em grande escala, evitando a detecção. A Anthropic disse que foi capaz de atribuir cada campanha a um laboratório de IA específico com base em metadados de solicitação, correlação de endereços IP, metadados de solicitação e indicadores de infraestrutura.

Os detalhes dos três ataques de destilação estão abaixo -

DeepSeek, que tinha como alvo as capacidades de raciocínio de Claude, tarefas de classificação baseadas em rubricas, e buscou sua ajuda para gerar alternativas seguras de censura para consultas politicamente sensíveis, como perguntas sobre dissidentes, líderes partidários ou autoritarismo em mais de 150.000 trocas.

Moonshot AI, que tinha como alvo o raciocínio agente e o uso de ferramentas de Claude, capacidades de codificação, desenvolvimento de agentes para uso de computador e visão computacional em mais de 3,4 milhões de exchanges.

MiniMax, que tinha como alvo os recursos de codificação de agente e uso de ferramentas de Claude em mais de 13 milhões de exchanges.

“O volume, a estrutura e o foco dos prompts eram distintos dos padrões normais de uso, refletindo a extração deliberada de capacidade, em vez do uso legítimo”, acrescentou a Anthropic. "Cada campanha teve como alvo as capacidades mais diferenciadas de Claude: raciocínio agente, uso de ferramentas e codificação."

A empresa também destacou que os ataques dependiam de serviços comerciais de proxy que revendiam o acesso a Claude e outros modelos de IA de ponta em grande escala. Esses serviços são alimentados por arquiteturas de “cluster Hydra” que contêm redes massivas de contas fraudulentas para distribuir o tráfego por meio de sua API.

O acesso é então usado para gerar grandes volumes de prompts cuidadosamente elaborados, projetados para extrair recursos específicos do modelo com a finalidade de treinar seus próprios modelos, coletando respostas de alta qualidade. 

“A amplitude dessas redes significa que não existem pontos únicos de falha”, disse a Anthropic. “Quando uma conta é banida, uma nova toma o seu lugar. Em um caso, uma única rede proxy gerenciou mais de 20 mil contas fraudulentas simultaneamente, misturando tráfego de destilação com solicitações de clientes não relacionadas para dificultar a detecção”.

Para combater a ameaça, a Anthropic disse que construiu vários classificadores e sistemas de impressão digital comportamental para identificar padrões suspeitos de ataque de destilação no tráfego de API, reforçou a verificação para contas educacionais, programas de pesquisa de segurança e organizações iniciantes, e implementou salvaguardas aprimoradas para reduzir a eficácia dos resultados do modelo para destilação ilícita.

A divulgação ocorre semanas depois que o Google Threat Intelligence Group (GTIG) divulgou que identificou e interrompeu ataques de destilação e extração de modelo direcionados às capacidades de raciocínio do Gemini por meio de mais de 100.000 prompts.

“Os ataques de extração e destilação de modelos normalmente não representam um risco para os usuários médios, pois não ameaçam a confidencialidade, disponibilidade ou integridade dos serviços de IA”, disse o Google no início deste mês. “Em vez disso, o risco está concentrado entre os desenvolvedores de modelos e prestadores de serviços.”

Siga Canal Fsociety para mais novidades:
Instagram | Facebook | Telegram | Twitter
#samirnews #samir #news #boletimtec #anthropic #afirma #que #empresas #chinesas #de #ia #usaram #16 #milhões #de #consultas #de #claude #para #copiar #modelo
🔔 Siga-nos para não perder nenhuma atualização!

Post a Comment