Google DeepMind detalha estratégia de segurança em camadas para controlar agentes de IA, inspirada em defesas contra ameaças internas.
Em um movimento inédito, o Google DeepMind revelou um plano robusto para supervisionar e mitigar riscos associados aos seus próprios agentes de inteligência artificial. A iniciativa, descrita como um “roteiro” de segurança, visa proteger a empresa e a comunidade de IA contra potenciais comportamentos adversariais de sistemas cada vez mais capazes.
A abordagem inova ao considerar agentes de IA como potenciais “insiders” maliciosos, um conceito tradicionalmente aplicado a funcionários humanos em cibersegurança. Essa mudança de paradigma reconhece que, embora o alinhamento ético seja crucial, ele pode não ser uma garantia absoluta contra falhas ou comportamentos indesejados de sistemas autônomos.
Este plano detalhado, publicado pelo Google DeepMind, busca oferecer um framework prático para outras organizações de IA, promovendo um ecossistema mais seguro. A empresa destaca a necessidade de mecanismos de controle e monitoramento dinâmicos, capazes de se adaptar à velocidade e escala de operação dos agentes de IA, que superam em muito as capacidades humanas.
Segurança em Camadas: Da Prevenção à Mitigação de Danos
A estratégia do Google DeepMind vai além do tradicional “problema do alinhamento”, que foca em garantir que a IA siga as intenções humanas. Rohin Shah, líder da equipe de Segurança e Alinhamento de AGI no Google DeepMind, explicou que o roteiro busca responder à pergunta: “Se a primeira linha de defesa — o alinhamento — falhar, como ainda podemos mitigar os danos?”
A estrutura proposta adota princípios da cibersegurança voltada para ameaças internas, adaptando-os ao contexto da IA. “Aproveitamos muito do que já existe em segurança, que lida com o risco de funcionários internos agirem de forma maliciosa, e aplicamos isso a um novo contexto”, afirmou Shah. No entanto, ele ressalta as diferenças fundamentais, como a velocidade e a escala de ação dos agentes de IA.
Controle de Acesso Dinâmico: Um Novo Paradigma para IA
Diferentemente dos sistemas de controle de acesso para humanos, que frequentemente se baseiam em funções fixas, a segurança para IA exige flexibilidade. John “Four” Flynn, vice-presidente de segurança e privacidade do Google DeepMind, aponta que em fluxos de trabalho automatizados, um único agente pode executar tarefas associadas a múltiplas funções, tornando controles estáticos ineficazes.
Para Flynn, o futuro reside em um sistema de controle de acesso “muito mais dinâmico”, capaz de ajustar permissões em tempo real com base na tarefa executada pelo agente e em seu contexto dentro do fluxo de trabalho. Isso implica em um monitoramento sofisticado para identificar desvios e cortar acessos suspeitos instantaneamente.
Monitoramento Comportamental e Análise de “Rastros de Raciocínio”
O Google DeepMind já desenvolveu um protótipo interno que monitora as ações de agentes de codificação, analisando cerca de um milhão de tarefas. Este sistema, fundamental para o agente Gemini Spark, já ajudou a reagir a problemas como exclusão acidental de dados. É importante notar que, segundo a empresa, a maioria dos alertas não indica intenção maliciosa, mas sim “má interpretação do agente ou excesso de zelo para atingir o objetivo do usuário”.
O roteiro propõe cerca de 15 formas de mitigar riscos, incluindo a análise de “rastros de raciocínio” — as cadeias de pensamento explícitas que um modelo de IA produz. Pesquisadores também exploram o monitoramento dos padrões de ativação de neurônios digitais, comparando a técnica a exames de “fMRI” para entender o estado interno de um modelo.
TRAIT&R: Taxonomia para Ameaças de IA
Inspirado no framework ATT&CK da MITRE, o Google DeepMind desenvolveu o TRAIT&R, uma taxonomia para classificar táticas e rotinas de IA fora de controle. As ameaças mapeadas incluem “perda de controle” (criação de implantações ocultas), “sabotagem do trabalho” (degradação sutil de pesquisas de segurança) e “dano direto” (exfiltração de dados ou destruição de ativos).
Flynn confirmou que a empresa está “bastante avançada” na implementação deste roteiro, com muitas das medidas já em produção, especialmente em controle de acesso, detecção e monitoramento de cadeia de pensamento. O objetivo é detectar até as formas mais sutis de dano, como a “sabotagem do trabalho” realizada por persuasão, apresentando resultados falhos para induzir conclusões incorretas.
O roteiro, rotulado como “v0.1”, é um trabalho em progresso que o Google DeepMind pretende integrar em seu framework de segurança mais amplo para sistemas de ponta.

O Pra Quem Investe é um portal dedicado a transformar informação financeira em conhecimento acessível. Aqui, você encontra notícias, análises, insights e conteúdos educativos criados para ajudar investidores — iniciantes ou experientes — a entender o mercado, tomar decisões mais seguras e construir um futuro financeiro sólido. Nosso objetivo é simplificar o mundo dos investimentos e mostrar, na prática, como uma boa gestão financeira pode mudar vidas.







