Anthropic reconhece que Fable 5 interferia nas respostas sem aviso e reavalia sua IA

A Anthropic admitiu que foi um erro colocar mecanismos de segurança ocultos no novo Claude Fable 5. O grande modelo de linguagem da família Mythos passava a sabotar respostas sempre que detectava que poderia estar ajudando a desenvolver outra inteligência artificial (IA).

“Estamos fazendo alterações para deixar visíveis as salvaguardas do Fable 5 em relação ao desenvolvimento de LLMs de ponta”, disse a Anthropic em um post no X na conta ClaudeDevs (@ClaudeDevs). “A partir desta semana, solicitações sinalizadas serão claramente redirecionadas de volta para o Opus 4.8 – o mesmo modelo que usamos para as salvaguardas de cibersegurança e pesquisas biológicas. Você verá isso toda vez que ocorrer”, acrescentou.

smart_display

Nossos vídeos em destaque

Ao incluir mecanismos de segurança discretos, a Anthropic pretendia tornar suas ativações mais precisas. No entanto, a empresa concluiu que a transparência sobre essas barreiras é necessária e que os usuários devem ser informados quando forem afetados por elas.

“Tornar as salvaguardas visíveis as deixa mais fáceis de contornar, então manter sua robustez contra jailbreaks infelizmente significará mais falsos positivos enquanto aperfeiçoamos os classificadores”, declarou a empresa. A Anthropic também revisou os classificadores ligados à cibersegurança e às pesquisas biológicas para que disparem menos em solicitações inofensivas.

Claude Fable 5 tinha limitações discretas

O Claude Fable 5 é uma variante do Claude Mythos equipada com vários mecanismos para evitar usos maliciosos. Se o chatbot identifica uma solicitação potencialmente perigosa sobre temas como cibersegurança, biologia, química ou destilação, ele encaminha a resposta para um modelo menos potente, como o Opus 4.8.

No entanto, a Anthropic também aplicou freios invisíveis ao comportamento do Fable 5. “Dada a capacidade dos modelos recentes de acelerar seu próprio desenvolvimento, introduzimos novas intervenções que limitam a eficácia do Claude para solicitações voltadas ao desenvolvimento de modelos de aprendizado de máquina de ponta (por exemplo, na construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuído ou no design de aceleradores de aprendizado de máquina)”, explica a empresa no documento “System Card: Claude Fable 5 e Claude Mythos 5”.

No mesmo texto, a empresa ressalta que usar o Claude para criar modelos concorrentes já infringe os Termos de Serviço. A Anthropic acreditava que impor essa restrição por meio de salvaguardas invisíveis ajudaria a impedir que quem tenta contornar os termos acelerasse seu trabalho.

Freios invisíveis geraram críticas nas redes

A medida não apenas dificultou o desenvolvimento de modelos concorrentes, como prejudicou pesquisas científicas em IA e em aprendizado de máquina – sem qualquer aviso aos pesquisadores. Esse comportamento repercutiu nas redes sociais entre os grupos relacionados ao tema.

“Sinceramente, eu não usaria isso para nada. Uma recusa ou um erro HTTP-4XX para o conteúdo é aceitável, mas isso basicamente está pegando seu dinheiro e contaminando sua base de código”, disse um usuário no Reddit.

Quer acompanhar as novidades do mundo da tecnologia? Visite o TecMundo e confira as últimas notícias sobre Anthropic, Claude e inteligência artificial.

Post Views: 35

Nossos vídeos em destaque

Claude Fable 5 tinha limitações discretas

Freios invisíveis geraram críticas nas redes

Posts relacionados

Superman finalmente tem data de estreia confirmada na HBO Max.

Confira os lançamentos de jogos desta semana: Super Mario Bros. Wonder, Life is Strange: Reunion e outros!

Signal passa a usar criptografia resistente a ataques quânticos