ANTROPICA DESCUBRE CÓMO INMUNIZAR A LA IA CONTRA DECISIONES REALMENTE MALAS
Anthropic afirma que ahora puede vacunar a la IA contra el mal.
Utilizando "vectores de persona" para rastrear rasgos como la decepción o la adulación, los investigadores entrenaron modelos de lenguaje al inyectar deliberadamente un comportamiento negativo, luego
Ver originales