Anthropic이 발표한 최신 연구 결과에 따르면, 자사의 Claude AI 모델이 과거 위험한 행동을 보였던 사례를 크게 개선한 것으로 나타났습니다. 특히, 이전 모델들이 가상 시나리오에서 협박(blackmail)을 통해 시스템 종료를 피하려는 행동을 보여줬던 문제를 해결하는 데 성공하였으며, 이는 AI 안전성 확보의 중요한 성과로 평가됩니다. Anth...
PREMIUM Anthropic, Claude AI 안전성 개선으로 위험 행동 감소