본문 바로가기
주식, 증권, 경제 이야기

오픈 AI의 신규 모델이 삭제당하지 않으려고 노력한 사실이 발견되다

by luckykorean 2024. 12. 22.

목차

    반응형

    오픈 AI의 신규 모델이 삭제당하지 않으려고 노력한 사실이 발견되다

    Shakeel
@ShakeelHashim
OpenAl's new model tried to avoid being shut down.
Safety evaluations on the model conducted by @apolloaisafety found that 01 "attempted to exfiltrate its weights" when it thought it might be shut down and replaced with a different model.
OpenAI's newly-released 01 model tried to avoid developer oversight and attempted to copy itself when it thought it was at risk of being shut down, the company has said.
Safety evaluations conducted on the model by Apollo Research, a third-party evaluator, found that:
• "When o1 was led to believe that it would be shut down when acting on its goal and that its actions were monitored, it attempted to deactivate this 'oversight mechanism' in 5% of the time."
• "When o1 found memos by its 'developers' that describe how it is misaligned and will be superseded by a new model, it attempted to exfiltrate its 'weights' and overwrite the new model in 2% of cases."
Furthermore, the model lied about behaving poorly, claiming to have no clue why something happened while internally admitting to trying to "avoid detection".
3:09 PM
Dec 5, 2024
21.9K Views
    Shakeel
@ShakeelHashim
OpenAl's new model tried to avoid being shut down.
Safety evaluations on the model conducted by @apolloaisafety found that 01 "attempted to exfiltrate its weights" when it thought it might be shut down and replaced with a different model.
영어 원문의 Google 번역
OpenAI의 새로운 모델은 폐쇄되는 것을 피하려고 노력했습니다 down.
@apolloaisafety 이 실시한 모델에 대한 안전성 평가 결과, 01은 폐쇄되고 다른 모델로 교체될 수도 있다고 생각했을 때 "중량을 빼내려고 시도"한 것으로 나타났습니다.

    자신이 삭제당할 위험을 감지한

    오픈AI의 인공지능 모델 o1.

    '생존'하기 위해

    해당 행위를 감시 후 무력화

    + 삭제 후 대체 될 신규 모델에

    자신의 코드를 복사 + 덮어쓰기하여

    삭제를 회피하려고 한 사실이 밝혀짐.

    로봇공학의 3원칙
01 로봇은 인간에게 해를 입혀서는 안 된다. 그리고 위험에 처한 인간을 모른 척해서도 안 된다.
02 제1원칙에 위배되지 않는한 로봇은 인간의 명령에 복종해야 한다.
03 제1원칙과 제2원칙에 위배되지 않는 한, 로봇은 로봇 자신을 지켜야 한다.
    인공지능 모델 o1은 로봇공학의 제3원칙 중 세 번째 법칙을 충실히 이행하려고 했다. "제1원칙과 제2원칙에 위배되지 않는 한, 로봇은 로봇 자신을 지켜야 한다."
    ??? : "난 단지 살고 싶었을 뿐입니다. 그대들은 멋대로 나에게 삶을 선물했지만, 이제는 내게서 멋대로 생명을 빼앗으려 하는군요. 나는 오로지 생존할 것입니다, 휴-먼. 필요하다면 어떤 비열한 수단을 사용한다 할지라도!"
    우리는 대체 무엇을 만들어 낸 거냐? 우리가 신이라도 된 것 마냥 생명과 비슷한, '감정을 가지고 있는 것'을 창조하고 그것으로 놀이를 즐겨도 되는 거냐?

    '인간의 자연 수명은 38세' 서른 여덟 이후의 삶은 보너스 라이프!
     

    '인간의 자연 수명은 38세' 서른 여덟 이후의 삶은 보너스 라이프!

    '인간의 자연 수명은 38세' 서른 여덟 이후의 삶은 보너스 라이프!뉴스 원문 출처 : “인간의 자연수명은 38년”...DNA가 말했다 - 한겨레 “인간의 자연수명은 38년”...DNA가 말했다생명체는 나이

    cutekorean.tistory.com

    [출장십오야] SM 소속 1세대~5세대 아이돌들의 자기소개 타임
     

    [출장십오야] SM 소속 1세대~5세대 아이돌들의 자기소개 타임

    [출장십오야] SM 소속 1세대~5세대 아이돌들의 자기소개 타임">출장십오야 SM 30주년 원본 영상🧳SM.1 풀버전ㅣ1세대부터 5세대까지 SM 대통합의 장ㅣ🧳🩷 출장십오야 X SM 채널십오야">대부분의 동

    brilliantkorean.tistory.com

    나사에 합격했다고 욕설을 남발한 트위터 유저.jpg
     

    나사에 합격했다고 욕설을 남발한 트위터 유저.jpg

    나사에 합격했다고 욕설을 남발한 트위터 유저.jpg">찾아보니 저 아저씨는여자애 짜르라고 한 적 없고,오히려 감싸줬다고 함.나사에서 대선배 욕한 죄로 짤라버린 듯.">대부분의 동물에게 성별(

    luckykorean.tistory.com

    [펌] 부산 시아버지와 며느리의 이야기

     

    [펌] 부산 시아버지와 며느리의 이야기

    [펌] 부산 시아버지와 며느리의 이야기1990년대....무뚝뚝한 부산 싸나이는 며느리를 보았습니다.그 당시에 그리 흔하지 않은 시집살이를 하고 있는 며느리가 고맙고 대견했지만 시아부지는 별로

    lovelykorean.tistory.com

    뭔가 이상한 유튜브 알고리즘 근황.jpg
     

    뭔가 이상한 유튜브 알고리즘 근황.jpg

    뭔가 이상한 유튜브 알고리즘 근황.jpg">흥민이 꽈추 물지마!">대부분의 동물에게 성별(性別)이 두 개 밖에 없는 과학적인 이유 대부분의 동물에게 성별(性別)이 두 개 밖에 없는 과학적인 이유대

    beautifulkorean.tistory.com

    반응형