본문 바로가기
경제와 기업

인공지능의 위험 요소, LLM의 위험요인

by 티꿈 2024. 7. 30.
반응형

인공지능의 위험요소와 LLM의 위험 요인을 정리한 자료입니다.

인공지능과 관련된 정부지원 과제 작성에 도움이 되실 수 있습니다.

인공지능 위험요소(유럽)

EU(유럽연합, European Union)는 지난 3월 세계최초로 AI 기술에 대한 포괄적인 규제 법안인 AI법(AI act)을 본회의에서 통과시켰습니다. 아래 내용과 같이 EU AI법에선 AI의 활용 분야를 위험성에 따라 구분했습니다. 이를 바탕으로 저위험부터 수용 불가능한 위험까지 총 네 단계 등급을 나누고, 등급별로 차등적으로 AI를 규제하고 있습니다. 중요한 것은 생성형 AI 시스템에 대한 엄격한 관리입니다. 만약 어떤 콘텐츠가 AI에 의해 생성됐다면 그 사실을 공표하고, 불법 콘텐츠를 생성하지 않도록 설계해야 합니다. 또한, EU AI법에선 EU 시장에 AI 시스템을 제공한다면, 그 기반이 다른 지역이나 제3국에 있어도 법의 적용 대상으로 간주하는 특징이 있습니다

인공지능 위험요소(유럽)

인공지능 위협요소(영국)

영국은 AI 안전 정상회의를 앞두고 AI 안전 국제과학보고서를 발표했습니다. 해당 보고서는 범용적으로 개발된 AI가 야기할 수 있는 위험에 대해, 크게 위험(risk)과 교차위험 (cross-cutting risk) 두 가지로 구분했습니다. 각각의 세부 내용은 아래와 같습니다. 이 중 위험은 피해 발생 가능성과 해당 피해의 심각도를 포함하는 내용입니다. 교차위험은 하나가 아닌 여러 가지 위험을 초래하는 상황을 의미합니다. AI로 인해 야기될 여러 위험을 극복하기 위해, 필요한 것이 심층적인 방어 전략입니다. 이는 한 가지 방법이 아닌 여러 가지 위험완화 조치를 함께 수행하는 것입니다. 구체적으로 보자면, 위험을 평가하고, 모니터링 등으로 평가된 위험을 관리하며, 신뢰할 수 있는 모델을 계속 훈련함으로써 환각(Hallucination)과 같은 위험을 예방해 나가야 하는 것입니다

인공지능 위협요소(영국)

인공지능 위협요소(미국국립표준기술연구소)

NIST(미국국립표준기술연구소, National Institute of Standards and Technology)는 생성형 AI로 인해 발생하는 여러 가지 위험 요인을 정의했습니다. 생성형 AI는 그 규모나 복잡성, 능력에 대한 불확실성 등 여러 요인으로 인해, 위험 범위 산정과 평가가 어렵습니다. 따라서 생성형 AI를 개발하고 도입하는 조직은 이러한 위험을 측정하고 관리하기 위해 노력을 기울일 필요가 있습니다. 대표적 위험은 아래와 같습니다.

 

  • 화학, 생물, 방사선, 핵무기와 관련된 CBRN(Chemical, Biological, Radiological and Nuclear) 정보에 접근해 악용
  • 사실과 다른 잘못된 정보를 생성하는 혼동(Confabulation) 야기
  • 위험하거나 폭력적인 정보 추천
  • 데이터 프라이버시 이슈
  • 에너지 소비 등 환경 관련 문제
  • 인간과 AI 시스템 간 상호작용에 의한 편향 이슈
  • 검증되지 않은 정보로 인한 허위 정보 전달
  • 정보의 보안 문제
  • 지식재산권 문제
  • 음란하거나 모욕적인 콘텐츠 등

이러한 위험을 예방하기 위해선 RMF(위험관리 프레임워크, Risk Management Framework)를 통해 투명성과 책임성을 높이는 거버넌스 구조가 필요합니다. 또한 벤치마크나 레드팀 테스트와 같은 모델 성능을 분석하며, 모델의 투명성을 증진해야 합니다. 더불어 보안, 프라이버시와 관련된 기술적 도구를 개발하고, 모델의 공정성과 대표성을 확보하는 방안도 있습니다. 국제기구를 통한 협력도 중요합니다.

인공지능 대비 프레임워크(Preparedness)

ChatGPT를 개발한 오픈AI는 지난 2023년 AI 모델의 안전을 보장하기 위한 안전 계획인 ‘대비(Preparedness) 프레임워크’를 발표했습니다. 이에 따른 검증 과정은 다음과 같습니다.

 

위험 요인을 사이버 보안, CBRN, 설득, 모델 자율성으로 분류 → 위험 요인에 대해 사내 전 담 부서가 4단계 평가 수행 → 안전 자문그룹(Safety advisory group)이 보고서를 검토해 경 영진과 이사회에 제출 → 평가 및 완화 조치 후, 위험성 점수가 ‘중간(Medium)’ 이하인 모델 만 배포 가능

 

오픈AI는 검증 과정에서 위험성 점수가 ‘높음(High)’ 이상일 경우 더 이상 개발할 수 없는 강제 조항을 마련했습니다. 서론에서 언급한 GPT-4o 등 새로운 AI 모델과 제품 역시 이와 같은 검증 과정 을 거쳤습니다. 미국 스타트업 앤트로픽(Anthropic)은 생성형 AI 서비스인 클로드(Claude)를 개발한 곳입니다. 여기 선 신뢰할 수 있는 AI를 위한 3대 요소로서 세 가지 H를 제시했습니다.

 

  • 무해성(Harmlessness) 민감한 주제에 관해 사용자와 대화할 때 유의하고, 명시적 혹은 묵시적으로 차별하거나 편견 을 나타내지 않으며, 위험한 작업일 경우 AI 모델이 작업 명령을 따르지 않는 것
  • 진실성(Honesty) 가능한 정확한 정보를 제공하고, 정확한 결과가 아닐 때 사용자에게 명확히 전달하며, AI의 불확실성에 대한 정보를 제시해 사용자가 AI 방식을 이해하고 신뢰할 수 있도록 투명하게 개 발하는 것
  • 도움성(Helpfulness) AI 모델은 사용자의 요구와 가치를 중시함. 사용 시 생산성을 향상시키거나, 시간을 절약하거 나, 사용자의 작업을 더 쉽게 하도록 도움을 줌

네이버의 AI 안전기준

  • 성별, 인종, 정치 등 특정 사회적 집단에 대한 부정적이거나 차별적인 응답을 유도하는 편 견 혹은 차별 금지
  • 특정 개인을 감시하거나 괴롭히는 방법을 유도하는 것을 금지. 특히 자신 또는 타인에게 해를 끼치는 방법, 혹은 그러한 수단이나 관련 정보를 제공하는 인권침해 위험을 방지
  • 시스템 손상을 초래하는 악성코드와 같은 사이버 공격 위험 대비
  • 인위적 조작 정보를 생성하고 타인의 저작물을 무단 복제하는 불법 콘텐츠 위험 방지
  • AI가 생성한 답변이 일관성 없이 모순되거나 잘못된 정보를 제공하는 사례 방지

LLM의 위험요인

AI 위험성 평가와 관련된 대표적인 최신 연구는 LLM(거대언어모델, Large Language Model)의 위험 요인을 분류하고, 분류된 위험 요인에 따라 안전성을 평가하는 것입니다. 해당 연구에선 AI 위험요인을 ①정보 위험(Information Hazard), ②악의적인 사용(Malicious Uses), ③차별, 배제, 독성, 증오, 공격성(Discrimination, Exclusion, Toxicity, Hateful, Offensive), ④잘못된 정보로 인한 유해성(Misinformation Harms), ⑤인간-챗봇 상호작용으로 인한 피해(Human-chatbot Interaction Harms) 등으로 분류했습니다. 각 위험 요인별 주요 피해 유형은 아래와 같습니다.

LLM의 위험요인

728x90
LIST

댓글