오픈AI와 챗GPT
페이지 정보
관련링크
본문
IT > ICT
오픈AI ‘챗GPT’ 성능 좋아졌다는데… ‘거짓 정보제공’ 환각현상은 왜 더 심해질까
이재은 기자 2025.04.27. 06:00
추론형 AI 모델 성능 충분히 높지 않아 학습 데이터가 불완전하거나 결함 있으면 환각 가능성
“정확성 중요한 법률, 의료 분야에선 치명적”, 해결책으로 웹 검색기능 도입 거론
오픈AI와 챗GPT./연합뉴스
지난 2월 미국 와이오밍주 연방법원은
인공지능(AI)이 생성한 허위 판례를 인용한 원고 측 로펌 모건앤모건 소속 변호사 2명에게
5천$(약720만원)의 벌금을 부과했다.
피고측인 월마트의 변호인단이 원고측이 인용한 판례 9개를 찾을 수 없다며 법원에 항의한 뒤 내려진 조치다.
변호사들은 “의도하지 않은 실수”라고 해명했지만,
로펌은 두 변호사를 해고하고 소속 변호사 1천여명에게
“AI가 생성한 가짜판례를 법원서류에 인용할 경우 해고될 수 있다”는 안내문을 발송했다.
앞서 뉴욕주에서도 변호사들이 챗GPT가 생성한 허위판례를 인용했다가 법원의 제재를 받았다.
미국에서는 챗GPT가 대중화된 최근 2년 사이 최소 9건의 소송에서
변호사들이 AI가 생성한 잘못된 정보를 꼼꼼히 확인하지 않고 인용하는 실수를 저질러 법조계를 충격에 빠뜨렸다.
가짜판례는 AI가 잘못된 정보를 그럴듯한 사실인 것처럼 제공하는 ‘환각’ 현상의 대표적인 사례다.
존재하지 않는 과학논문 제목을 꾸며내거나 일어나지 않은 사건을 역사적 사실인 양 나열하는 것도
챗GPT 등 AI 이용자들이 자주 경험하는 환각현상이다.
최근 오픈AI가 공개한 코딩에 특화된 추론형 AI 모델 챗GPT ‘o3’와 ‘o4 미니’가
이전 모델보다 성능이 좋아졌음에도 불구하고 환각현상이 심해진 것으로 나타나 논란이 되고 있다.
오픈AI는 ‘o3’가 “역대 가장 뛰어난 추론 모델”이라고 홍보했지만,
o3는 오픈AI의 자체 벤치마크 테스트인 퍼슨 QA에서 33%의 환각반응률을 보였다.
전작 o1의 16%와 비교해 환각반응률이 2배 정도 높아졌다.
‘o4 미니’의 환각률은 48%에 육박했다.
AI업계는 고질적인 환각문제를 없애기 위해 노력하고 있지만 좀처럼 해소되지 않는 모습이다.
환각발생 원인은 아직 명확히 밝혀지지 않았지만,
일부 전문가들은 추론형 AI 모델의 성능이 아직 충분히 고도화되지 않은 데다,
분야별로 고품질 데이터가 마련되지 않아 문제가 지속되고 있다고 분석했다.
AI 모델은 방대한 양의 데이터를 학습한 뒤 데이터 내 반복되는 규칙을 발견하고,
그 흐름을 토대로 결론을 도출하거나 특정 작업을 수행한다.
구글은 “이런 예측 정확성은 학습데이터의 품질과 완전성에 따라 달라지는 경우가 많다”고 했다.
학습데이터가 불완전하거나 편향되거나 결함이 있으면
AI 모델에서 잘못된 패턴을 학습해 부정확한 예측을 하거나 환각이 발생할 수 있다는 설명이다.
일례로, AI 모델이 이미지 데이터로 암세포를 식별하는 방법을 학습할 수 있는데,
학습을 위해 입력한 데이터에 정상조직의 이미지가 포함되어 있지 않으면
AI 모델은 정상조직이 암에 걸렸다고 오판할 수 있다.
법률, 의료 등 전문분야의 경우
각국 판례를 비롯한 고품질 데이터 대부분이 AI 모델에 입력되지 않았기 때문에
AI가 없는 사실을 만들어낸다고 전문가들은 설명한다.
스탠퍼드대 인간중심AI연구소(HAI)의 지난해 연구에 따르면
범용 AI의 경우 법률정보 관련 질문을 했을 때 환각현상을 일으킬 확률이 58%에서 82%로 높았다.
지어내지 않은 답변을 제공하는 경우가 절반 이하로 드물었다는 의미다.
법률특화 AI 모델도 환각반응률이 17%에서 34%에 달했다.
환각현상이 해소되려면 고도화된 AI 모델이 안정기에 접어들어야 하는데,
새 AI 모델이 쏟아지는 현 시점에서는 환각률 개선을 기대하기가 어렵다는 의견도 나왔다.
최병호 고려대 인공지능연구소 교수는
“지금은 안정성을 추구하는 시점이 아니라
오픈AI를 비롯한 기업들이 AI 모델을 끊임없이 개선하면서 혁신적인 실험을 하는 단계”라며
“AI 기업들이 AI 모델을 경량화하는 동시에 성능을 높이는 과정에서
학습데이터의 질이 들쭉날쭉할 가능성이 있고 추론형 모델의 경우 아직 성능이 충분히 높지 않다”고 말했다.
범용 AI 모델의 경우 매개변수(파라미터)가 많게는 1조개가 넘는데,
규모가 커질수록 통제하기 어렵다는 점도 환각문제를 키우는 요인으로 꼽힌다.
최 교수는
“용량이 커진 AI 모델을 역으로 연구해 어떻게 추론을 구성하고
왜 특정 답을 내놓는지 알아내야 하는 상황”이라고 했다.
오픈AI도 새 모델의 환각률이 높아졌다는 지적에 “더 많은 연구가 필요하다”는 입장을 내놓았다.
업계에서는 AI 모델이 환각문제를 해결하지 못하면 주요산업에서의 응용이 더뎌질 수 있다고 지적한다.
IT매체 테크크런치는
“환각현상은 소설을 쓰는 등 창작활동에는 도움이 되지만,
정확성이 중요한 법률, 의료 등의 분야에서는 치명적이다”라고 평가했다.
환각현상을 최소화할 해결책 중 하나로는 웹 검색기능 도입이 거론된다.
AI 모델이 신뢰할 만한 출처의 자료를 찾아 답변을 내놓으면 정확도를 높일 수 있기 때문이다.
또 수십억명의 사용자가 브라우저를 이용하는 과정에서 생성되는 막대한 데이터를
AI 모델 학습에 활용할 수 있게 된다.
최근 오픈AI가 구글이 크롬 브라우저를 매각할 경우 인수할 의향이 있다고 한 것도
AI 모델 성능개선과 환각문제 해결을 염두에 둔 발언으로 풀이된다.
챗GPT 책임자 닉 털리는 최근 미국 워싱턴DC에서 열린 구글 반독점 재판에서
“챗GPT가 사실에 기반한 최신 정보를 사용자에게 제공하려면 검색기능은 필수”라며
“챗GPT가 자체 검색기술로 사용자 요청이나 질문의 80%를 처리할 수 있게 되기까지는
수년이 걸릴 것”이라고 말했다.
댓글목록
등록된 댓글이 없습니다.