Gemini Ultra는 AI 모델의 기능을 테스트하는 여러 벤치마크에서 OpenAI의 GPT-4를 상대로 인상적인 성과를 거두고 있습니다.
구글은 이번 주에 OpenAI의 GPT-4의 라이벌인 제미니(Gemini)를 공개했습니다.
구글은 제미니가 수학, 코딩, 그리고 가장 고급 단계의 주제 지식에서 GPT-4를 능가한다고 말합니다.
또한 57개 주제 영역에 대한 테스트에서 인간 수준의 전문가와 일치하는 최초의 모델이라고 구글은 말합니다.
이번 주에 구글은 OpenAI의 GPT-4의 강력한 라이벌처럼 보이는 제미니를 공개했습니다.
제미니는 크기와 기능이 다른 세 가지 모델로 구성되어 있습니다. 아직 일반에 공개되지는 않았지만 구글은 "매우 복잡한 작업"을 위해 설계된 가장 진보된 모델인 제미니 울트라( Gemini Ultra )는 역사 및 법률과 같은 주제에 대한 지식부터 파이썬 코드 생성, 다단계 추론이 필요한 작업에 이르기까지 여러 영역에서 GPT-4보다 뛰어나다고 구글은 발표에서 밝혔다.
구글은 AI 모델의 지식과 문제 해결 능력을 측정하는 데 가장 널리 사용되는 방법 중 하나인 대규모 다중 작업 언어 이해 테스트(MMLU)에서도 제미니가 GPT-4보다 뛰어난 성능을 보였다고 밝혔습니다.
뉴욕타임스의 기술 팟캐스트인 하드포크(Hard Fork)에서 케빈 루즈는 이 시험을 "AI 모델을 위한 수능"에 비유할 수 있다고 말했습니다. 하지만 MMLU는 일반적인 대학 입시 시험보다 조금 더 난이도가 높습니다. 구글의 발표에 따르면 이 시험은 수학, 물리학, 역사, 법학, 의학, 윤리학 등 57개 과목을 다루며 세계 지식과 문제 해결 능력을 모두 테스트합니다.
구글에 따르면 제미니 울트라는 MMLU에서 90%, GPT-4는 86.4%의 점수를 기록했습니다.
하지만 제미니 울트라의 더 인상적인 업적은 MMLU에서 인간 전문가를 능가한 최초의 모델이라는 점일 것입니다. 구글은 제미니에 대한 기술 보고서에서 인간 전문가들이 약 89.8%의 점수를 받았다고 밝혔습니다.
루스는 "2~3년 전으로 돌아가서 AI 연구자들에게 구글이 인간 전문가의 벤치마크 기준치보다 더 높은 90%의 점수를 받는 모델을 개발할 것이라고 말했다면, 그들은 '그게 바로 AGI'라고 말했을 것"이라고 말했습니다. AGI는 인공 일반 지능 또는 인공 지능으로, 상식이나 의식과 같은 복잡한 인간 능력을 처리할 수 있는 가상의 인공지능 형태입니다.
구글에 따르면 GPT-4는 일상적인 작업에 대한 상식적인 추론 능력 평가에서 제미니 울트라를 몇 퍼센트 포인트 차이로 앞섰다고 합니다.
하지만 구글은 제미니가 다른 모델에 비해 한 가지 장점은 기본적으로 멀티모달이라는 점, 즉 처음부터 텍스트에서 오디오, 코드, 이미지 및 비디오에 이르기까지 여러 유형의 데이터를 처리하도록 설계되었다는 점이라고 말합니다. 다른 멀티모달 모델은 텍스트 전용, 시각 전용, 오디오 전용 모델을 "차선책"으로 "연결"하는 방식으로 만들어졌다고 구글 딥마인드 연구 담당 부사장인 오리올 빈얄스는 제미니를 소개하는 동영상에서 말했습니다.
결과적으로 구글은 제미니의 설계를 통해 기존 멀티모달 (multimodal)모델보다 입력을 더 잘 이해할 수 있다고 말합니다. SemiAnalysis 블로그의 연구원들도 제미니가 연산 능력에서 GPT-4를 "압도"할 것이라고 말합니다.
제미니 울트라의 출시에 대한 기대가 높은 것은 사실이지만, 세 가지 제미니 모델이 이미 소비자 인지도에서 우위를 점하고 있는 OpenAI와 어떻게 경쟁할지는 아직 미지수입니다.
Google의 챗봇 Bard를 통해 액세스할 수 있는 덜 발전된 Gemini Pro에 대한 초기 반응은 긍정적이었습니다. 하지만 이 모델 역시 정확성과 환각에 대한 문제가 제기되었습니다. 심지어 논란의 여지가 있는 질문에 대한 답변은 구글에 문의하라고 말하기도 했습니다.
구글과 OpenAI는 비즈니스 인사이더의 논평 요청에 응답하지 않았습니다.
댓글 없음:
댓글 쓰기