You are currently viewing 챗GPT4를 능가하는 구글의 multi mode 거대 언어모델 제미나이
Google Gemini

챗GPT4를 능가하는 구글의 multi mode 거대 언어모델 제미나이

2023년 12월 6일 구글이 공개한 시연영상에서 거대 언어모델 제미나이는 텍스트는 물론 사진, 영상, 음성까지 인식한다. 구글은 제미나이는 기존의 멀티 모드 AI 모델과는 달리 개발 단계부터 다양한 모드에 대한 사전 학습을 통해 설계됐기 때문에 복잡한 추론을 하는 성능이 훨씬 뛰어나다고 말한다. 제미나이 시연 영상은 편집본이다.

챗GPT4를 능가하는 멀티 모드 구글 제미나이

제미나이Gemini는 별자리 중에 쌍둥이 자리를 뜻한다. 구글은 최근 시연영상에서 공개한 거대 언어모델은 이 별자리에서 이름을 따왔다. 대규모 언어모델(LLM)은 생성 AI의 기반이 된다. 시연영상은 편집본이다.

지금까지 멀티 모달 AI 모델을 만드는 방식은 서로 다른 모드(modal, mode)를 각각 학습시킨 다음에 이를 서로 연결해 일부 기능을 비슷하게 모방하는 수준이었다. 멀티 모달은 다양한 모드 즉 시각, 청각, 영상 등으로 인간과 상호작용한다는 뜻이다.

그러나 제미나이는 개발 단계부터 다양한 모드(mode, modality)에 대해 사전 학습을 통해 설계됐기 때문에 더 개념적인 추론이나 복잡한 추론을 하는데 훨씬 뛰어나다.

제미나이는 울트라, 프로, 나노의 3종이 있다. 제미나이 울트라가 가장 많이 학습을 했기 때문에 성능 평가항목에서 오픈AI의 챗GPT4를 뛰어넘었다.

구글은 제미나이 울트라가 특히 50여 개 주제를 복합적으로 활용해 지식과 문제 해결 능력을 평가하는 대규모 다중작업 언어이해(MMLU)에서 심지어 사람보다 점수가 높았다고 강조했다.

카메라로 사람의 행동을 보며 실시간 상호 소통하는 제미나이

제미나이는 카메라 덕분에 실시간 시야 인식 능력을 갖추고 있다. 그래서 실제 사람의 행동을 보며 상호 소통을 한다. 즉, 사람처럼 판단력을 갖고 사물을 인식하는 것처럼 보인다. 다음은 구글이 공개한 영상의 내용이다. 시연 영상은 실시간이 아니다.

사람이 종이에 펜으로 오리를 그리면 제미나이는 ‘새’를 인식했다. 사람이 오리 옆에 물결 표시를 그리자 제미나이는 오리라고 반응했다. 사람이 오리에 파란색을 칠하자 흔치 않지만 파란 오리도 있다고 반응했고 파란색 장난감 오리를 보여주자 고무 장난감 오리라고 했다.

고무 오리가 물에 뜰지 물어보자 제미나이가 잠시 멋짓하자 사람이 고무 오리를 손으로 누르는 모습을 보여주었다. 이에 제미나이가 속이 비어 물에 뜨겠다고 응답했다.

이러한 시연 영상은 실시간이 아니라 구글이 의도적으로 만든 편집본임이 드러났다.

수학 물리학의 오답을 정정하는 제미나이

앞면이 네모난 모양의 차량과 삼각형이 차량 중 어느 차량이 더 빠를지 묻자 제미나이는 공기역학이 적용된 세모난 차가 더 빠르다고 대답했다.

Google Gemini. YouTube

수학 문제를 오답을 낸 풀이과정과 함께 보여주자 틀린 부분을 정확히 지적하고 올바른 수식도 내놓았다. 제미나이는 수학과 물리학에 대한 인식이 정교하다.

음악과 영상 인지 능력도 좋은 제미나이

사람이 총알을 피하는 모습을 보여주자 영화 메트릭스의 유명한 장면이라고 답했다. 기타를 그려 보여주면 제미나이는 기타로만 연주한 곡을 연주했다. 드럼과 베이스를 그리면 밴드 곡을 연주하기도 했다.

https://www.google.com/search?client=safari&sca_esv=588786366&rls=en&sxsrf=AM9HkKnNYqnEoJuCdB0Axu7TXwfryDY3Aw:1701970615595&q=google+gemini&tbm=vid&source=lnms&sa=X&ved=2ahUKEwiBqdfP7v2CAxVlWEEAHe1XDOQQ0pQJegQICBAB&biw=1342&bih=658&dpr=1#

2024년 초에 출시 예정인 제미나이 울트라

2024년 12월 6일 구글이 시연한 제마나이 울트라는 2024년 초에 출시 예정이다. 2023년에 곧바로 출시하지 않는 이유는 안전성을 보다 확실히 하기 위해서라고 엘리 콜린스 구글 딥마인드 프로덕트 부사장이 말했다.

제미나이 시연 영상은 구글이 의도적으로 만든 편집본이다. 멀티모달로 제미나이의 성능을 차별화하는 구글의 지향점을 드러냈다. 제미나이가 실시간으로 탁월한 성능을 보이려면 구글은 시간이 필요하다.

함께 읽으면 좋은 글

2023년 12월 6일 구글이 공개한 거대 언어모델 제미나이는 텍스트는 물론 사진, 영상, 음성까지 인식한다. 기존의 멀티모달 AI 모델과는 달리 개발 단계부터 다양한 모달리티에 대한 사전 학습을 통해 설계됐기 때문에 복잡한 추론을 하는 성능이 훨씬 뛰어나다.

solidarity

서로 웃을 수 있는 더 나은 세상을 추구합니다. 글을 읽고 쓰며 서로 좋은 영향력 권역에 있을 수 있습니다

Leave a Reply