각 AI 모델에 표준화된 프롬프트를 동일하게 입력하여 얻은 결과를 비교한
AI의 IQ는 얼마일까?
최근 AI 모델들의 '지능'을 비교한 흥미로운 결과가 공개됐다. 비주얼캐피털리스트(Visual Capitalist)와 TrackingAI.org가 공동 분석해 발표한 내용에 따르면, 노르웨이 멘사가 만든 IQ 테스트에서 OpenAI의 o3가 135점, 즉 인간 기준 ‘천재(Genius)’ 수준의 성적을 기록하며 1등을 차지했다.
하지만 정말로 AI가 '천재'가 된 걸까? 조금 더 들여다보면 이 테스트는 우리가 AI의 지능을 바라보는 방식에 대한 중요한 질문을 던진다.

테스트는 어떻게 이루어졌을까?
테스트는 멘사(Mensa Norway)에서 설계한 비언어 추리 퍼즐 35문항을 기반으로 진행되었다. 이 퍼즐은 인간의 패턴 인식, 논리적 추론, 공간 지각 능력을 평가하는 데 초점을 맞춘 고난이도 IQ 시험으로, 일반적으로 언어 대신 시각적 정보(예: 행렬, 도형 배열 등)를 통해 문제를 제시한다.
TrackingAI.org는 이 퍼즐을 AI 모델에게 투입하기 위해 두 가지 방식을 사용했다.
첫째, 텍스트 전용 모델(text-only)에게는 문제의 시각적 요소를 언어화된 프롬프트로 변환하여 입력했고, 둘째, 멀티모달 모델(multimodal)에게는 문제 이미지를 그대로 시각적 입력으로 제공했다. 이후 동일한 문제를 여러 모델에 반복적으로 테스트하여, 평균적인 성능을 기반으로 IQ 점수로 환산된 결과를 도출했다. 응답 결과와 채점 방식은 TrackingAI 웹사이트에서 공개되어, 사용자가 직접 각 AI의 답변 이력을 확인할 수 있게 구성되었다.

결과는 매우 흥미로웠다. 텍스트 전용 모델들이 압도적으로 높은 성과를 기록한 반면, 멀티모달 모델은 상대적으로 저조한 성과를 보였기 때문이다.
예를 들어, OpenAI o3는 IQ 135를 기록하며 인간 기준으로도 ‘천재(Genius)’ 수준에 해당했고,
Anthropic Claude 4 Sonnet은 127, Google Gemini 2.0 Flash는 126으로 모두 고지능 범주에 포함되었다. 반면, 시각 정보를 직접 처리하는 GPT-4o Vision, Grok 3 Think Vision 등은 각각 60~70점대에 그치며, 인간 기준으로는 평균 이하의 수준을 보였다. 이는 단순한 ‘성능 격차’가 아니라, 입력 방식과 모델 아키텍처의 차이, 그리고 AI의 인지 과정이 어떻게 설계되었는가에 따라 전혀 다른 결과가 도출된다는 점에서 주목할 만하다.
멀티모달은 왜 점수가 낮았을까?

단순히 “멀티모달이 덜 똑똑하다”고 해석할 수는 없다. 오히려 이는 테스트 방식의 구조적 특징과 AI 모델 아키텍처의 차이에서 비롯된다. 멀티모달 모델(multimodal model)은 이미지, 음성, 텍스트 등 다양한 입력을 동시에 처리하도록 설계되었지만, IQ 테스트는 고도로 구조화된 언어적 추론 중심의 문제로 구성되어 있어, 텍스트 기반 모델에게 유리한 환경이었다.
그렇다면, 텍스트 전용 모델 vs 멀티모달 모델의 구조적 차이는 무엇일까?
텍스트 전용 모델(text-only model)은 언어 기반 추론과 수리적 패턴 분석에 특화되어 있다. 이들은 학습 과정에서 대규모 수학/논리 데이터셋(GSM8K, MATH, LogiQA 등)을 통해 정밀한 문제 풀이 능력을 습득했다.

반면, 멀티모달 모델은 다양한 형태의 입력을 균형 있게 처리해야 하므로, 언어 정보에 대한 집중도가 비교적 낮고, 이미지 데이터를 이해하려면 내부적으로 이를 텍스트화하거나 벡터 표현으로 변환하는 단계를 거쳐야 한다. 이러한 번역 과정에서는 시각 구조의 의미적 계층성(관계, 패턴, 위치 정보)이 손실될 수 있으며, 이는 추론 오류로 이어진다. 예컨대 GPT-4o Vision이 문제를 정확히 읽고도,
“왼쪽에서 두 번째 도형이 규칙을 따르지 않는다”와 같은 판단을 하지 못한 이유가 여기에 있다. 그리고 이는 현재 AI 모델의 명확한 한계를 드러낸다. 특정 능력(언어 추론, 계산 등)에 특화된 모델은 인간을 능가할 수 있지만, 다양한 능력을 통합적으로 운용하고 전이(transfer)하는 '총체적 지능'은 아직 구현되지 않았다. 즉, 지금의 AI는 스페셜리스트(Specialist)이지, 제너럴리스트(Generalist)는 아니라는 뜻이다.
진짜 질문은, AI가 똑똑하냐가 아니다.
이번 IQ 테스트는 AI 모델의 성능을 수치화해 비교하는 데 성공했지만, 동시에 한 가지 사실을 상기시킨다. AI의 지능은 평가 방식에 따라 전혀 다르게 나타날 수 있으며, 그 지표는 매우 민감하고 맥락 의존적이라는 점이다. IQ는 어디까지나 논리적 추론 능력의 일면을 정량화한 지표에 불과하다. 하지만 지능이란 단일한 수치로 환원될 수 없는 다차원적 능력이다. 예를 들어, 창의성, 사회적 상식, 감정 인식, 도덕적 판단, 상호 협업 능력 등은 현재 대부분의 AI가 아직 본격적으로 다루지 못하는 영역이다. 더불어, 인간의 IQ는 지적 능력뿐 아니라 정서적 동기와 맥락 적응력과도 연결되어 있다. 같은 문제를 두고도 왜 그 답을 선택했는지, 어떤 의도나 감정을 담았는지에 따라 전혀 다른 해석이 가능하다.
하지만 현재 AI는 입력에 따라 기계적으로 출력을 내는, 정해진 구조 속의 계산기에 가깝다.
“얼마나 똑똑한가?”보다 “무엇을 할 수 있는가?”로
결국 우리가 던져야 할 질문은 바뀌어야 한다. AI의 진정한 가치와 지능은 단순한 숫자가 아니라, ‘역할’과 ‘관계’ 속에서 정의되어야 한다.
“AI는 얼마나 똑똑한가?”
이 질문은 AI를 시험지 속의 피실험자로만 보는 관점이다.
“AI는 무엇을 할 수 있는가, 그리고 인간과 어떻게 협업할 수 있는가?”
이 질문은 AI를 현실의 파트너, 즉 공동작업자(co-agent)로 바라보는 관점이다.
문제를 잘 푸는 것과 문제를 함께 해결하는 것은 다르다. 앞으로의 AI는 정답이 있는 시험 문제가 아니라, 정답이 없는 사회적 문제를 다루는 시대에 투입될 것이다.
그때 필요한 것은 ‘IQ’뿐 아니라, 정서적 지능(EQ), 맥락 인식력, 대화형 적응성이다.
협업을 위한 지능, 새로운 기준이 필요하다
다가올 시대의 AI는 단순히 높은 IQ 점수만으로는 부족하다. 우리는 이제 AI를 정답형 문제 풀이 머신이 아니라, 인간의 불완전한 문제 해결 과정에 기여하는 동료로 보고 설계해야 한다.
협업 AI의 핵심 조건이란, 판단의 이유를 말할 수 있어야 한다. '왜 이런 답을 냈는지' 설명할 수 없는 AI는 책임지지 않는 알고리즘에 불과하다. 또한 상황의 흐름을 읽고 유연하게 대응할 수 있어야 한다. 사용자의 말투, 감정, 문화적 맥락 등을 이해하고 맞춰주는 능력은 협업의 핵심이다. 실시간 위기 대응과 자율 제어 구조가 마련되어야 한다. 단순한 정답 제공이 아닌, 오류를 인식하고 수습하는 시스템 레벨의 지능이 필요하다. 이런 요소들은 과거에는 ‘프리미엄 기능’이었지만, 이제는 AI가 인간 사회에 깊숙이 침투한 이후, 기본적으로 갖춰야 할 자격 요건이 되고 있다.
AI 지능 평가의 미래는?
이번 AI IQ 테스트는 단순한 랭킹 게임이 아니다. 우리가 AI를 어떻게 바라보며, 어디까지 기대해야 하는지를 되묻는 사회적 리트머스 시험지다. 지금까지 AI는 정해진 질문에 최적화된 답을 내놓는 시스템이었다.
"이 문제의 정답은 무엇인가?"
그러나 이제는 AI가 사람과 함께 문제를 구조화하고, 스스로 질문을 던지는 능력까지 요구된다.
"이 문제를 푸는 방식은 정당한가?", "다른 접근이 필요하지 않을까?"
즉, AI가 인간의 질문에 반응하는 존재에서, 질문을 함께 만들어가는 존재로 나아가야 한다. 어쩌면 ‘정답을 맞히는 존재’로서의 AI는 이미 과거가 되었다. 진짜 미래는, “같이 생각하고, 같이 책임지는 존재”로서의 AI가 아닐까.
[METAX = 김하영 기자]
[저작권자ⓒ META-X. 무단전재-재배포 금지]