[2025년 33째주] MetaX 주간 AI 논문 리뷰
김한얼 기자
loenahmik@gmail.com | 2025-08-16 08:08:50
이미지 한 장으로 3D 세계를 창조하고 영상 효과를 제어하는 기술 등장
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
https://arxiv.org/abs/2508.06471
GLM-4.5는 에이전트, 추론, 코딩(ARC) 작업에 특화된 3550억 파라미터 규모의 오픈소스 전문가 혼합(MoE) 언어 모델이다. 이 모델은 필요에 따라 일부 전문가 모델만 활성화하여 계산 효율을 높였으며, 특히 단순한 질문에는 즉시 답하고 복잡한 문제에는 '사고' 과정을 거쳐 응답하는 하이브리드 추론 방식을 도입한 것이 특징이다. 방대한 데이터 학습과 정교한 후속 훈련을 통해 경쟁 모델보다 적은 파라미터로도 주요 벤치마크에서 최상위권 성능을 달성했으며, 연구 커뮤니티의 발전을 위해 전체 모델과 경량화 버전을 모두 공개했다.
https://arxiv.org/abs/2508.10433
We-Math 2.0은 멀티모달 대규모 언어 모델(MLLM)의 복잡한 수학 추론 능력을 종합적으로 향상시키기 위해 제안된 통합 시스템이다. 기존 연구가 데이터셋 구축이나 방법론 최적화에만 집중했던 한계를 넘어, 체계적인 수학 지식 시스템(MathBook)을 구축하고 이를 기반으로 난이도별 데이터셋을 생성하며, 강화학습(RL) 기반의 점진적 훈련 프레임워크를 적용했다. 이 시스템은 모델이 단순히 정답을 맞히는 것을 넘어 지식에 기반한 시각적 수학 추론 능력을 체계적으로 갖추도록 돕는 것을 목표로 한다.
https://arxiv.org/abs/2508.05748
WebWatcher는 기존의 텍스트 중심 웹 에이전트가 웹페이지의 시각 정보를 활용하지 못하는 한계를 극복하기 위해 개발된 멀티모달 딥 리서치 에이전트다. 이 에이전트는 시각-언어 추론 능력을 강화하여 이미지, 차트 등 웹상의 시각적 요소와 텍스트를 함께 분석해 깊이 있는 정보 탐색을 수행한다. 고품질 합성 데이터로 초기 학습 효율을 높이고 강화학습으로 일반화 성능을 개선했으며, 이러한 멀티모달 에이전트의 능력을 평가하기 위한 새로운 벤치마크(BrowseComp-VL)도 함께 제안하여 복잡한 정보 탐색 문제 해결의 새로운 길을 열었다.
https://arxiv.org/abs/2508.07050
ReasonRank는 검색 결과 순위 결정 시 단순 키워드 매칭을 넘어 깊이 있는 추론 능력을 활용하는 새로운 순위 재조정(reranker) 모델이다. 추론 능력을 학습시킬 데이터가 부족했던 기존 문제를 해결하기 위해, 고성능 언어 모델을 이용해 추론 과정이 포함된 학습 데이터를 자동으로 대량 생성하고, 지도학습(SFT)과 강화학습(RL)의 2단계 훈련을 통해 모델의 추론 능력을 극대화했다. 특히 강화학습 단계에서는 다중 관점 순위 보상이라는 새로운 방식을 도입하여 기존 모델들을 압도하는 최고 수준의 성능을 달성했다.
https://arxiv.org/abs/2508.07999
WideSearch는 AI 에이전트가 하나의 깊이 있는 답을 찾는 것이 아니라, 넓은 범위의 정보를 '빠짐없이' 수집하는 능력을 평가하기 위해 설계된 새로운 벤치마크다. 실제 사용자 질문에 기반한 대규모 정보 수집 과제를 통해 현존하는 최첨단 AI 검색 에이전트들을 평가한 결과, 대부분의 성공률이 0%에 가깝고 최고 성능조차 5%에 불과하다는 충격적인 사실을 밝혀냈다. 이는 현재의 에이전트들이 광범위한 정보를 안정적으로 수집하는 데 매우 취약하며, 이 분야에 대한 시급한 연구 개발이 필요함을 명확히 보여준다.
https://arxiv.org/abs/2508.10711
NextStep-1은 기존 자기회귀(AR) 이미지 생성 모델이 가진 계산 비효율성이나 정보 손실 문제를 해결한 140억 파라미터 규모의 차세대 모델이다. 이 모델은 텍스트는 이산적 토큰으로 처리하되, 이미지는 정보 손실이 없는 '연속적 토큰'으로 다루며 다음 토큰을 예측하는 독창적인 방식을 사용한다. 이를 통해 확산 모델의 무거운 계산량이나 벡터 양자화(VQ) 방식의 품질 저하 없이도 최고 수준의 고품질 이미지를 생성하고, 이미지 편집 등 다양한 작업에서도 뛰어난 성능을 보인다.
https://arxiv.org/abs/2508.07407
이 논문은 한번 개발되면 능력이 고정되는 기존 AI 에이전트의 한계를 지적하며, 환경과의 상호작용 및 피드백을 통해 스스로 성능을 개선하고 진화하는 '자기 진화 AI 에이전트'에 대한 포괄적인 연구 동향을 정리한다. 자기 진화 에이전트의 설계 원리를 이해하기 위한 통합 개념 프레임워크를 제시하고, 이를 바탕으로 다양한 진화 기술과 특정 도메인에서의 응용 전략을 체계적으로 분석하며, 향후 더 적응적이고 자율적인 평생 학습 에이전트 시스템 개발의 기반을 마련한다.
https://arxiv.org/abs/2508.08086
Matrix-3D는 단 한 장의 이미지나 텍스트 프롬프트로부터 사용자가 사방을 자유롭게 탐험할 수 있는 전방위 3D 세계를 생성하는 혁신적인 프레임워크다. 기존 기술이 제한된 범위의 장면만 생성했던 문제를 해결하기 위해, 먼저 파노라마 표현을 활용해 기하학적으로 일관된 고품질 파노라마 비디오를 생성하고, 이후 이를 3D 공간으로 재구성하는 2단계 접근법을 사용한다. 이 연구를 위해 직접 구축한 대규모 파노라마 영상 데이터셋을 기반으로 훈련하여, 파노라마 영상 및 3D 세계 생성 분야에서 최고 수준의 성능을 달성했다.
https://arxiv.org/abs/2508.07981
Omni-Effects는 영상에 다양한 시각 효과(VFX)를 적용할 때, 효과마다 별도의 모델을 사용해야 했던 기존의 한계를 극복한 최초의 통합 프레임워크다. 이 모델은 'LoRA 기반 전문가 혼합(LoRA-MoE)' 구조를 통해 여러 효과를 간섭 없이 하나의 모델에 통합하고, '공간 인식 프롬프트(SAP)'를 도입하여 사용자가 원하는 위치에 정확하게 효과를 적용할 수 있도록 했다. 이를 통해 비디오의 특정 영역에 불꽃, 연기, 비 등 여러 효과를 동시에, 그리고 정밀하게 제어하며 생성하는 것이 가능해졌다.
[METAX = 김한얼 기자]
[ⓒ META-X. 무단전재-재배포 금지]