[메타X(MetaX)] 2026년 1월, 소니가 한 편의 특허를 취득했다. 이름은 'LLM-Based Generative Podcasts for Gamers'. 2024년 7월 출원되어 2026년 1월 말 정식 등록된 이 특허는 기술 문서지만, 그 안에 담긴 아이디어는 게임 산업의 권리 구조를 건드리는 무언가를 품고 있다.
특허의 핵심 구상은 이렇다. 플레이어가 콘솔을 켜면 오늘의 팟캐스트가 준비되어 있다는 알림이 뜬다. 팟캐스트 진행자는 아나운서가 아니다. 플레이어가 최근 플레이한 게임의 캐릭터다. '갓 오브 워'의 크레토스가 당신이 아직 도전하지 않은 트로피를 언급하고, '호라이즌'의 에일로이가 친구의 플래티넘 달성을 알리며, '언차티드'의 네이선 드레이크가 신작 추천을 건넨다. 스크립트는 AI가 실시간으로 생성하고, 목소리는 캐릭터의 음색으로 합성된다.
하지만 이번 특허를 단순히 흥미로운 기술 실험으로만 치부할 수 없는 이유는, 이 구조가 목소리의 존재 방식 자체를 바꾸기 때문이다. 목소리가 콘텐츠를 넘어 플랫폼의 인터페이스가 되는 순간, 권리의 지형까지 달라진다. 여기서 하나의 질문이 생겨난다.
"캐릭터가 AI로 다시 말하는 순간, 그 목소리는 누구의 것인가?"
소니 특허의 구조, 무엇을 가능하게 하는가
소니 특허의 기술적 구조는 크게 네 단계로 이루어진다.
첫 번째는 데이터 수집이다. 플레이어가 콘솔을 사용하는 동안 시스템은 PlayStation 프로필에 연결된 정보를 지속적으로 수집한다. 최근 플레이한 게임, 트로피 획득 현황, 친구 목록의 활동, 보유 게임 목록 등이 여기에 해당한다.
두 번째는 대본 생성이다. 수집된 데이터를 바탕으로 LLM이 해당 플레이어만을 위한 팟캐스트 대본을 생성한다. 내용은 게임 팁, 친구 활동 업데이트, 신작 추천, 소프트웨어 업데이트 안내 등으로 구성되며, 특허 문서에는 "플레이어를 향한 농담"도 포함될 수 있다고 명시되어 있다.
세 번째는 음성 합성이다. 완성된 대본은 플레이어가 최근 플레이한 게임의 캐릭터 음색으로 변환된다. 특허 문서의 표현을 빌리면 "in game-specific character voices", 즉 특정 게임 캐릭터의 고유한 음색으로 재현된다. 성우가 한 번도 읽지 않은 문장이, 그 성우의 목소리로 출력되는 단계다.
네 번째는 배포다. 완성된 오디오 또는 비디오 팟캐스트는 PlayStation 대시보드에 자동으로 제공된다. 플레이어는 콘솔을 켜는 순간 "오늘의 개인화된 팟캐스트가 준비되어 있습니다"라는 알림을 받게 된다.
위 구조에 따르면, 음성 모델이 한 번 구축되면 AI는 무한히 새로운 대본을 생성하고, 특정 캐릭터의 음색으로 이를 실시간에 가깝게 발화할 수 있다. 이는 성우가 실제로 한 번도 읽지 않은 문장을, 그와 유사한 음성으로 지속적으로 만들어낼 수 있음을 뜻한다.
하지만, 여기서 중요한 것은 기존 제작 방식과의 차이다. 과거에는 스크립트가 확정된 뒤 성우가 녹음 세션을 진행했고, 해당 음성은 게임 안에 고정된 콘텐츠로 저장됐다. 성우와의 계약 또한 녹음 범위와 사용 기간, 사용 매체 등이 비교적 명확하게 설정되어 있었다. 즉, 목소리는 특정 프로젝트에 묶인 결과물이었다.
그러나 AI 음성 모델이 도입되면 상황은 달라진다. 녹음은 더 이상 ‘완성된 결과물’이 아니라 ‘학습 데이터’가 된다. 한 번 녹음된 음성은 영구적으로 작동 가능한 모델로 전환되고, 그 모델은 새로운 문장과 맥락 속에서 반복적으로 호출될 수 있다.
이 변화는 단순한 제작 효율의 문제가 아니다.
‘1회 녹음된 목소리’가 ‘지속적으로 재생산되는 음성 자산’으로 바뀌는 순간, 권리의 범위와 보상의 기준도 함께 재정의되어야 하기 때문이다.
권리의 층위, 누구의 목소리인가
이 문제에는 서로 다른 세 가지 권리 층위가 겹쳐 있고, 이 셋은 방향이 다르다.
첫 번째 층위는 배우·성우의 인격권이다.
목소리는 개인의 고유한 식별 요소다. 얼굴이나 지문처럼, 음성은 그 사람을 특정할 수 있는 생체 정보에 가깝다. 때문에 법적으로는 퍼블리시티권(right of publicity)의 영역에서 다루어지며, 동의 없는 복제나 변형은 인격권 침해로 이어질 수 있다.
소니 특허는 이 지점에 대해 침묵한다. 특허 어디에도 원래 캐릭터를 연기한 배우·성우의 동의나 보상 구조가 명시되지 않는다. 실제로 다수의 언론 보도에서도 이 점을 비판적으로 지적했다.
이 문제는 이미 현실화된 사례가 있다. 2025년 초, Sony 내부 기술 데모 영상이 유출되면서 AI로 구현된 ‘Aloy’와의 대화 장면이 공개됐다. 이에 대해 Horizon 시리즈에서 에일로이를 연기한 배우 애슐리 버치(Ashly Burch)는 자신의 SNS를 통해 공개적으로 우려를 표명했다. 그는 해당 데모에 자신의 실제 음성 데이터가 사용되지 않았다는 점을 확인받았다고 밝히면서도, “게임 퍼포먼스라는 예술 형식에 대해 걱정된다(I feel worried about this art form — game performance as an art form)”고 말했다. 또한 버치는, AI 음성 기술의 활용 자체를 전면 부정하기보다는, 퍼포머의 동의와 공정한 보상이 전제되어야 한다는 점을 강조했다. 그는 AI 기반 디지털 레플리카가 사용될 경우 “먼저 동의를 얻고, 어떻게 사용하는지 알려야 하며, 공정하게 보상해야 한다”는 취지의 입장을 밝혔다고 다수의 해외 매체가 전했다. 이후 이 사건은 SAG-AFTRA 비디오게임 파업 기간 중 AI 음성 문제에 대한 논의를 촉발하는 계기가 되었다.
사후(死後) 문제도 있다. 배우가 사망한 이후에도 AI 음성 모델은 계속 작동할 수 있다. 그렇다면 계약은 어느 시점에 끝나야 하는가.
2025년 7월, 95.04% 찬성으로 비준된 SAG-AFTRA의 새 인터랙티브 미디어 협약(2025 IMA)은 이 문제에 직접 응답했다. 생전에 동의한 퍼포머의 디지털 레플리카는 사후에도 유효하되, 단 계약에서 명시적으로 제한하지 않은 경우에 한한다는 조건을 달았다. 이미 사망한 퍼포머의 경우, 고용주는 유족이나 관련 대리인의 동의를 받아야 한다고 규정했다. 목소리의 생존 기간이 인간의 생존 기간보다 길어질 수 있다는 문제를, 업계는 이제 계약으로 다루기 시작했다.
두 번째 층위는 캐릭터 IP 소유권이다.
캐릭터는 기업 자산이다. 크레토스(갓 오브 워)는 소니의 IP이고, 에일로이(호라이즌 시리즈)는 소니와 'Guerrilla Games'의 IP로, 법적 소유 관계는 비교적 명확하다.
그러나 문제는 그 다음에 있다. '목소리'는 누구의 것인가. 캐릭터는 기업이 설계했지만, 그 캐릭터의 음색과 발화 방식, 감정 표현은 배우의 연기를 통해 완성된 것이다. 크레토스의 목소리는 크리스토퍼 저지가 만들어냈다. AI가 학습한 것은 캐릭터 설정 문서가 아니라, 그 배우의 퍼포먼스다.
장기 시리즈물에서는 이 문제가 더 복잡해진다. 같은 캐릭터를 복수의 성우가 연기한 경우, AI 음성 모델은 누구의 목소리를 학습한 것인가. 그 학습 데이터 자체가 이미 권리의 혼합이다.
세 번째 층위는 데이터와 플랫폼 권력이다.
소니 특허는 플레이어 프로필, 플레이 이력, 친구 활동 데이터를 콘텐츠 생성의 재료로 사용한다. 여기에는 AI의 데이터 학습 문제와 플레이어 개인 데이터의 주권 문제가 얽혀 있다.
더 넓게 보면, 플랫폼이 캐릭터 음성을 통제한다는 것의 의미가 있다. 플레이어는 자신이 애정을 가진 캐릭터의 목소리로 정보를 받게 된다. 그 목소리가 전달하는 것이 게임 팁에서 구매 추천, 플랫폼 공지로 확장될 때, 신뢰는 마케팅 도구가 된다. 플랫폼이 그 신뢰를 설계하고 통제하는 구조다.
이 세 층위는 각자의 근거 위에서 충돌한다. 기업은 IP를 근거로 음성 모델 소유권을 주장하고, 배우는 인격권과 퍼블리시티권을 근거로 동의와 보상을 요구하며, 플랫폼은 데이터를 근거로 통제권을 행사하려 한다. 문제는 이 세 주장이 동시에 맞물리는 지점에서, 기존의 법체계는 이 충돌을 충분히 정리하지 못한다. 명확한 답을 주지 못한다는 것이다.
보상 구조의 재설계
문제의 핵심은 기술이 아니라 계약이다. 기존 성우 계약은 녹음 세션을 단위로 설계되어 왔다. 특정 프로젝트에서 확정된 대사를 녹음하고, 그 결과물을 계약서에 명시된 범위와 기간 안에서 사용하는 구조다. 사용 매체와 활용 기간이 비교적 명확했고, 목소리는 하나의 작품에 귀속된 결과물로 존재했다.
AI 음성 모델은 이 전제를 근본적으로 흔든다. 한 번의 녹음 세션으로 구축된 모델이 계약이 상정하지 않은 문장을 반복적으로 생성할 수 있기 때문이다. 성우가 실제로 발화하지 않은 문장이, 그와 유사한 음색으로 무한히 재생산될 수 있다면 보상의 기준 역시 달라질 수밖에 없다. “몇 회 녹음했는가”가 아니라 “얼마나 활용되었는가”가 핵심이 된다면, 기존 계약 구조 전체를 다시 설계해야 한다는 의미다.
현재 논의되는 보상 모델은 몇 가지 방향으로 나뉜다. 사전 동의를 전제로 사용량에 따라 로열티를 지급하는 방식은 성우에게 비교적 유리하지만, 플랫폼 입장에서는 정산 체계를 복잡하게 만든다. 음성 자체를 별도의 지식재산으로 보고 라이선스를 부여하는 방식은 협상력이 높은 성우에게는 유효한 전략이 될 수 있으나, 그렇지 않은 이들에게는 계약 접근 자체를 어렵게 만들 위험이 있다. AI 학습 범위를 특정 프로젝트 안으로 제한하는 방식은 권리 보호에 도움이 되지만, 플랫폼의 확장성을 제약한다. 기존 계약 구조를 확장해 사용 기간과 범위를 명시하는 방안은 단기적으로 현실적이지만, 빠르게 진화하는 기술 환경을 충분히 반영하지 못할 가능성도 있다. 어느 하나 완전한 해법이라고 말하기 어려운 이유다. 구조를 다시 설계하는 일은 이해관계의 재조정을 동반한다.
이 논의는 이미 제도 영역으로 확장되고 있다. SAG-AFTRA는 2025년 7월 비준된 새로운 인터랙티브 미디어 협약에서 AI 디지털 레플리카 사용에 대한 사전 동의와 공개 요건, 사용 보고서 제공 권리, 파업 중 AI 대체 인력 활용 제한 조항을 포함시켰다. 미국 캘리포니아주는 2024년 9월 AB 1836과 AB 2602 법안을 통해 사망·생존 퍼포머의 디지털 레플리카 사용을 계약상 명시하도록 의무화했다. 유럽연합은 EU AI Act를 통해 고위험 AI 시스템에 대한 규제 체계를 구축하고, 합성 미디어에 대한 투명성 의무를 포함했다. 각국은 서로 다른 방식으로 동일한 질문에 답하려 하고 있다.
문제는 플랫폼이 국경을 넘는다는 점이다. 서로 다른 법체계와 규제가 충돌하거나 공백을 만들 경우, 그 사이에서 권리 보호는 취약해질 수 있다. 한국 역시 이 영역에서 본격적인 입법 논의는 아직 초기 단계에 머물러 있다. 기술은 빠르게 상용화 단계로 이동하고 있지만, 권리와 보상의 설계는 여전히 진행 중이다. AI 음성 모델이 산업의 표준이 되기 전에, 계약과 법은 그 변화를 따라잡을 수 있을지 시험대에 올라 있다.
목소리는 인터페이스다
소니의 특허를 단순히 ‘성우 대체 기술’로 해석하면 절반만 본 셈이다. 이 특허가 설계하는 것은 특정 캐릭터의 음성을 활용한 플레이어 맞춤형 오디오 채널에 가깝다. 특허 문서에는 게임 팁, 친구 활동 알림, 소프트웨어 업데이트 안내뿐 아니라 광고와 구매 추천, 커뮤니티 정보 전달 시나리오까지 포함되어 있다. 플랫폼이 사용자가 감정적으로 연결된 캐릭터의 목소리를 통해 직접 소통하는 구조다.
여기서 목소리는 더 이상 콘텐츠가 아니다. 그것은 사용자와 플랫폼을 잇는 접점, 곧 인터페이스가 된다. 캐릭터의 음성은 정보 전달 수단을 넘어 신뢰의 매개로 기능한다. 플레이어가 익숙한 캐릭터의 음성으로 안내를 받을 때, 그 메시지가 게임 팁인지 마케팅인지 구분하는 인지적 장벽은 낮아진다. 친숙한 목소리는 정보의 성격을 완화하고, 설득의 문턱을 낮춘다.
이 지점에서 문제는 단순한 저작권을 넘어선다. 플랫폼이 캐릭터의 음성을 통해 사용자 경험의 정서적 층위를 설계하게 되는 순간, 그것은 일종의 ‘감성 인프라’를 통제하는 문제로 확장된다. 음성은 더 이상 연기의 결과물이 아니라, 플랫폼 전략의 일부가 된다.
기술보다 설계가 먼저다
AI 음성 기술은 특정 기업의 실험에 그치지 않는다. 게임 산업과 미디어 산업 전반에서 음성 합성과 디지털 레플리카 기술은 이미 다양한 방식으로 도입되고 있다. 논쟁의 초점은 사용 여부가 아니라, 그 사용을 어떤 기준으로 설계할 것인가에 있다.
설계는 최소 네 가지 축에서 논의되어야 한다. 첫째, 동의의 문제다. 배우의 음성이 AI 학습에 활용되기 전에 충분한 정보 제공과 명시적 동의가 있었는가. 둘째, 보상의 문제다. 1회 녹음이 반복적 생성 구조로 전환될 때, 기존 보상 체계가 그 현실을 반영하고 있는가. 셋째, 통제권의 문제다. 배우는 자신의 음성 모델이 어떤 맥락에서 활용되는지 확인하고, 필요할 경우 사용을 제한하거나 철회할 수 있는가. 넷째, 데이터 범위의 문제다. 학습 데이터의 경계는 어디까지이며, 그 기준은 누가 설정하는가.
또 하나의 질문은 설계의 주체다. 기업이 단독으로 기준을 정할 것인가, 아니면 배우·노조·규제 기관이 함께 참여할 것인가. 기술 도입 초기 단계에서 제도 설계가 지연될 경우, 관행이 먼저 고착되고 권리의 공백이 뒤따를 가능성이 크다. 기술은 중립적이지만, 그 적용 방식은 결코 중립적이지 않다.
AI가 캐릭터를 다시 말하게 할 수 있다면, 이제 남은 질문은 명확하다.
그 목소리에 대한 권리 역시 같은 속도로 설계되고 있는가.
[METAX = 김하영 기자]
[저작권자ⓒ META-X. 무단전재-재배포 금지]


































