퍼셉트론에서 트랜스포머까지: 구조의 진화
데이터 중심에서 피드백 중심으로의 변화
지금까지 인공지능이 배우고 발전하는 세 가지 주요 방식을 살펴보았습니다. 첫 번째는 정답을 미리 알려주고 학습하는 지도학습(Supervised Learning), 두 번째는 정답 없이 데이터 속에서 스스로 규칙을 찾아내는 비지도학습(Unsupervised Learning), 세 번째는 시행착오를 겪으며 최선의 방법을 찾아가는 강화학습(Reinforcement Learning)입니다.
이 세 가지 방식이 실제로 잘 작동하려면 공통적으로 필수적인 과정이 있습니다. 인공지능 모델이 문제를 풀 때 먼저 답을 예측하고, 그 예측이 실제 정답과 얼마나 차이가 나는지 평가한 다음, 더 정확한 답을 얻기 위해 내부 계산 방식을 조금씩 수정하는 과정입니다. 이 과정은 앞서 살펴본 세 가지 핵심 개념을 통해 이루어지는데, 바로 손실 함수(Loss Function), 경사하강법(Gradient Descent), 역전파(Backpropagation)입니다.
이 개념들이 어떻게 연결되어 있는지 다시 한번 정리해 봅시다.
먼저 손실 함수(Loss Function)는 인공지능이 예측한 값과 실제 정답 사이의 차이를 숫자로 나타내는 역할을 합니다. 쉽게 말해 인공지능이 문제를 얼마나 잘 풀었는지 점수를 매기는 것과 같습니다. 이 점수가 클수록 정답에서 멀어졌다는 의미입니다.
다음으로 경사하강법(Gradient Descent)은 이 손실 점수를 줄이기 위해 인공지능 내부의 숫자들을 어떻게 조정해야 하는지 방향을 제시해 줍니다. 언덕 위에서 가장 빠르게 내려가기 위해 가장 가파른 길을 찾는 것과 같은 원리로, 인공지능이 더 좋은 결과를 얻기 위해 한 걸음씩 올바른 방향으로 움직일 수 있게 도와줍니다.
마지막으로 역전파(Backpropagation)는 인공지능이 틀린 예측을 했을 때 어떤 연결이나 계산이 잘못되었는지 거꾸로 추적하면서 찾아내는 과정입니다. 축구 경기에서 골을 먹었을 때 골키퍼뿐 아니라 수비수나 미드필더 등 어디서부터 문제가 시작되었는지 차례로 확인하는 것과 비슷합니다.
여기서 손실 함수와 관련된 중요한 개념인 교차 엔트로피(Cross-Entropy)를 조금 더 자세히 살펴보겠습니다. 교차 엔트로피는 원래 정보 이론(Information Theory)이라는 분야에서 시작된 개념입니다. 정보 이론이란 간단히 말하면 ‘정보를 효율적이고 정확하게 전달하는 방법’을 연구하는 분야입니다. 친구에게 문자 메시지로 약속 장소와 시간을 알려줄 때, 길고 복잡한 메시지보다 간단하고 명확한 표현을 사용하는 것이 오해를 줄일 수 있겠죠. 정보 이론은 바로 이런 식으로 정보를 가장 효과적으로 전달하는 방법을 찾는 학문입니다.
딥러닝에서도 이 개념을 활용해 인공지능의 예측이 실제 정답과 얼마나 차이가 나는지 정확하게 측정합니다. 예를 들어, 딥러닝이 사진을 보고 고양이라고 예측했지만 실제 정답은 강아지일 경우, 그 차이를 숫자로 표현하는 것이 교차 엔트로피입니다. 교차 엔트로피 값이 클수록 잘못된 예측이고, 작을수록 정확한 예측이라는 뜻입니다. 따라서 인공지능은 교차 엔트로피 값을 가능한 작게 만들기 위해 학습을 진행하게 됩니다.
인공지능의 수학적 배경: 정보 이론과 경사하강법
정답을 미리 알려주고 학습하는 지도학습(Supervised Learning), 정답 없이 데이터 속에서 스스로 규칙을 발견하는 비지도학습(Unsupervised Learning), 그리고 스스로 시행착오를 거치며 최적의 방법을 찾는 강화학습(Reinforcement Learning).
이 세 가지 방식이 잘 작동하려면 공통적으로 꼭 필요한 핵심 과정이 있습니다. 인공지능 모델은 문제를 해결할 때 먼저 답을 예측하고, 그 예측이 실제 정답과 얼마나 다른지를 평가합니다. 그리고 더 정확한 답을 내기 위해 내부의 계산 방식을 조금씩 수정합니다. 이 과정을 이해하는 데 꼭 필요한 세 가지 중요한 개념이 있는데, 바로 손실 함수(Loss Function), 경사하강법(Gradient Descent), 역전파(Backpropagation)입니다.
이 개념들이 어떻게 연결되는지 간단히 복습해 볼까요?
먼저 손실 함수(Loss Function)는 인공지능의 예측과 실제 정답 사이의 차이를 숫자로 나타내주는 개념입니다. 쉽게 말해 문제를 풀고 나서 정답과 얼마나 차이가 있는지 점수를 매기는 방식입니다. 점수가 높을수록 정답에서 멀어졌다는 의미입니다.
다음은 경사하강법(Gradient Descent)입니다. 이 방법은 손실 함수로 얻은 점수를 줄이기 위해 인공지능 내부의 값을 어떻게 바꿔야 하는지 알려줍니다. 마치 높은 언덕에서 빠르게 내려가기 위해 가장 가파른 길을 찾아 내려가는 것과 같은 방식으로, 인공지능도 오차를 줄이기 위해 최적의 방향을 찾아 조금씩 수정해 갑니다.
마지막은 역전파(Backpropagation)입니다. 역전파는 인공지능 내부에서 어떤 연결이나 계산이 잘못되었는지를 거꾸로 추적해 수정하는 방식입니다. 축구 경기에서 골을 먹었을 때 골키퍼뿐 아니라 수비수와 미드필더까지 거슬러 올라가며 어디서 문제가 시작되었는지 찾아내는 과정과 비슷합니다.
이 중에서 특히 손실 함수와 관련하여 자주 사용되는 중요한 개념이 바로 교차 엔트로피(Cross-Entropy)입니다. 교차 엔트로피는 원래 정보 이론(Information Theory)이라는 수학 분야에서 유래한 개념입니다.
정보 이론은 ‘정보를 정확하고 효율적으로 전달하는 방법’을 연구하는 학문입니다. 친구와 문자 메시지로 약속 장소와 시간을 정할 때를 떠올려봅시다. 메시지가 복잡하거나 모호하면 친구가 잘못 이해할 가능성이 높습니다. 그래서 최대한 명확하고 간단한 표현으로 메시지를 보내야 합니다. 정보 이론은 이런 식으로 정보를 어떻게 명확하게 전달할지 연구하는 분야입니다.
이러한 정보 이론의 개념이 딥러닝에서도 활용됩니다. 예를 들어, 인공지능이 사진을 보고 "이 사진은 고양이다"라고 예측했지만, 실제 사진이 강아지라면 그 차이를 정확히 숫자로 나타내는 것이 교차 엔트로피입니다. 교차 엔트로피 값이 크면 예측이 틀렸다는 뜻이고, 작으면 예측이 정확했다는 뜻입니다. 따라서 인공지능은 교차 엔트로피 값을 최소화하는 방향으로 학습을 진행합니다.
퍼셉트론에서 트랜스포머까지: 구조의 진화
인공지능이 발전하는 데 있어서 중요한 역할을 해온 또 하나의 흐름은 신경망(Neural Network)의 구조적인 변화입니다. 신경망은 인간의 뇌 속 신경세포들이 연결되어 정보를 주고받는 방식을 흉내 낸 것으로, 수많은 작은 계산 장치들이 서로 연결되어 복잡한 정보를 처리하는 구조입니다.
신경망이 처음 등장한 것은 1950년대 후반입니다. 가장 간단한 초기 신경망을 퍼셉트론(Perceptron)이라고 부릅니다. 퍼셉트론은 입력된 정보에 각각의 중요도를 나타내는 가중치(Weight)를 곱하고, 이 값을 모두 더한 뒤 일정 기준을 넘으면 '1', 넘지 못하면 '0'을 출력하는 매우 간단한 구조였습니다. 예를 들면, 친구에게 영화를 추천할 때 액션 요소에 2점, 유명한 배우가 출연하면 3점, 영상미가 뛰어나면 4점을 주고 합계 점수가 일정 기준을 넘으면 추천하는 방식과 비슷합니다.
하지만 퍼셉트론은 XOR 문제(두 입력이 서로 다를 때만 참이 되는 논리 문제)처럼 조금만 복잡한 문제도 해결하지 못하는 치명적인 한계가 있었습니다. 앞의 영화 추천 예시에서도 관객들의 복잡한 취향을 단순히 점수 합산 방식만으로 정확하게 반영하기 어려운 것과 같습니다. 이런 이유로 신경망 연구에 대한 관심이 한동안 줄어들었습니다.
그러다 1986년에 역전파 알고리즘(Backpropagation Algorithm)이 등장하며 다시 관심을 받기 시작했습니다. 역전파 알고리즘은 잘못된 결과가 나왔을 때, 인공지능이 내부의 계산 과정을 뒤에서부터 거꾸로 추적하여 오류를 수정하도록 돕는 방법입니다. 이로 인해 여러 개의 층(Layer)을 가진 복잡한 신경망도 학습할 수 있게 되었으며, 이를 다층 퍼셉트론(Multi-Layer Perceptron, MLP)이라고 합니다. 이렇게 층이 많아지면서 복잡한 문제 해결이 가능해졌고, 신경망 연구도 다시 활발히 진행되었습니다.
1990년대 이후로 신경망 구조는 더욱 다양해졌습니다. 이미지를 효과적으로 인식할 수 있는 합성곱 신경망(Convolutional Neural Network, CNN), 문장이나 음악처럼 순서가 있는 데이터를 잘 처리하는 순환 신경망(Recurrent Neural Network, RNN), 긴 문장이나 시간적 정보의 흐름을 더 잘 기억하는 장단기 기억 구조(Long Short-Term Memory, LSTM) 등이 차례로 개발되었습니다.
예를 들어 CNN은 수많은 고양이 사진을 학습해 새로운 사진에서도 고양이를 정확히 인식할 수 있었고, RNN과 LSTM은 긴 문장을 읽고 의미를 기억해 번역이나 대화를 수행할 수 있게 되었습니다. 이러한 성과들은 인공지능 기술의 실질적인 발전을 촉진했습니다.
최근 2017년에는 트랜스포머(Transformer)라는 새로운 구조가 등장하며 또 한 번의 큰 발전을 이루었습니다. 트랜스포머는 기존의 RNN이나 LSTM과 달리 문장 내의 모든 단어를 동시에 살펴보며 각 단어 사이의 관계를 파악하는 셀프 어텐션(Self-Attention) 방식을 사용합니다.
셀프 어텐션은 책에서 필요한 정보를 찾을 때 처음부터 끝까지 읽는 대신 전체를 한눈에 훑으며 빠르게 중요한 내용을 찾는 방식과 비슷합니다. 이런 방식 덕분에 트랜스포머는 문맥을 정확히 이해하고 긴 문장이나 복잡한 데이터를 처리하는 데 매우 뛰어난 성능을 발휘하게 되었습니다. 현재 자주 사용하는 GPT, BERT, T5와 같은 유명한 언어 모델들이 바로 트랜스포머 구조를 기반으로 하고 있습니다. 그 결과 트랜스포머는 최근 인공지능 기술의 새로운 표준으로 자리 잡았습니다.
2010년대의 딥러닝 도약: 이미지넷과 알렉스넷의 충격
우리가 지금처럼 인공지능을 흔히 접하게 된 것은 사실 그리 오래된 일이 아닙니다. 특히, 많은 사람들이 ’딥러닝(Deep Learning)’이라는 단어를 본격적으로 알게 된 계기는 바로 2012년에 있었습니다. 이 해에 인공지능의 역사에서 아주 중요한 사건이 벌어졌는데요, 바로 이미지넷(ImageNet)이라는 사진 분류 대회에서 알렉스넷(AlexNet)이라는 새로운 인공지능 모델이 기존 방법들을 크게 앞서며 엄청난 성과를 보여준 것입니다.
이미지넷은 매년 열리는 아주 큰 이미지 분류 경진대회였습니다. 이 대회는 무려 백만 장이 넘는 사진을 보고, 사진 속 사물이나 동물을 1000가지의 카테고리로 정확하게 구분해야 하는 대회였습니다. 예를 들면, 인공지능 모델이 고양이, 강아지, 자동차, 꽃 같은 수많은 종류의 사진을 보고, 각 사진 속 대상이 정확히 어떤 종류인지 맞추는 것이었죠.
이 대회에서는 전 세계의 뛰어난 연구팀들이 기존의 전통적인 컴퓨터 비전(Computer Vision) 기술로 오랫동안 경쟁하고 있었습니다. 전통적인 방법이란, 사람이 직접 사진에서 눈, 코, 입과 같은 특징들을 찾아내서 컴퓨터에 알려주고, 컴퓨터는 그 특징들을 이용해 사진을 구분하는 방식을 말합니다. 이렇게 하면 어느 정도는 사진을 구별할 수 있지만, 수백만 장의 서로 다른 사진을 모두 정확히 분류하기에는 한계가 있었습니다.
그러던 중 2012년에 토론토 대학교의 제프리 힌턴(Geoffrey Hinton)이라는 교수와 그의 학생들이 만든 알렉스넷(AlexNet)이 나타났습니다. 알렉스넷은 이전에 없던 놀라운 결과를 보여주며, 다른 모든 팀들을 압도적으로 이겼습니다. 이 결과가 얼마나 놀라웠냐 하면, 기존의 방식들이 사진을 분류하는 데 평균적으로 약 25%의 오류율(틀린 비율)을 보였다면, 알렉스넷은 이를 단번에 16% 수준으로 낮춰 버렸습니다. 이것은 그 당시 사람들의 상상을 완전히 뛰어넘는 엄청난 성과였습니다.
알렉스넷이 이렇게 뛰어난 성능을 보여줄 수 있었던 비결은 바로 합성곱 신경망(Convolutional Neural Network, CNN)이라는 특별한 구조를 사용했기 때문입니다. CNN은 이미지를 작은 조각들로 나누고, 이 조각들에서 인공지능 스스로 중요한 특징을 찾아낼 수 있도록 설계된 신경망입니다. 더 쉽게 말하자면, 기존에는 사람이 직접 눈이나 코 같은 특징을 찾아 컴퓨터에 알려줘야 했다면, CNN은 그런 특징을 스스로 발견해서 학습할 수 있도록 만든 구조입니다.
게다가 알렉스넷은 수천만 개의 복잡한 계산들을 동시에 빠르게 처리할 수 있는 GPU라는 장치를 활용해서 학습했습니다. 여기서 GPU란, 처음에는 게임이나 그래픽 작업에서 화면을 빠르게 처리하기 위해 개발된 장치인데, 많은 데이터를 동시에 처리하는 데 매우 뛰어나서 딥러닝에서도 큰 효과를 내게 된 것입니다.
이 사건 이후로 딥러닝은 이론적 가능성에서 실제 세상에서도 강력한 성능을 낼 수 있다는 것이 증명되면서, 전 세계 연구자들과 기업들의 큰 관심을 받게 되었습니다. 많은 연구팀들이 알렉스넷을 뛰어넘기 위해 더 깊고 복잡한 신경망 구조들을 만들기 시작했습니다.
곧이어 등장한 모델들 중에는 더 깊은 층을 쌓아서 이미지 인식 성능을 높인 VGG나, 여러 층을 다양한 방식으로 연결해서 성능을 끌어올린 GoogLeNet 같은 모델들이 있었습니다. 특히, 2015년에 등장한 ResNet(ResNet)이라는 모델은 신경망이 너무 깊어지면 학습이 잘 안 되는 문제를 해결하기 위해 잔차 연결(Skip Connection)이라는 새로운 아이디어를 도입했습니다. 잔차 연결이란 중간에 층을 건너뛰어 직접 정보를 전달하는 방식으로, 마치 고층 빌딩에서 모든 층을 다 거치지 않고 엘리베이터로 원하는 층까지 빠르게 올라가는 방식과 비슷합니다. 이를 통해 ResNet은 무려 150층이 넘는 매우 깊은 신경망도 안정적으로 학습할 수 있게 되었습니다.
이런 혁신들은 단순히 연구실 안에서만 머물지 않고, 우리가 사는 실제 세상에도 빠르게 적용되기 시작했습니다. 예를 들어, 자율주행 자동차가 주변 환경을 정확히 인식하거나, 병원에서 인공지능이 사람보다 더 빠르고 정확하게 질병을 진단하거나, 스마트폰에서 사진 속 얼굴을 자동으로 인식하는 등 다양한 분야에서 실제로 쓰이고 있습니다.
이처럼 2010년대에 이루어진 이미지넷과 알렉스넷의 혁신은 딥러닝을 이론적인 기술에서 실질적인 기술로 도약시키며, 오늘날 우리가 마주하는 인공지능 시대의 문을 열었다고 할 수 있습니다. 앞으로 인공지능이 또 어떤 놀라운 발전을 보여줄지 기대되는 이유도 바로 여기에 있습니다.
언어를 이해하는 인공지능의 진화: 트랜스포머와 언어 모델의 부상
이미지 분야에서 딥러닝이 큰 성과를 내기 시작했던 것처럼, 사람의 언어를 다루는 분야에서도 최근 몇 년간 큰 변화가 있었습니다. 특히, 우리가 사용하는 언어를 컴퓨터가 이해하고 처리하는 분야인 자연어 처리(Natural Language Processing, NLP) 에서는 2017년을 전후로 매우 중요한 사건이 일어났습니다. 바로 트랜스포머(Transformer)의 등장입니다.
트랜스포머가 나오기 전까지는 순환 신경망(Recurrent Neural Network, RNN)이 주로 사용되었습니다. RNN은 언어의 특성상 단어들이 시간적 순서로 연결되어 있다는 점을 고려하여, 단어를 하나씩 순서대로 처리하는 방식으로 작동합니다. 마치 사람이 문장을 읽을 때 처음부터 끝까지 한 단어씩 차례대로 읽는 것처럼 말이죠. 하지만 이렇게 하면 긴 문장을 처리할 때 앞쪽 단어들이 뒤쪽 단어에 미치는 영향이 줄어들어, 문장의 의미를 충분히 파악하기 어려운 단점이 있었습니다.
이 문제를 해결한 것이 바로 트랜스포머입니다. 트랜스포머는 문장을 처음부터 끝까지 순서대로 하나씩 보는 방식 대신, 문장 전체를 한 번에 보면서 어떤 단어가 서로 중요한지 빠르게 찾아낼 수 있도록 설계되었습니다. 이것이 가능한 이유는 바로 셀프 어텐션(Self-Attention)을 사용했기 때문입니다.
셀프 어텐션이란 문장 안에서 단어들이 서로 어떤 관계를 맺고 있는지 직접 계산하는 방식입니다. 예를 들어, “나는 오늘 학교에서 친구와 축구를 했다.” 라는 문장이 있다고 생각해 봅시다. 이 문장에서 “축구”라는 단어를 이해할 때, “학교”, “친구”와 같은 다른 단어들이 더 중요하고 관련이 있다는 사실을 스스로 찾아내는 것입니다. 트랜스포머는 이런 식으로 각 단어의 중요도를 자동으로 계산해서 문장의 의미를 더욱 정확하게 파악합니다.
이런 트랜스포머 구조를 사용한 가장 유명한 언어 모델이 바로 2018년 초 OpenAI라는 회사에서 만든 GPT(Generative Pretrained Transformer)입니다. GPT는 간단히 말하면 아주 많은 양의 글을 읽으면서 다음 단어가 무엇일지 계속 예측하는 방식으로 학습한 인공지능입니다. 마치 여러분이 빈칸 채우기 문제를 풀면서 “나는 어제 저녁에 ___.“이라는 문장을 봤을 때, 뒤에 올 단어로 “밥을 먹었다”나 “숙제를 했다” 같은 표현을 자연스럽게 떠올리는 것과 비슷합니다. GPT는 수백억 개가 넘는 엄청난 문장들을 반복해서 학습했기 때문에, 글을 쓰거나 번역을 하거나 질문에 답하는 등 다양한 분야에서 아주 뛰어난 능력을 보여주었습니다.
당시 구글에서 발표한BERT(Bidirectional Encoder Representations from Transformers) 역시 큰 주목을 받았습니다. BERT는 GPT와 조금 다른 방식으로 학습합니다. 문장 안에서 일부 단어를 마치 퍼즐처럼 가리고, 그 빈칸에 들어갈 단어가 무엇인지 주변의 단어들만 보고 예측하도록 했습니다. 예를 들어, “나는 오늘 학교에서 [ ]를 했다”라고 문장을 주고, 빈칸에 들어갈 말을 주변의 맥락을 보면서 스스로 맞추도록 하는 것입니다.
이와 같은 학습 방식을 자기지도학습(Self-supervised learning)이라고 부릅니다. 자기지도학습은 사람이 일일이 정답을 가르쳐주는 대신, 인공지능이 데이터 자체에서 필요한 학습 정보를 얻을 수 있도록 합니다. 다시 말해, 사람이 직접 모든 답을 제공하지 않아도 인공지능이 스스로 문장의 의미를 잘 파악할 수 있게 되는 것이죠.
이러한 언어 모델들은 먼저 매우 큰 데이터 (수많은 책이나 인터넷 글 등)를 통해 자기지도학습 기반의 사전학습(Pretraining)을 합니다. 사전학습은 사람이 기본 지식을 먼저 공부하는 과정과 비슷합니다. 이렇게 기초를 다진 후에는, 간단한 추가 학습(Fine-tuning)만으로도 번역, 질문 응답, 감정 분석 등 여러 가지 다양한 문제를 잘 해결할 수 있게 되었습니다.
예전에는 인공지능이 할 수 있는 일을 바꿀 때마다 구조를 처음부터 다시 설계해야 했습니다. 하지만 트랜스포머 기반의 언어 모델이 등장한 이후에는 하나의 잘 학습된 모델이 여러 가지 다양한 일을 조금씩 추가 학습하는 것만으로도 잘 할 수 있게 되어, 시간과 비용을 크게 절약할 수 있게 되었습니다.
이런 변화 덕분에 트랜스포머는 자연어 처리 분야에서 혁신적인 기술이 되었고, GPT와 BERT 같은 모델들이 등장하며 인공지능이 사람의 언어를 더 잘 이해하고 사용할 수 있게 되었습니다. 지금 우리가 사용하는 번역 서비스나 인공지능 챗봇이 매우 자연스럽고 편리해진 이유도 바로 이와 같은 혁신 덕분입니다.
자기지도학습과 범용 모델의 시대
이렇게 자기지도학습 방식이 등장하면서, 인공지능은 한 단계 더 발전한 시대를 맞이하게 되었습니다. GPT나 BERT 같은 모델은 자기지도학습을 통해 수많은 데이터를 보고 일반적인 지식을 미리 학습할 수 있게 되었고, 이를 바탕으로 더욱 다양한 작업을 손쉽게 수행할 수 있게 된 것입니다. 특히 이 방식이 주목받는 이유는, 기존 인공지능 개발의 가장 큰 어려움 중 하나였던 ‘라벨링 비용’ 문제를 해결했기 때문입니다.
라벨링이란 데이터에 사람이 직접 정답을 달아주는 것을 말합니다. 예를 들어, 사진에서 고양이 사진을 찾아내기 위해서는 사람이 일일이 사진마다 “이 사진은 고양이입니다”라는 라벨을 붙여줘야 했습니다. 이 과정은 시간과 비용이 많이 들어가는 아주 힘든 작업이었습니다. 그런데 자기지도학습은 사람의 도움이 필요하지 않습니다. 문장 속에서 일부 단어를 빈칸으로 만들고 그 빈칸을 스스로 채워 보거나, 이미지를 일부러 가린 뒤 원래의 이미지를 맞추는 방식으로, 데이터 스스로 문제와 정답을 만들어낼 수 있기 때문입니다. 이렇게 되자 인터넷에 무한히 존재하는 수많은 글과 사진, 영상 등 무라벨 데이터를 거의 마음껏 활용할 수 있게 되었습니다.
그 결과 인공지능은 이전보다 훨씬 더 방대한 양의 데이터를 통해 학습하게 되었고, 자연스럽게 한 가지 작업만 잘하는 것이 아니라 여러 가지 작업을 동시에 잘할 수 있는 ‘범용 인공지능 모델’의 시대가 열리게 되었습니다. 예를 들어 GPT나 BERT 같은 모델은 번역도 하고, 문장을 요약하거나 질문에 답을 하고, 심지어 사람처럼 자연스러운 글쓰기까지 하나의 모델로 모두 해낼 수 있게 되었습니다. 심지어 새로운 작업을 할 때도 추가로 많은 학습을 시키지 않고, 그저 간단한 예시 몇 줄을 보여주는 것만으로도 곧바로 적용할 수 있게 되었습니다.
이처럼 하나의 인공지능 모델이 여러 가지 다른 일을 동시에 수행할 수 있게 되었다는 것은 기술적으로도, 산업적으로도 매우 큰 의미를 지닙니다. 앞으로 더 많은 분야에서 이런 범용 모델들이 활용되면서 우리 생활과 더욱 밀접하게 연결될 것입니다.
데이터 중심에서 피드백 중심으로의 변화
이러한 변화는 또한 인공지능 발전 방향에도 중요한 전환점을 가져오고 있습니다. 지금까지의 인공지능이 방대한 데이터를 통해 정확한 답을 찾는 능력을 중심으로 발전했다면, 앞으로는 데이터 중심에서 사람과의 피드백 중심으로 변화하고 있습니다. 인공지능이 사람과 자연스럽게 소통하려면, 단지 정확한 정답을 내놓는 것에서 그치지 않고, 사람이 편안하고 만족스럽게 느끼는 방식으로 대화할 수 있어야 합니다. 마치 같은 내용을 전달하더라도 듣는 사람이 기분 좋고 편안하게 받아들일 수 있도록 세심한 배려가 중요해지고 있는 것입니다.
이를 위해 최근에 등장한 방법이 바로 ’사람의 피드백을 이용한 강화학습(RLHF, Reinforcement Learning from Human Feedback)’입니다. 이 방식은 인공지능이 어떤 질문에 대해 두 가지 답변을 내놓으면, 사람이 직접 그 중 어떤 답변이 더 마음에 드는지 골라서 알려주는 방식입니다. 예를 들어, “주말에 뭐 할까?“라는 질문에 인공지능이 A: “글쎄, 몰라.“라고 답한 것과 B: “날씨가 좋으니까 공원에 가서 산책하는 게 어때?“라고 답한 경우를 생각해봅시다. 사람이 B 답변을 더 좋다고 평가하면, 인공지능은 앞으로 비슷한 질문에 대해 더 친절하고 구체적인 답변을 내놓으려고 노력하게 됩니다.
한편, 이런 방식을 더 간단히 만든 것이 바로 ’직접 선호 최적화(DPO, Direct Preference Optimization)’라는 방법입니다. RLHF가 사람이 평가한 내용을 바탕으로 다시 복잡한 강화학습 과정을 거치는 반면, DPO는 사람이 선호한 답변만을 간단히 참고해서 인공지능이 바로 그 스타일을 따라하도록 만듭니다. 예를 들어, 선생님이 학생에게 글쓰기를 가르칠 때 RLHF 방식이 여러 번 고쳐주면서 조금씩 문장력을 높이는 방식이라면, DPO는 선생님이 “이렇게 쓰면 더 좋아”라고 예시 문장을 몇 개만 보여주는 것과 비슷한 방식입니다. 이렇게 되면 훨씬 간단하고 빠르게 사람이 원하는 답변 방식을 인공지능이 배울 수 있습니다.
또 최근 인공지능은 단순히 정답만 말하지 않고, 사람처럼 추론 과정 자체를 보여주는 방법도 중요하게 여기고 있습니다. 이를 ‘생각의 사슬(Chain-of-Thought, CoT)’ 방식이라고 부릅니다. 예를 들어 “어제는 비가 내렸고, 오늘은 해가 떴어요. 그럼 공원 바닥 상태가 어떨까요?“라는 질문을 받았을 때, 인공지능은 바로 “바닥이 젖었을 거예요”라고 답하지 않고, “어제 비가 내려서 공원 바닥이 젖었겠지만, 오늘 해가 떴기 때문에 조금 말랐을 수도 있어요. 그래도 아직 완전히 마르지는 않았을 테니, 바닥은 약간 축축할 것 같아요.“라고 단계별로 생각 과정을 보여줍니다. 이렇게 하면 사람들은 인공지능이 내놓은 답을 더 믿고 이해할 수 있게 됩니다.
또 다른 중요한 변화는 인공지능이 자기 스스로 공부 자료를 만들어 발전하는 ’자기 지시 학습(Self-Instruct)’이라는 방법입니다. 자기 지시 학습이란, 처음에 사람은 몇 가지 질문과 답만 제시해 주고, 이후 인공지능이 비슷한 형식으로 새로운 질문과 답을 직접 만들어내는 방식입니다. 예를 들어, 사람이 “태양계 행성의 이름과 특징을 설명하세요.” 같은 지시문과 몇 가지 예시만 주면, 인공지능이 스스로 “목성의 특징은 무엇인가요?”, “토성은 왜 고리가 있나요?” 같은 질문과 답변들을 자동으로 만들어 내고, 그 질문과 답변을 이용해 다시 학습하는 방식입니다. 마치 학생이 교과서의 예시 문제 몇 개만 보고, 스스로 비슷한 연습 문제를 만들어 공부하는 것과 비슷합니다.
마지막으로 최근 인공지능에서는 외부 지식을 적극 활용하는 방식이 매우 중요해졌습니다. 그 대표적인 예가 ‘검색 강화 생성(RAG, Retrieval-Augmented Generation)’ 방식입니다. RAG 방식은 인공지능이 답변을 만들 때 자신의 내부 기억만 활용하는 것이 아니라, 마치 사람이 궁금한 것이 있을 때 구글이나 네이버에서 정보를 검색하듯, 외부의 인터넷이나 데이터베이스에서 필요한 정보를 찾아서 참고한 뒤 답을 내놓는 방식입니다. 예를 들어, “2025년 한국의 수도 인구는 몇 명인가요?” 같은 질문을 받으면 인공지능이 인터넷에서 최신 자료를 직접 검색해 보고, 이를 바탕으로 정확한 답을 생성할 수 있게 됩니다. 이 방식은 최신의 정확한 정보가 중요한 상황에서 매우 유용하게 쓰이고 있습니다.
이처럼 자기지도학습에서 시작된 인공지능의 발전은 이제 데이터를 잘 다루는 수준을 넘어, 사람과 더 잘 소통하고, 스스로 문제를 만들며 학습하고, 외부 지식을 적극적으로 활용할 수 있는 단계로 진화하고 있습니다. 이런 변화들은 앞으로 우리가 만나는 인공지능이 더 똑똑하고 친절하며, 더욱 신뢰할 수 있는 존재로 자리 잡게 만드는 중요한 기술적 기반이 되고 있습니다.
인공지능의 현재와 미래를 연결하며
지금까지 우리는 인공지능이 어떻게 발전해왔는지 그 흐름을 차근차근 살펴보았습니다. 인공지능의 역사는 단지 기술이 쌓여온 과정이라기보다는, 배우는 방식 자체가 끊임없이 진화해 온 역사라고 볼 수 있습니다. 처음에는 퍼셉트론이라는 아주 간단한 계산 구조에서 시작한 인공신경망이, 이제는 수십억 개의 연결고리를 가진 아주 복잡하고 거대한 모델로 자라났습니다. 지금의 인공지능은 텍스트나 이미지뿐 아니라 그 둘을 동시에 이해하고 새로운 내용을 만들어내며, 사람과 비슷한 수준으로 복잡한 상황도 스스로 판단할 수 있을 정도로 똑똑해졌습니다.
특히 이 과정에서 큰 전환점이 되었던 것은 자기지도학습이라는 방식의 등장입니다. 자기지도학습 덕분에 사람의 도움 없이도 엄청난 양의 데이터를 활용할 수 있게 되었습니다. 그 결과 인터넷이라는 끝없이 넓은 정보 창고가 인공지능에게는 최고의 교과서가 되었습니다. 이렇게 되자 인공지능은 여러 가지 분야에서 동시에 좋은 성능을 낼 수 있는 ‘범용 인공지능’이라는 방향으로 나아가기 시작했습니다.
여기에 최근에는 사람이 직접 평가하고 원하는 방향을 알려주는 인간 피드백 기반 강화학습과 같이, 인공지능이 더욱 사람답게 소통하도록 돕는 다양한 방식들도 등장했습니다. 또한 인공지능이 답만 바로 내놓지 않고 그 답을 얻는 과정 자체를 사람처럼 단계별로 설명하는 방식이나, 스스로 외부에서 필요한 정보를 찾아오는 방식 등도 활발히 연구되고 있습니다. 이처럼 인공지능은 이제 단순히 정답을 맞히는 것을 넘어, 사람처럼 생각하고 말할 수 있는 시스템으로 점점 더 발전하고 있습니다.
오늘날의 인공지능은 더 이상 단순한 도구가 아닙니다. 사람의 말을 이해하고, 우리가 원하는 바를 정확히 파악하며, 모르는 것을 스스로 찾아보고, 답을 내기까지의 생각 과정을 친절히 설명하는 복합적인 존재가 되었습니다. 그리고 이런 복잡한 능력의 중심에는 여전히 데이터를 통해 스스로 배우고 계속해서 더 나아지려는 꾸준한 노력이 자리 잡고 있습니다.
다음 장에서는 이렇게 발전한 인공지능 모델들이 실제 현실 속에서 어떻게 하면 더 빠르고 효율적으로 학습할 수 있을지에 대해 알아볼 것입니다. 이제는 무조건 모델을 크게 만드는 것이 능사가 아닙니다. 같은 성능을 내면서도 더 적은 양의 데이터로, 더 적은 비용과 시간으로 빠르게 만들어내기 위한 다양한 연구가 이루어지고 있습니다. 말하자면, 지금 우리는 인공지능을 ‘확장’하는 단계에서 한 걸음 더 나아가, 더욱 효율적이고 실용적으로 ‘최적화’하는 단계로 들어서고 있는 것입니다. 앞으로 우리가 접하게 될 인공지능은 지금보다 더 작고 가벼우면서도, 훨씬 더 빠르고 똑똑하게 우리 생활 속에서 함께하게 될 것입니다.
[저작권자ⓒ META-X. 무단전재-재배포 금지]