[문과생의 AI 논문 리뷰] Attention Is All You Need(2017) - 언어는 어떻게 계산되는가

김하영 기자

hashe@metax.kr | 2026-04-13 09:00:00

Transformer, 계산 가능한 언어 모델의 탄생
관계 중심 언어 처리 구조의 등장과 새로운 해석의 기준

[메타X(MetaX)] AI를 잘 모르는 사람도, 요즘 “트랜스포머(Transformer)”라는 말은 한 번쯤 들어봤을 것이다. 챗GPT를 비롯해 지금의 대규모 언어모델 대부분이 이 구조 위에 서 있기 때문이다. 그렇다면 다시 질문해볼 수 있다. 오늘의 AI를 가능하게 만든 그 출발점은 정확히 무엇이었을까.

2017년 발표된 「Attention Is All You Need」는 바로 그 질문 앞에 놓이는 논문이다. 이 논문은 단순히 성능이 좋은 모델 하나를 제안한 것이 아니다. 더 근본적으로는, 언어를 처리하는 방식 자체를 바꿔놓았다. 기존 모델이 문장을 시간의 흐름에 따라 읽었다면, 이 논문의 모델은 문장을 관계의 구조로 다시 본다.


문장을 따라가던 모델의 한계
이 논문 이전까지, 언어를 처리하는 대부분의 모델은 RNN(Recurrent Neural Network, 순환 신경망 - 데이터의 순서(시퀀스)를 고려하여 과거 정보를 현재 출력에 반영하는 딥러닝 모델)계열 구조를 기반으로 하고 있었다. LSTM(Long Short-Term Memory, 장단기 기억 네트워크: RNN의 기울기 소실 문제를 해결하기 위해 고안된 딥러닝 모델)이나 GRU(Gated Recurrent Unit, 게이트 순환 유닛: LSTM을 단순화한 구조로, 비슷한 성능을 유지하면서 계산을 더 효율적으로 만든 모델) 역시 그 변형일 뿐, 기본적인 원리는 동일하다. 입력 문장을 앞에서부터 하나씩 읽고, 그때마다 은닉 상태를 업데이트하며 정보를 축적해 나가는 방식이다.

이 구조는 직관적이지만, 계산의 관점에서는 명확한 제약을 가진다. 각 단계는 이전 단계의 결과에 의존하기 때문에 병렬 처리가 어렵고, 긴 문장에서는 앞부분의 정보가 점차 희석되면서 장거리 의존성을 유지하기도 쉽지 않다. 논문은 이 점을 단순한 기술적 한계가 아니라, 구조적 제약으로 본다. 순서를 따라가는 방식 자체가 모델의 표현력과 효율을 동시에 제한하고 있다는 것이다.

이 지점에서 질문이 등장한다. 
정말로 우리는 문장을 반드시 순서대로 처리해야 하는가.


순서를 버리고 관계를 택하다
이 논문의 대담함은 여기서 시작된다. 저자들은 순환 구조도, 합성곱 구조도 버리고, attention(문장 내 단어들 사이의 관계를 비교하고, 그 중요도를 가중치로 계산하는 메커니즘)만으로 전체 모델을 구성하겠다고 선언한다.

이들이 제안한 Transformer(해당 논문에서 제안된 attention 기반 딥러닝 모델)는  내부를 self-attention과 feed-forward network로 채운다. 인코더는 6개의 동일한 층으로, 각 층은 multi-head self-attention과 position-wise feed-forward network로 이루어진다. 디코더 역시 6개 층으로 구성되며, 여기에 인코더 출력을 참조하는 attention 서브레이어가 추가된다. 각 서브레이어에는 residual connection과 layer normalization이 적용된다. 이 구조는 겉보기에는 단순하지만, 실제로는 기존 모델과 전혀 다른 방식으로 정보를 처리한다.

Transformer 구조; Attention Is All You Need(2017)

표면적으로만 보면 이것은 아키텍처 설계의 이야기처럼 보인다. 그러나 조금 더 들여다보면, 이 논문은 언어를 이해하는 좌표계 자체를 바꾼다. 기존 RNN 계열 모델이 문장을 “순서에 따라 흘러가는 것”으로 다뤘다면, Transformer는 문장을 “서로 연결된 요소들의 집합”으로 다룬다.

핵심은 self-Attention이다. self-Attention은 하나의 단어가 문장 내 모든 단어를 동시에 참고할 수 있게 하며, 각 단어는 다른 단어들과의 관련성을 계산해 그 중요도를 가중치로 반영하고 새로운 표현을 만든다. 다시 말해 문장은 더 이상 앞에서 뒤로 흐르는 정보열이 아니라, 각 단어가 서로를 참조하는 관계망이 된다.

논문에서는 이를 query, key, value 구조로 설명한다. 각 단어는 Q(query)로 질문을 던지고, K(key)와의 유사도를 계산해 V(value)를 얼마나 가져올지를 결정한다. 이 과정은 단순하지만, 의미는 크다. “이전에 무엇이 있었는가”가 아니라 “지금 무엇과 연결되는가”가 중심이 되기 때문이다.

Scaled Dot-Product Attention과 Multi-Head Attention의 구조; Attention Is All You Need(2017)

또한 논문은 이를 scaled dot-product attention으로 공식화한다. query와 key의 내적을 구한 뒤, 차원 수의 제곱근으로 나누고, Softmax를 취해 Value의 가중합을 만든다. 수식 자체는 비교적 간결하지만, 그 의미는 작지 않다.

게다가 이 계산은 한 번만 수행되지 않는다. multi-head attention은 이 과정을 여러 개의 서로 다른 표현 공간에서 병렬적으로 수행한다. 논문은 이렇게 여러 head를 두는 이유를, 서로 다른 관점에서 관계를 포착하기 위해서라고 설명한다. 즉 하나의 문장을 하나의 시선으로만 읽지 않고, 여러 시선으로 동시에 해석하는 구조다.

이 대목이야말로 Transformer의 핵심적인 전환이다. 언어를 시간적 누적으로 처리하지 않고, 관계적 분포로 처리한다는 것. 그래서 이 모델의 장점은 단순히 “좋은 결과가 나왔다”에 그치지 않는다. 논문이 강조하듯 self-attention은 recurrent layer보다 훨씬 적은 순차 연산으로 전체 입력의 관계를 연결할 수 있고, 긴 거리의 의존성을 더 짧은 경로로 학습할 수 있다. RNN에서 멀리 떨어진 두 단어의 연결은 여러 단계를 거쳐야 하지만, self-attention에서는 사실상 한 번의 직접 참조로 연결된다. 

Self-attention이 특정 단어를 참조하는 방법의 시각화; https://research.google/blog/transformer-a-novel-neural-network-architecture-for-language-understanding/

물론 여기에는 즉시 떠오르는 질문이 있다. 
순환도 없고 합성곱도 없다면, 단어의 순서는 어떻게 파악까?

논문은 이 문제를 Positional encoding으로 해결한다. 입력 임베딩에 위치 정보를 더해주어, 모델이 단어의 상대적·절대적 위치를 사용할 수 있도록 만든 것이다. 저자들은 사인과 코사인 함수 기반의 Positional encoding을 사용했고, 학습 가능한 Positional embedding과 비교했을 때도 거의 비슷한 결과를 얻었다고 보고한다. 중요한 것은 여기서 순서가 더 이상 “처리 방식”이 아니라 “추가 정보”가 되었다는 점이다. 즉, 모델은 단어의 순서를 따라가며 이해하는 것이 아니라, 순서를 하나의 feature로 활용한다.

성능 면에서도 이 논문은 명확한 성과를 제시한다. Transformer big 모델은 WMT 2014 English-to-German 번역에서 BLEU(Bilingual Evaluation Understudy: 기계번역 성능 평가 지표) 28.4를 달성해 기존 최고 성능을 2 BLEU 이상 넘어섰고, English-to-French에서는 단일 모델 기준 41.8 BLEU를 기록했다. 게다가 훈련 비용 역시 경쟁 모델보다 훨씬 낮거나 효율적이었다. 저자들은 이것을 단지 번역 품질 향상으로 제시하지 않는다. 병렬화 가능성과 학습 시간 단축이라는 구조적 이점이 함께 작동한 결과로 제시한다. 더 나아가 이 구조가 영어 Constituency parsing(문장을 구성 요소(구조) 단위로 나누는 분석 방식) 같은 다른 과제에도 잘 일반화된다고 보고한다.

이쯤 되면 이 논문이 왜 “현대 AI의 출발점”으로 읽히는지 분명해진다. 이 논문은 언어를 기억의 흐름이 아니라 참조의 구조로 재배치했다. RNN이 상태를 축적하는 방식이라면, Transformer는 매 순간 전체 맥락을 다시 펼쳐놓고 필요한 관계를 골라낸다. 이 차이는 단순한 기술적 선택이 아니다. 언어를 무엇으로 볼 것인가에 대한 관점의 전환이다.


언어는 관계로 설명될 수 있는가
그런데 바로 여기서, 이 논문을 읽는 문과생의 질문이 시작된다.
언어는 정말, 관계만으로 환원 가능한가?

언어를 관계망으로 본다는 것은 분명 강력한 발상이다. 모델은 각 단어가 다른 단어를 얼마나 참고해야 하는지를 가중치로 계산한다. 그러나 우리가 실제로 언어를 이해할 때 작동하는 것은 언제나 그렇게 명시적인 관계만은 아니다.

우리는 종종 단어의 의미를 정반합처럼 단순한 관계로 설명하려 하지만, 실제 언어는 그렇게 단편적으로 작동하지 않는다. 말에는 뉘앙스가 있고, 맥락이 있으며, 말해지지 않은 전제가 존재한다. 문화적 배경과 상황, 그리고 화자의 의도까지 포함된 복합적인 층위 위에서 의미가 형성된다. 어떤 문장은 단어와 단어의 관계만으로는 충분히 설명되지 않는다. 아이러니와 은유, 회피와 함축, 그리고 침묵조차 의미를 구성하는 요소로 작동한다.

이 질문은 논문을 부정하기 위한 것이 아니다. 오히려 반대다. 이 논문이 무엇을 가능하게 했는지를 인정하기 때문에, 동시에 그것이 무엇을 전제로 하는지도 묻게 되는 것이다.

Transformer는 언어를 다루는 데 있어 엄청난 실용적 성과를 냈다. 하지만 그 성공은 언어를 “계산 가능한 관계의 구조”로 다룰 수 있다는 전제 위에 세워져 있다. 이 전제는 강력했고, 실제로 유효했다. 다만 인간의 언어가 정말 그 전제로 충분히 설명되는가 하는 문제는 여전히 남아 있다.

이 질문은 이후 연구에서도 다양한 방식으로 이어진다. BERT는 문맥을 더 정교하게 반영하려 했고, GPT 계열은 긴 흐름 속에서도 의미를 유지하며 생성하는 방향으로 확장되었다. 최근 연구들은 여기에 더해 추론과 장기 기억, 구조적 이해까지 모델 내부에 포함시키려는 시도를 이어가고 있다.

그러나 이 모든 흐름의 출발점은 동일하다. 언어를 관계로 본다는 전환, 바로 그 위에서 모든 확장이 이루어진다.

그래서 마지막으로 남는 질문은 이것이다.

우리는 지금 언어를 더 잘 이해하게 된 것일까.
아니면 단지 언어를 더 정교하게 계산하게 된 것일까.

「Attention Is All You Need」는 이 질문을 가능하게 만든 논문이다. 

어쩌면 이 논문의 진짜 의미는, 모델이 언어를 이해했다는 데 있는 것이 아니라, 언어를 계산 가능한 대상으로 바꾸었다는 데 있는지도 모른다.


[METAX = 김하영 기자]

[ⓒ META-X. 무단전재-재배포 금지]

WEEKLY HOT