Transformer Architecture (트랜스포머 구조, 2017)
Term (용어)aiverifiedFri Apr 24

Transformer Architecture (트랜스포머 구조, 2017)

별칭: 트랜스포머 · Transformer · Attention Is All You Need

#기술용어#Transformer#2017#GoogleBrain#AttentionIsAllYouNeed#EncoderDecoder

Transformer Architecture (트랜스포머 구조, 2017)

정의

2017년 Google Brain의 "Attention Is All You Need" 논문에서 발표된 신경망 구조. 순환신경망(RNN)·합성곱신경망(CNN) 없이 오직 어텐션 메커니즘(term/attention-mechanism)만으로 시퀀스를 처리. 현대 모든 거대언어모델(term/llm-large-language-model)의 기반.

본문 — 기술 상세

핵심 혁신

이전 RNN/LSTM은 시퀀스를 순차 처리해서 병렬화 불가능 + 장거리 의존성 약함의 한계가 있었다. 트랜스포머는 어텐션 메커니즘으로 이 두 문제를 동시에 해결:

  • 병렬 처리 — 모든 토큰을 동시에 계산 → GPU 활용 극대화 → 학습 시간 대폭 단축
  • 장거리 의존성 — 어텐션이 모든 토큰 쌍의 관계를 직접 계산 → 문장 처음과 끝 단어도 직접 연결

구조 (원논문 인코더-디코더 형태)

[입력 토큰] → [임베딩 + 위치 인코딩]
            → [N번 반복: Self-Attention + Feed-Forward]
            → [디코더: Cross-Attention + Self-Attention + Feed-Forward]
            → [출력 토큰 확률]

주요 구성 요소

  • Self-Attention — 같은 시퀀스 내 토큰 간 관계 계산 (Q·K·V 매칭)
  • Multi-Head Attention — 여러 어텐션을 병렬로 (다양한 관점)
  • Position Encoding — 단어 순서 정보 주입 (어텐션 자체는 순서 무시)
  • Feed-Forward Network — 토큰별 비선형 변환
  • Residual Connection + Layer Normalization — 깊은 네트워크 학습 안정화

변형 모델

  • Encoder-only (BERT, RoBERTa) — 이해·분류 작업
  • Decoder-only (GPT, Claude, Llama) — 생성 작업, 현재 LLM 대세
  • Encoder-Decoder (T5, BART) — 번역·요약

사역 적용

도서 v4 제2장에서 트랜스포머의 어텐션을 칵테일파티 효과(시끄러운 식당에서 자기 이름만 들리는 현상)로 비유. 사역자는 트랜스포머 구조 자체를 알 필요는 없지만, AI가 마법이 아니라 수학적 집중의 비결임을 이해하면 두려움이 분별로 바뀐다.

한계와 주의사항

  • 연산 비용 O(n²) — 시퀀스 길이의 제곱에 비례. 긴 문서 처리에 한계 (해결책: Flash Attention, Sparse Attention 등)
  • Position Encoding 한계 — 학습한 길이보다 긴 시퀀스에서 성능 저하
  • 트랜스포머 자체는 도구일 뿐 — 학습 데이터·정렬에 따라 성격이 결정됨

관련