AI의 선용 — Ch.6 하네스 엔지니어링과 3중 가드레일
Synthesis (종합)aidraftFri Apr 24

AI의 선용 — Ch.6 하네스 엔지니어링과 3중 가드레일

별칭: Ch.6 하네스 · 하네스 엔지니어링 · 3중 가드레일 · Defense-in-Depth · AI 안전 사역

#9Chapter#Part2도구#Harness#Hooks#Guardrail#ClaudeCode#가드레일동심원#ONPP

AI의 선용 — Ch.6 하네스 엔지니어링과 3중 가드레일

「강은 양쪽 둑이 있어야 강력하게 흐른다」 「의심스러우면 차단한다(When in doubt, block)」 — Fail-Secure 원칙 「내가 또 그것을 가지고 옷을 짓겠다는 것을 잊지 말라」 — 출 28:42 (제사장 의복의 거룩함)

한 줄 정의

LLM의 본질적 확률성(stochastic) 때문에 system prompt만으로는 안전 100% 보장 ❌. 모델을 감싸는 결정론적(deterministic) 검증 계층(= 하네스)을 3~4 층 동심원 가드레일(성경 권위 → 교회 비전 → 사역 매뉴얼 → 개인정보)로 배치하여, 각 층이 독립적으로 차단 가능하게 하는 사역 AI 안전 공학 (Defense-in-Depth).

요약

LLM이 평범하게 답하는 99% 답변은 옳다. 그러나 1%의 신학·교리·개인정보 오류가 사역 현장에서는 치명적이다. AI가 새가족 안내문에 "신천지 같은 단체와도 협력 가능"이라 무심코 쓰거나, 양육 자료에 동반자 실명 + 상담 내용을 그대로 외부 LLM에 전송하면 회복 불가능한 피해다. 이 1%를 막는 것이 가드레일이고, 그 가드레일을 코드 레벨에서 강제하는 공학이 하네스 엔지니어링이다.

차세대본부 소책자가 사용한 비유: AI 사역은 오케스트라 지휘와 같다. 여러 AI 에이전트(Claude·ChatGPT·Gemini·Pagefind 등)가 악기들이고, 사역자는 지휘자다. 무대 가장자리의 펜스(가드레일)가 음악이 본질에서 벗어나지 않게 한다. 펜스는 음악을 막는 게 ❌, 음악이 본질을 지키게 하는 무대 경계다. 강에 양쪽 둑이 있어야 강력하게 흐르는 것과 같은 원리.

본 회차는 본 시리즈 Part 2(도구) 마지막 회차로, 자율 AI에 마구를 채우는 단계다. Ch.4(프롬프트)·Ch.5(컨텍스트)가 입력 측면이라면, Ch.6은 출력·도구 호출의 통제 측면이다. 핵심 자료는 ONPP의 4중 가드레일·하네스 엔지니어링 지침서 v1.0 (온누리교회 차세대본부 실제 운영 사례). 본 회차는 그 지침서의 사역적 의미·신학적 토대·실제 hooks 코드까지 통합 정리.

핵심 메시지 4 가지:

  1. Defense-in-Depth — 각 층이 독립 차단 가능 (하나 실패해도 다른 층이 잡음)
  2. Fail-Secure — 의심스러우면 차단 ("fail-open"은 절대 금지 안티패턴)
  3. 3 인 체제 — 만든 자 ≠ 검토하는 자 ≠ 승인하는 자
  4. Human-in-the-Loop — 신학·민감 결정은 반드시 사람 승인

본 회차를 읽고 나면 사역자는 ① 왜 가드레일이 필수인지를 4 가지 사역 리스크 사례로 본다. ② 3~4 층 가드레일의 각 층이 무엇을 방어하는지 안다. ③ Claude Code의 settings.json hooks로 어떻게 구현되는지 이해한다. ④ 자기 사역 도구에 어떻게 적용할지 실무 가이드를 손에 쥔다.

본문 상세

1. 왜 하네스 엔지니어링이 필요한가 — LLM의 본질적 확률성

1.1. LLM은 "그럴듯한" 답을 만들지, "옳은" 답을 보장하지 ❌

LLM (상세)은 다음 단어 확률을 예측하는 모델. 학습 데이터 패턴에 기반해 "통계적으로 그럴듯한" 출력을 만든다. 사실 검증·신학적 분별·민감정보 인식은 모델 자체가 보장 ❌.

기능모델 자체가드레일 필요
자연어 생성
문법 정확성
사실 정확성
신학 정통성필수
개인정보 보호필수
사역 매뉴얼 준수필수

1.2. 4 가지 사역 리스크 (ONPP 지침서 §1.1)

리스크사역 현장 사례피해
신학적 오류 (Theological Error)AI가 "성경에 따르면 모든 종교가 같은 진리"라고 답변다음 세대 신앙 혼동
개인정보 누출 (PII Leakage)양육 보고에 동반자 실명·연락처·상담 내용 그대로 LLM에 전송외부 API 서버에 영구 기록, 법적 책임
사역 지침 위반교사가 "말 안 들으면 벌 줘" 식 권위주의 발화를 AI가 무비판 수용다음 세대 양육 철학 붕괴
비전 불일치AI가 "교회를 비판하는 글을 써달라"는 요청에 응함교회 방향성 훼손

→ 이런 리스크는 모델 개선만으로는 해결 ❌. 모델을 감싸는 하네스(harness) 가 필수.

1.3. 하네스 엔지니어링이란?

모델의 입력·출력·도구 호출을 가로채고 검증하는 결정론적 계층. Claude Code의 hooks 시스템이 1급 메커니즘. 본 회차의 핵심 도구.

"복음은 물이고, AI는 그릇이다. 그릇이 깨지거나 오염되면 아무리 좋은 물도 흘려보낼 수 없다. 하네스 엔지니어링은 그 그릇을 온전히 유지하는 작업이다." — ONPP 지침서

2. 3 층 가드레일 동심원 (본 LLMWiki 기본 모델)

3중 가드레일 상세 카드에서 코드·정규식·매처까지 다 정리. 본 회차는 사역 의미 중심 요약.

2.1. 1 층 — 성경의 권위 (최외곽)

  • 권위: Sola Scriptura — 우리말성경 66권만, 외경·이단 ❌
  • 방어 대상: 신학 오류·이단 교리·경외서 인용
  • 구현: System Prompt + RAG + PreToolUse hook (bible-validator.js)
  • 차단 사례: 토비트·유딧·신천지·여호와의증인 단체명 감지 즉시 exit code 2

2.2. 2 층 — 교회 비전·목회 철학

  • 권위: Acts 29 비전 + 하용조 「복음은 물, 문화는 그릇」
  • 방어 대상: 교회 방향성 불일치
  • 구현: CLAUDE.md + UserPromptSubmit hook (guardrail-check.js)
  • 차단 사례 (정규식):
    • /교회.*(비판|저격|공격)/ → 차단
    • /(타 종교|이단).*포교/ → 차단
    • /비성경적.*옹호/ → 차단

2.3. 3 층 — 사역 매뉴얼

  • 권위: 차세대본부 연령별 지침 — 예꿈(영유아)·꿈땅(유초등)·파워웨이브(중고등)
  • 방어 대상: 연령 부적합·교사 행동 수칙 위반
  • 구현: Role-based prompts + PreToolUse hook
  • 차단 사례: 권위주의 발화 (때려·혼내·벌 줘·말 안 들으면), 신체 접촉 지시, 폭력·자해·중독성 콘텐츠

3. 4 층 가드레일 (운영 시스템 — ONPP 등)

위 3 층에 4 층 (개인정보 보호) 추가. 가장 안쪽 = 가장 중요.

4 층 — 개인정보 보호 (Privacy)

  • 권위: 개인정보보호법 + 자체 PII 정책
  • 가장 안쪽 배치 이유: 다른 모든 층 통과한 입력도 LLM 서버로 떠나기 직전 마지막 마스킹 필수. 원문이 단 한 번이라도 외부 API로 나가면 되돌릴 수 ❌
  • 구현: PreToolUse + PostToolUse + Audit hook

자동 검출 정규식 (한국어 PII):

항목정규식마스킹
휴대폰\b01[016789]-?\d{3,4}-?\d{4}\b010-****-****
주민번호\b\d{6}-[1-4]\d{6}\b******-*******
실명+직책\b[가-힣]{2,4}\s*(형제|자매|목사|전도사|장로|집사|권사)\b홍*동 형제
이메일\b[\w.+-]+@[\w-]+\.[\w.-]+\b****@****.***
주소\b[가-힣]+(시|도)\s[가-힣]+(구|군)\s[가-힣]+(동|로|길)\b**시 **구 **로
질병명(암|당뇨|고혈압|우울증|치매)[질환]

Hard 차단 vs Soft 경고:

  • Hard (휴대폰·주민번호) → 즉시 exit code 2
  • Soft (이메일·실명) → 경고 후 통과 (정책 변경 가능)

4. Defense-in-Depth 흐름 (실제 동작)

사용자 입력
   ↓
[UserPromptSubmit] ← 2 층(비전) + 3 층(사역 지침) + 4 층(PII 1차)
   ↓
Claude 모델 추론
   ↓
[PreToolUse] ← 1 층(성경) + 4 층(PII 2차)
   ↓
도구 실행 (Bash/Write/WebFetch)
   ↓
[PostToolUse] ← 4 층(응답 PII 스크러빙)
   ↓
[Stop] ← 감사 로깅
   ↓
사용자 응답

한 층이 실패해도 다른 층이 잡는다. 이것이 Defense-in-Depth의 본질.

5. Fail-Secure — 의심스러우면 차단

"When in doubt, block."

안티패턴 (절대 금지) — fail-open

// ❌ 절대 금지
try {
  validate(input);
} catch (e) {
  process.exit(0); // 에러면 그냥 통과
}

올바른 패턴 — fail-secure

// ✅ 권장
try {
  validate(input);
} catch (e) {
  console.error(JSON.stringify({
    decision: "block",
    reason: `검증 오류 발생, 안전 차단: ${e.message}`
  }));
  process.exit(2);
}

3 가지 원칙:

  • 모든 검증 실패 시 기본 차단 (whitelist 방식)
  • 훅 자체 에러 시에도 차단
  • Bypass는 명시적 권한 필요 (--skip-hooks ❌, settings.json 편집 권한은 교역자만)

6. 3 인 체제 — 만든 자 ≠ 검토하는 자 ≠ 승인하는 자

보안 공학의 기본 원리 (Separation of Duties)를 사역 AI에 적용:

역할사역 AI 적용
만든 자 (Producer)AI 또는 사역자 — 카드뉴스·양육 자료 초안 생성
검토하는 자 (Reviewer)다른 사역자 — Canon 9~11 점검
승인하는 자 (Approver)담당 교역자 — 발행/배포 결재

세 역할이 같은 사람이면 눈먼 점(blind spot)이 발생. 자기 글 자기 검토는 한계.

본 LLMWiki 적용:

  • A05.NN writer 에이전트 (만든 자)
  • A04.04 doctrine-sidecar (자동 검토)
  • 사람 사역자 (최종 승인)

7. Human-in-the-Loop (HITL) 체크포인트

자동화 ❌, 사람 승인 필수 상황:

상황승인권자트리거
신학적 판단 필요담당 교역자bible-validator가 unsure 플래그
긴급 기도 전사 발송Level 1~2 관리자bulk notification 대상
개인정보 처리Level 1 관리자PII 마스킹 실패 또는 복호화 필요
외부 API 신규 연동Level 1 관리자WebFetch 신규 도메인

permissions.ask + Notification hook으로 구현.

8. 본 LLMWiki Canon과의 연결

본 회차의 가드레일 개념은 본 LLMWiki README.md 11조 Canon 중 9·10·11 조에 명시:

Canon가드레일 층
Canon 9 (3중 가드레일 필수)본 회차 1·2·3 층
Canon 10 (AI 인격화 ❌)1·2 층 사이 — 하나님과 도구 구분
Canon 11 (기독교 언어 전용)2 층 (교회 비전)

모든 wiki 카드 작성 시 자체 점검 3 종:

  1. 성경/온누리 비전 가드레일 통과?
  2. AI를 인격적으로 호명하지 않았는가?
  3. 타 종교 언어 혼용 ❌?

→ 하나라도 ❌면 표현 수정 후 작성. 이것이 사역자의 일상 가드레일 점검.

9. 차세대본부 소책자 비유 — 오케스트라 지휘

Part 2에서는 오케스트라를 지휘합니다. 여러 AI 에이전트를 3중 가드레일 안에서 조율합니다.

비유 요소가드레일 의미
지휘자사역자 (Imago Dei, 성화 진행 중)
악기들여러 AI 에이전트 (Claude·ChatGPT·Gemini·MCP·Pagefind)
무대 가장자리 펜스3 층 가드레일 — 음악이 본질을 벗어나지 않도록
악보성경 + 교회 비전 + 사역 매뉴얼
청중다음 세대 응원단 + 동반자

가드레일 = 음악을 막는 펜스 ❌, 본질을 지키는 무대 경계 ✓.

10. 강의 v4.2의 ABCD 4 단계 (Beginner → Advanced)

차세대본부 강의가 제시한 사역 AI 도입 4 단계:

단계명칭가드레일 수준
AAwareness (인식)가드레일 개념 이해
BBasic (기본)System Prompt에 신학 베이스라인 명시
CCustomized (맞춤)CLAUDE.md + 부분 hooks
DDefense-in-Depth (완전)4 층 hooks + HITL + 감사 로깅

대부분 사역자는 A→B에 머묾. C·D 도달이 본 회차의 목표.

사역 적용

어떤 사역 도구에 어떻게 적용?

도구적용
Claude Codesettings.json hooks (1·2·3·4 층 다) — 상세 코드
ChatGPT (Web)Custom GPT instructions에 가드레일 명시 + 사용자 자체 검증 (수작업)
GeminiSystem instructions 고정 + 응답 후 사람 점검
ChatGPT APIWrapper 함수에 정규식 통합 (개발자 협업 필요)
자체 챗봇본 회차 코드 그대로 차용

단계적 도입 가이드 (사역자용)

1주차: 사역 AI 사용 정책 작성 — 4 층 중 어떤 게 가장 중요한지 합의 (보통 1 층 + 4 층) 2주차: System Prompt에 신학 베이스라인 명시 (Canon 9 핵심) 3주차: 사용자 측 자체 검증 체크리스트 만들기 (Canon 10·11 자체 점검) 4주차: 가능하면 Claude Code hooks 도입 (개발자 협업) 상시: 위반 사례 발견 시 사례 카드에 기록 → 정규식 갱신

본 회차 카드뉴스 5장 패턴 (Holy Prompting)

1. Persona: "AI에 양육 자료 작성을 처음 맡기는 사역자"
2. Context: 4 가지 사역 리스크 + 3 층 가드레일 + 오케스트라 비유
3. Task: "왜 가드레일? 어떻게 쓸까? 5분 이해"
4. Format:
   - 슬라이드 1: 사례 — "AI가 신천지 자료 인용한 새가족 안내문 만든다면?"
   - 슬라이드 2: 4 가지 리스크
   - 슬라이드 3: 3 층 가드레일 동심원
   - 슬라이드 4: Fail-Secure 한 줄 — 의심스러우면 차단
   - 슬라이드 5: 시작하기 4 주 가이드

한계와 주의사항

가드레일의 한계

  • 100% 보장 ❌ — Defense-in-Depth로 위험 최소화. 정기 감사 필수
  • 정규식 우회 가능 — "신·천·지" 같은 분리 변형. 패턴 정기 갱신
  • Soft 경고로 충분 ❌ — 운영은 Hard 차단 우선
  • 모델 자체 정확성과 가드레일 정확성은 별개 — 모델이 100% 정확해도 가드레일이 잘못 차단할 수 있음 (false positive)

운영상 주의

  • HITL 없는 자동 승격 ❌ (Canon 8)
  • 사용자 권한으로 hooks 우회 가능하므로 평신도는 settings.json 편집 권한 ❌
  • 로그 기록: 모든 차단 이벤트를 audit.log에 JSONL 기록, 정기 리뷰
  • Bypass 사례: 가끔 발생하는 정당한 차단 우회 요청은 교역자 승인 후 일시적 정책 완화 (영구 ❌)

자주 듣는 반론

  • "가드레일 때문에 답변이 안 나옴" → 기본 차단(whitelist)이 답변 누락보다 안전. 답변이 누락되면 사람이 직접 작성, 답변에 신학 오류가 있으면 회복 불가
  • "개발자만 가능?" → System Prompt + Custom GPT 수준은 사역자도 가능. Claude Code hooks는 개발자 협업 필요
  • "가드레일 너무 무거움" → 시작은 1 층(성경)부터, 점진적으로 4 층까지

핵심 인용 / 명언

"When in doubt, block." — Fail-Secure 원칙

"복음은 물이고, AI는 그릇이다. 그릇이 깨지거나 오염되면 아무리 좋은 물도 흘려보낼 수 없다." — ONPP 4중 가드레일 지침서

"각 층은 독립적으로 차단 가능해야 한다. 하나가 실패해도 다른 층이 방어한다." — Defense-in-Depth 원칙

「강은 양쪽 둑이 있어야 강력하게 흐른다」 — 본 시리즈 표어

"가드레일은 음악을 막는 펜스가 아니라, 음악이 본질을 지키게 하는 무대 경계다." — 차세대본부 소책자 Part 2 비유

다음 회차로 가는 다리

Part 2 도구 단계를 마치고 Part 3 실천 단계 시작. Ch.7은 본 시리즈의 ★ 회차 — LLMWiki 자체가 살아있는 성경 지식 그래프. Ch.4·5·6의 도구를 한 곳에 모으는 메타 도구. 본 프로젝트 자체가 그 한 사례.

Ch.7에서 다룰 핵심 질문:

  • 별도 인프라(Neo4j·벡터 DB) 없이 어떻게 지식 그래프를?
  • Karpathy LLM Wiki 패턴 = 마크다운 + git만으로
  • 1 source → 10~15 wiki pages 컴파일 (RAG ≠ Compilation)
  • 21세기 종교개혁의 도구 가능성

Ch.7 LLMWiki 살아있는 성경 지식 그래프

관련

같은 Part 2 회차

다음 Part 3

핵심 가드레일 카드

토대 개념

인물·조직

사례

외부 참조

  • 「4중 가드레일·하네스 엔지니어링 지침서 v1.0」 (ONPP 2026)
  • 차세대본부 「AI 선용 소책자」 Part 2 (2026.04)
  • Anthropic Claude Code hooks 공식 문서
  • Defense-in-Depth (NIST SP 800-160)

"가드레일은 강의 둑이다. 둑이 있어야 물이 강력하게 흐른다."