기술 콘텐츠 · 2026-05-01 · 읽는 시간 ~ 10분

Pagera 번역 품질 시스템 v2 — 두 독립 Opus 리뷰어가 채점하는 이유

AI 번역이 인쇄 출판물 수준에 도달하려면 무엇이 필요할까요? Pagera는 번역가 1명 + 두 명의 독립 Opus 모델 리뷰어가 채점하는 5축 98점 시스템을 씁니다. 그 작동 원리와 실측 사례를 공개합니다.

Pagera Editorial

"AI 번역은 빠르지만 품질이 떨어진다"는 통념이 아직 강합니다. Pagera는 이 통념을 다른 시스템으로 뒤집어 보려고 합니다 — 1명 번역가(Claude) + 2명 독립 Opus 리뷰어 + 5축 98점 통과 기준. 이 글은 그 시스템의 작동 원리와, 실제로 어떻게 무너지지 않게 작동하는지를 공개합니다.

5축 채점 (각 10점, 총 50점 → 100점 환산)

충실성 (Adequacy) — 원문 의미 보존. 문단 누락, 오역, 고유명사 일관성.
유창성 (Fluency) — 한국어 자연도. "~에 대한" 남용, "~하는 것" 남용, 이중 피동 등.
문체 (Style) — 작가 톤·시대감·캐릭터 말투.
AI투 (Humanness) — 균형 강박, 안전 어휘 반복, 리스트 강박, 전환어 과다 등 LLM 특유의 흔적.
완성도 (Polish) — ASCII 따옴표, HTML 엔티티 잔존, 데이터 앵커 보존, 오탈자.

통과 기준

총점 98점 이상
5축 각각 9.5점 이상
두 독립 Opus 리뷰어 모두 통과시켜야 함

한 축이라도 9.0점 미만이면 통과 불가. 단일 리뷰어만 통과해도 통과 불가. 미달이면 targeted-fixer가 해당 부분만 정밀 수정하고 두 리뷰어가 다시 채점하는 루프 (최대 5회).

왜 두 명인가 — 실측 사례

한 명의 채점자만 있으면 그 채점자의 사각지대가 곧 시스템의 사각지대가 됩니다. Pagera는 이걸 실제 데이터로 확인했습니다.

예시 — 「시체를 먹는 남자」: c1-p084 「五分ばかり閉め残して」를 1차 specialist는 통과시켰습니다. 그런데 blind re-reviewer는 적발 — 「五分」은 분수(50%)이지 시간(5분)이 아니었습니다. 직후 「八分目」(80%)와 정합. 두 번째 리뷰어가 없었으면 출판되었을 오역.

예시 — 「하늘에 솟는 황금 구름」: c1-p080 「たちまち」를 두 리뷰어가 동시 적발. 「어느덧」(점진)이 아닌 「금세」(즉발). 같은 함정을 두 명이 동시에 잡으면 신뢰도가 올라갑니다.

예시 — 「가을」(아리시마): specialist는 c1-p002·p009를 적발, re-reviewer는 c1-p004·p007을 적발. 다른 위치를 분담 적발하는 패턴이 자주 나타납니다. 두 명을 쓰는 이유가 정확히 이것.

Blind 원칙

두 번째 리뷰어(re-reviewer)는 이전 채점 결과·수정 이력·점수를 절대 알지 못한 상태로 채점합니다. 처음 읽는 독자처럼 평가. 이걸 강제로 차단하지 않으면, 같은 시스템 안에서 두 채점자가 같은 결론으로 수렴해 버립니다.

v2 개정 (2026-04-11)

이전 v1은 99점 기준이었으나, Opus 모델 리뷰어 실측 결과 다음 한계가 확인되어 98점으로 현실화했습니다:

LLM 리뷰어는 99점이 실질적 천장. 완벽한 번역에도 "1점은 꼭 찾아내는" 경향.
3종 샘플(Jekyll/Alice/Christmas Carol) 중 1종만 100점, 나머지는 5축 9.5+ 충족에도 98에서 정체.
98점은 인쇄 출판물 기준으로 충분히 우수 (5축 9.5+ 유지가 본질적 품질 보증).

왜 이걸 공개하는가

독자가 Pagera 번역을 신뢰하려면 채점 기준이 어떻게 되어 있는지를 알아야 합니다. "5축 98점, 두 Opus 리뷰어 PASS"가 카탈로그 한 줄로 적혀 있어도, 그게 무슨 뜻인지 모르면 의미가 없습니다. 이 글은 그 한 줄의 작동 방식 전체를 공개한 글입니다.

Pagera 카탈로그 — 모든 책은 v2 통과를 거칩니다