Vol. 2May 2026

운영 투명성 · 2026-05-01 · 읽는 시간 ~ 6

같은 책이 왜 두 슬러그로 나오나요? Pagera의 異本 처리 정책

Aozora 문고에는 같은 작품이 두 슬러그로 등록되어 있을 때가 있습니다. 旧仮名판과 新仮名판, 旧字체와 新字체 — Pagera는 이런 異本을 어떻게 처리할까요? 운영 투명성을 위해 정책을 공유합니다.

Pagera Editorial

Pagera에서 일본 작품을 검색하다 보면 가끔 같은 제목이 두 번 보일 때가 있습니다. 둘 다 정상 도서입니다. 무엇이 어떻게 다른지, Pagera는 이런 경우에 어떤 정책을 쓰는지 — 솔직하게 공유합니다.

왜 같은 작품이 두 슬러그로 등록되는가

일본의 퍼블릭 도메인 텍스트 저장소 Aozora 문고(青空文庫)는 작품 한 편을 여러 저본(底本)으로 등록할 수 있습니다. 같은 단편이라도:

  • 旧仮名(구가나) 표기 vs 新仮名(신가나) 표기
  • 旧字체(번체) vs 新字체(약자체)
  • 다른 출판사·다른 저본을 토대로 한 디지털화 결과

Pagera는 Aozora의 모든 등록을 그대로 가져오기 때문에, 같은 작품의 異本(이본)이 두 개의 slug로 들어와 있는 경우가 생깁니다.

실제 사례 — 거문고 소리

히구치 이치요의 단편 「琴の音(거문고 소리)」는 Pagera에 두 슬러그로 들어와 있습니다:

  • aozora-000064-056009 — 旧仮名판 (이미 한국어 출판 완료)
  • aozora-000064-004529 — 新仮名판

두 본문을 비교해 보면:

  • 앵커 수 동일 (c1=8, c2=5, 총 13)
  • 첫 1500자, 마지막 800자 — 어순·구두점·앵커 ID·내용 완전 일치
  • 차이점은 정서법만 (萬↔万, 處↔処, 騷↔騒, 殘↔残, 實↔実, 淺↔浅, 樣↔様, 聲↔声, 戀↔恋, 覺↔覚 등 24+개 旧↔新 변환)

한국어로 번역하면 결과물이 100% 동일합니다. 旧仮名/新仮名 차이는 일본어 표기법의 문제이지 의미의 문제가 아니기 때문입니다.

Pagera의 정책 — 4단계 異本 판정

새 작품 번역을 시작하기 전, glossary 단계에서 다음을 검사합니다:

  1. DB 동명 검색 — 같은 제목이 다른 슬러그로 이미 출판되어 있는지 확인.
  2. 앵커 수 비교 — 두 본문의 단락 구조가 일치하는지.
  3. 첫 1500자 의미 대조 — 어순·구두점까지 같은지.
  4. 마지막 800자 결말 대조 — 결말이 같은지.

4단계 모두 통과(=異本으로 판정)하면 풀 파이프라인 번역을 회피합니다. 같은 결과물을 두 번 만들 이유가 없으니까요.

처리 — 옵션 A: hidden 처리

異本으로 판정된 슬러그는 isHidden=true로 표시되어 검색 결과·카탈로그에서 제외됩니다. 데이터는 보존하되 사용자가 같은 작품을 두 번 만나지 않도록 정리. 현재 다음 3종이 hidden 처리 대상으로 검토 중입니다:

  • aozora-000119-004336 — 영허 異本
  • aozora-000081-004423 — 미야자와 겐지 「いてふの実(은행나무 열매)」 異本
  • aozora-000064-004529 — 히구치 이치요 「琴の音」 新仮名판

왜 이걸 공개하는가

Pagera는 비싼 LLM 호출(번역 + Opus 두 리뷰어 채점)을 매 작품에 합니다. 한 번 번역하면 작품당 수만 토큰이 들어가고, 두 번 번역하면 그 비용이 두 배가 됩니다. 운영 효율성과 사용자 경험 양쪽에서 異本 회피가 옳다는 판단입니다. 그리고 그 판단을 사용자에게 숨기는 것보다 공개하는 게 신뢰가 쌓인다고 봅니다.

Pagera 도서 카탈로그 보기

다른 글