러시아 유저에게 긍정 리뷰 하나를 받기까지
며칠 전에 스토어에서 리뷰 하나를 발견했습니다. 별 5개에, 제가 한 글자도 못 읽는 언어로 긴 칭찬이 달려 있었어요.

언어 설정이 ru-ru인, 러시아 분으로 추정되는 유저였습니다. 해석기를 돌려봤더니 “쾌적하고 사용자 친화적인 인터페이스와 멋지고 무료이며 미니멀한 기능을 갖춘 훌륭한 앱을 만들어주셔서 정말 감사합니다” 라는 뜻이더라고요.
이 리뷰 하나를 받기까지 대략 한 달 정도가 걸렸습니다. 그리고 그 한 달 동안 저는 러시아어를 한 글자도 더 배우지 않았어요. 대신 좀 많이 오만했다는 걸 배웠고, 앞으로는 유저한테 직접 물어볼 줄 아는 앱을 만들어야겠다는 생각을 하게 됐습니다. 오늘 풀어놓을 이야기는 그 한 달입니다.
발단 — ru-ru 유저들이 연속으로 사라졌어요
W15, W16 주간 analytics 리포트를 보다가 눈에 걸리는 줄이 하나 있었어요. 러시아어 설정 유저들이 연달아 D1에서 이탈했다는 내용이었습니다. 설치 다음날 돌아오지 않은 거예요.
모수가 작은 편이라 통계적으로 유의하다고 말하긴 어려웠습니다. 처음엔 그냥 넘기려 했어요. “우연이겠지” 하고요. 근데 다음날 아침에 커피 마시면서 다시 보니까, 우연치고는 너무 깔끔하더라고요. 같은 주간에 영어나 한국어, 일본어 설정 유저들은 그렇게까지 나란히 빠지진 않았거든요. 유독 러시아어만 깔끔하게 이탈하고 있었습니다.
그래서 한 가지 가설이 머릿속에 떠올랐습니다.
설마, 번역 품질이 엉망인 거 아닐까?
오만한 믿음 — “스킬이 있으니까 괜찮겠지”
이 가설이 불편했던 이유는, 케톤에는 이미 /localize 라는 자체 스킬이 있었기 때문입니다. 새 문자열을 추가하면 22개 언어로 자동 번역해주고, 길이 초과 체크하고, format specifier 정합성까지 맞춰주는 도구였어요. 저는 이 스킬을 꽤 신뢰하고 있었습니다. 스킬 문서에도 "quality gates"라고 적어뒀거든요.
그래서 처음 든 생각은 이거였어요. “러시아어 번역이 이상하면 이미 스킬이 걸러냈을 텐데?”
근데 생각해보면 이게 얼마나 오만한 믿음이었는지 조금만 더 들여다보면 바로 보입니다. 제가 러시아어를 한 글자도 못 읽거든요. 폴란드어도, 힌디어도, 우르두어도요. 검증하는 주체인 저 자신이 결과를 읽을 수 없는데 “스킬이 검증해줄 거야” 라고 믿고 있었던 거예요. 이건 신뢰가 아니라 그냥 외면이었습니다.
한번 확인해보자, 싶어서 검수를 돌려보기로 했습니다.
조사 — 에이전트 23명으로 20개 언어 전수 검수
혼자서는 못 합니다. 저는 러시아어 Б도 못 읽으니까요.
그래서 AI 에이전트를 동원했습니다. 언어별로 네이티브 페르소나를 하나씩 세워서 총 19개 페르소나를 만들었어요. 예를 들면 “파리에 사는 30대 여성, Yuka와 Petit BamBou 같은 건강앱을 일상적으로 쓰는 사람” — 이 페르소나가 프랑스어 strings.xml을 한 줄씩 읽어내려가면서 “이건 어색해요”, “이 문장은 Sie와 Du가 섞여 있어요” 같은 리뷰를 남기는 식이었습니다. 거기에 Play Store 마케팅 카피까지 검수하는 에이전트 3명을 더 붙여서 총 23명.
검수 범위는 app/src/main/res/values-*/strings.xml 20개 + fastlane/metadata/android/*/ Play Store 카피 전수였습니다. 이게 몇 시간이 걸리더라고요. 에이전트들이 병렬로 돌아가는데도, 결과를 취합해서 HTML 리포트로 뽑고 다시 읽고 정리하는 시간까지 하면 하루를 통째로 썼습니다.

그리고 결과가 나왔는데, 솔직히 좀 충격이었어요.
발견 — 한두 곳이 아니었습니다
결과를 요약하면 20개 언어 전부에서 크고 작은 이슈가 나왔습니다. 의학 효능 주장이 원문에 없는데 번역본에 추가돼 있다든지, 브랜드명 "Ketone"이 언어마다 Keton, Cetona, Chetone, ケトン 식으로 제각각 현지화돼 있다든지, 숫자 체계가 한 화면 안에서 데바나가리랑 라틴이 섞여 있다든지… 카탈로그로 정리해보니 언어를 넘나들며 반복되는 패턴이 10가지 정도였어요.
발단이 ru-ru 이탈이었으니 러시아어에서 특히 눈에 띈 것 몇 개만 짧게 짚어보겠습니다.
러시아어에는 "금식/단식"에 해당하는 단어가 크게 두 가지가 있다고 합니다. 하나는 정교회 사순절 같은 종교적 금식, 하나는 건강 목적의 세속 단식이요. 케톤은 세속 건강 앱인데 번역본에는 종교 단어가 여기저기 섞여 있었어요. 러시아 네이티브 페르소나의 리뷰를 읽다가 이런 말을 봤습니다. “건강앱을 켰는데 ‘사순절 시작’ 이라고 적혀 있으면 종교 앱인가 싶을 거예요.” 제가 만든 건 간헐적 단식 타이머인데 러시아 유저는 절반쯤 종교 앱 느낌으로 읽고 있었던 거예요.
그 외에도 러시아어는 굴절 언어라서 과거분사에 성별이 들어간다고 하더라고요. "나는 했다"가 남성형 기본값으로 쫙 깔려 있어서 여성 유저 입장에서는 자기 얘기처럼 안 읽히는 구조였고요. 반말과 존대가 한 앱 안에서 왔다갔다 하는 톤 혼용도 있었습니다. 정책 하나만 먼저 정해뒀어도 막을 수 있던 건데, 그 정책이 없었던 거예요.
실행 — 스킬을 다시 짰습니다
여기서 솔직히 고민이 들었어요. 러시아어만 고치고 끝낼 것인가, 아니면 이 10개 패턴이 앞으로 새 번역에 또 들어가지 않도록 구조적으로 막을 것인가.
후자를 택했습니다. 어차피 다음 번역에도 같은 함정이 반복될 거니까요.
세 가지를 손봤어요.
첫째, 용어집을 대폭 확장했습니다. 원래 .claude/glossary.md 에는 “케토시스는 ketosis로 번역” 같은 의학 용어 9개만 있었어요. 이걸 7개 정책으로 재구성해서, 브랜드명 보호·의학 주장 hedge·종교 단식 용어·톤 일관성·성별 중립·숫자 체계·중복 번역 금지까지 언어별 매트릭스로 담았습니다. 위에서 얘기한 러시아어 이슈들이 여기에 다 들어갔어요.
둘째, /localize 스킬에 Semantic QA 단계를 끼워넣었습니다. 기존 스킬은 "기계적 품질"만 체크했거든요. 길이 초과, format specifier, 중복 키 같은 거요. 여기에 “의미적 품질” 체크를 추가했습니다. 브랜드명이 현지화됐는지, 원문에 없는 의학 주장이 들어갔는지, 남성형 과거분사가 강제되는지 같은 걸 정규식과 에이전트 리뷰로 잡아내는 거예요.
새 /localize 파이프라인은 이런 흐름이 됐습니다.

주황색 부분이 이번에 새로 추가된 단계예요. 나머지는 원래 있던 것들인데 순서랑 범위를 다시 짰습니다.
셋째, /localize-audit 이라는 새 스킬을 하나 더 만들었습니다. 기존 /localize 는 “새 문자열을 번역할 때” 쓰는 증분 도구였어요. 근데 이번에 필요했던 건 “이미 있는 번역을 전수 검수” 하는 역방향 도구였거든요. 그래서 이번에 수동으로 한 작업을 그대로 스킬로 박제했습니다. 다음에 비슷한 의심이 들면 명령어 한 줄로 돌릴 수 있게요.
여기까지 쓰고 나서 v1.1.1 배포를 시도했습니다. 그리고 바로 Play Store API가 거부하더라고요. "폴란드어 제목이 30자 한도를 넘었다"고요. 검수 과정에서 폴란드어 Play Store 제목을 좀 더 자연스럽게 고치다가 속격 굴절 때문에 단어 길이가 늘어나버린 거예요. Semantic QA 끝나고 나서 길이 재검증을 안 한 탓입니다. 이 사고는 또 다른 교훈이었습니다 — “길이는 예전에 통과했으니까 안전” 이라는 가정이 얼마나 위험한지. 결국 “Ketone: Post Przerywany IF” (26자)로 줄여서 재배포했고, v1.1.1은 그렇게 세상에 나갔습니다.
보상 — 2일 뒤의 그 리뷰
v1.1.1 배포가 4월 15일 저녁이었어요. 그 리뷰가 도착한 게 4월 17일이었습니다. 딱 이틀 뒤요.

솔직히 말씀드리면, 이 리뷰와 v1.1.1 업데이트의 인과관계를 증명할 방법은 없습니다. 우연의 일치일 수도 있어요. 이 유저분이 пост vs голодание 이슈를 눈치채고 달라진 걸 체감해서 리뷰를 남긴 건지, 아니면 그냥 어느 날 앱이 마음에 들어서 별점을 준 건지, 저는 모릅니다. 앞으로도 알 길이 없을 거예요.
다만 타이밍이 좀 극적이긴 했어요. 한 달 동안 ru-ru 이탈 6명 붙잡고 씨름하다가, 번역 고쳐서 배포하고, 이틀 뒤에 러시아 유저한테서 첫 5성 리뷰가 온다는 게 말이에요.
답장을 남겨야 하는데 저는 러시아어를 못하잖아요. 그래서 번역기를 띄우고 한국어로 “이 앱을 계속 써주셔서 정말 감사합니다. 앞으로도 잘 부탁드립니다” 같은 말을 적어서 러시아어로 돌렸어요. 돌린 문장을 다시 한국어로 역번역해서 이상하지 않은지 확인한 다음 답글을 달았습니다. 제가 러시아 유저와 나눈 첫 번째 대화입니다. 둘 다 기계 번역으로 대화한 거지만요.
근데 — 왜 러시아어를 지원하냐고요?
이 지점에서 한 번 솔직하게 말씀드리고 싶은 게 있습니다.
러시아어를 한 글자도 못 읽는 제가 왜 러시아어를 지원하고 있을까요? 아랍어도요. 힌디어, 우르두어, 벵골어, 태국어, 베트남어도 마찬가지예요. 1인 개발자가 22개 언어를 깔아두는 게 무리수라는 건 저도 압니다. 이번 같은 사건이 일어날 수밖에 없는 구조거든요.
근데 저는 인디 개발자니까요. 한국어랑 영어만 지원하면 타겟 시장이 좁아도 너무 좁아요. 반대로 22개 언어를 깔아두면 이론적으로는 세계 어디서든 접속해서 쓸 수 있는 앱이 됩니다. 마케팅 비용 0원짜리 앱한테는 이 "어디서든 쓸 수 있다"는 게 꽤 중요한 레버예요. 지난 주에 첫 유입이 생긴 국가가 몇 개 더 늘었거든요.

완벽하지 않은 걸 압니다. 아직 제가 못 읽는 언어의 번역본에 어떤 이슈가 남아있는지 다 모릅니다. 이번에 10개 패턴을 잡았지만 11번째 패턴이 또 있을 거예요. 그래도 AI 에이전트라는 도구가 손에 쥐어진 이상, 주어진 도구를 끝까지 써서 할 수 있는 데까지는 해보자는 쪽입니다. 23명 페르소나 세워서 검수 돌리고, 결과 보고 스킬 업그레이드하고, 다시 배포하고. 이번에 한 게 그 과정이었어요.
배운 것 — 데이터만 보면 추측밖에 못 합니다
이번 사건에서 진짜로 배운 건 따로 있습니다.
ru-ru D1 이탈 6명이라는 데이터는 "뭔가 문제가 있다"까지는 알려줬어요. 하지만 “왜” 는 끝내 알려주지 않았습니다. 제가 번역 품질을 의심한 건 데이터가 알려준 답이 아니라 저의 추측이었어요. 맞았을 수도 있고, 틀렸을 수도 있습니다. Бегун=Бегун 중복을 본 979fbfe8 유저가 진짜로 그 화면 때문에 나갔는지, 아니면 그냥 잊어버린 건지, 지금도 모르거든요.
데이터만 보고 “아마 이것 때문일 거야” 라고 추측해서 한 달 동안 에이전트 23명 동원하고 스킬 세 개 고치는 건 좀 가성비가 떨어집니다. 추측이 틀렸으면 이 한 달은 그냥 헛수고였을 거예요. 러시아 유저한테 “혹시 번역이 이상한가요?” 라고 한 번만 물어볼 수 있었다면, 하루 만에 답이 왔을 텐데 말이죠.
그래서 다음에 배포할 기능이 이거입니다.
다음 배포 — 유저한테 직접 물어볼 수 있는 채널
다음 버전에서 더보기 화면 상단에 “당신의 한마디가 필요해요” 라는 카드를 하나 추가하려고 합니다. 탭하면 모달이 올라오고, 자유 입력 텍스트 필드와 선택 이메일, 그리고 번역·버그·제안·칭찬 네 가지 카테고리 칩이 뜨는 간단한 폼이에요. 제출하면 Firestore의 feedback 컬렉션에 그대로 쌓입니다.
로그인 없어도 되고, 이메일도 선택 입력이에요. 그냥 유저가 "이 번역 이상해요"라고 한 문장 툭 던지고 앱으로 돌아갈 수 있으면 됩니다. 제가 Firebase 콘솔에서 읽고, 번역기로 번역해서, 필요하면 답을 남기는 식으로 운영할 생각이에요.


이게 있었으면 이번 한 달 중 적어도 절반은 아꼈을 거라고 생각합니다. 러시아 유저 중 한 명이라도 “이거 종교 앱 같은데요?” 라고 한 줄만 남겨줬으면 제가 거기서부터 팠을 거예요. 데이터만 보고 추측하는 대신요. 그리고 네이티브 스피커가 번역 오류를 지적해주기 시작하면, 기계 QA로는 절대 못 잡는 차원의 품질 개선이 열릴 거라고 봅니다. 어떤 문장이 "문법은 맞는데 어색하다"인지, 어떤 단어가 "직역은 맞는데 실제로 안 쓴다"인지는 결국 그 언어를 모국어로 쓰는 사람만 알거든요.
마치며
한 달 동안 있었던 일을 정리하고 나니 이런 느낌입니다. 한 명의 러시아 유저에게 긍정 리뷰 하나를 받기까지 에이전트 23명이 동원됐고, 스킬 세 개가 갈아엎어졌고, 배포가 한 번 거부당했고, 용어집이 아홉 배쯤 커졌습니다. 효율로 따지면 말이 안 되지만, 인디 개발자한테는 리뷰 하나가 꽤 큰 동력이 됩니다. 그래서 이만큼 한 걸 후회하진 않아요.
다음번에는 추측하지 않는 방법을 만들어둘게요. 유저가 직접 말해줄 수 있는 창을 하나 열어두는 것. 그게 이번 사건에서 제가 얻은 가장 실용적인 교훈이었습니다.
러시아 유저분, 다시 한 번 감사합니다. 답글 러시아어는 번역기가 도와줬지만 마음은 진짜였어요.
Related Documents
- [[retro-localize-skill-gap]]
- [[insight-i18n-cross-language-patterns]]
- [[translation-review-2026-04-14]]
- [[user-feedback-channel]]
- [[spec-user-feedback-channel]]


