noji-jlpt-data-set

데이터셋 · 오픈소스

noji 앱의 데이터 기반이 되는 데이터셋입니다. JLPT N5–N4 단어 744개를 대상으로, 각 단어마다 한국어 뜻과 레벨에 맞는 예문, 한국어 번역, 한글 발음을 담았습니다.

저는 일본어를 읽지 못하기 때문에 데이터를 직접 검수할 수 없었습니다. 그래서 모델이 틀렸을 때 이를 걸러내는 검증 파이프라인을 만드는 데 집중했습니다. 단어별 화이트리스트로 예문이 학습 범위를 벗어나지 않도록 제한하고, self-check 필드를 두어 다음 단계에서 다시 검증하도록 했습니다. 또한 프롬프트 변경이 실제로 품질을 개선했는지 확인할 수 있도록 10개 규모의 골드셋을 고정해 두었습니다.

데이터셋은 결과물이며, 그 결과를 뒷받침하는 검증 구조가 이 프로젝트의 핵심입니다.

통계

  • 총 단어 수744개 (N5 313 · N4 431)
  • 예문 커버리지743 / 744 · 99.9%
  • 한글 발음744 / 744 · 100%
  • 교차 참조JMdict
  • 라이선스MIT

파이프라인

  • 단어 선정JMdict 빈도 기반
  • 예문 생성Claude Sonnet
  • 레벨 검증단어별 화이트리스트
  • 자체 검증Self-check 필드 재검증
  • 품질 기준10개 골드셋 고정
GitHub