noji-jlpt-data-set
데이터셋 · 오픈소스
noji 앱의 데이터 기반이 되는 데이터셋입니다. JLPT N5–N4 단어 744개를 대상으로, 각 단어마다 한국어 뜻과 레벨에 맞는 예문, 한국어 번역, 한글 발음을 담았습니다.
저는 일본어를 읽지 못하기 때문에 데이터를 직접 검수할 수 없었습니다. 그래서 모델이 틀렸을 때 이를 걸러내는 검증 파이프라인을 만드는 데 집중했습니다. 단어별 화이트리스트로 예문이 학습 범위를 벗어나지 않도록 제한하고, self-check 필드를 두어 다음 단계에서 다시 검증하도록 했습니다. 또한 프롬프트 변경이 실제로 품질을 개선했는지 확인할 수 있도록 10개 규모의 골드셋을 고정해 두었습니다.
데이터셋은 결과물이며, 그 결과를 뒷받침하는 검증 구조가 이 프로젝트의 핵심입니다.
통계
- 총 단어 수744개 (N5 313 · N4 431)
- 예문 커버리지743 / 744 · 99.9%
- 한글 발음744 / 744 · 100%
- 교차 참조JMdict
- 라이선스MIT
파이프라인
- 단어 선정JMdict 빈도 기반
- 예문 생성Claude Sonnet
- 레벨 검증단어별 화이트리스트
- 자체 검증Self-check 필드 재검증
- 품질 기준10개 골드셋 고정