noji-jlpt-data-set

데이터셋 · 오픈소스

noji 앱의 데이터 기반이 되는 데이터셋입니다. JLPT N5–N4 단어 744개를 대상으로, 각 단어마다 한국어 뜻과 레벨에 맞는 예문, 한국어 번역, 한글 발음을 담았습니다.

저는 일본어를 읽지 못하기 때문에 데이터를 직접 검수할 수 없었습니다. 그래서 모델이 틀렸을 때 이를 걸러내는 검증 파이프라인을 만드는 데 집중했습니다. 단어별 화이트리스트로 예문이 학습 범위를 벗어나지 않도록 제한하고, self-check 필드를 두어 다음 단계에서 다시 검증하도록 했습니다. 또한 프롬프트 변경이 실제로 품질을 개선했는지 확인할 수 있도록 10개 규모의 골드셋을 고정해 두었습니다.