[학술논문] 북한 조선어 형태소 분석 사전 구축에 관한 연구
본 연구는 북한의 조선어 문장을 자동 형태소 분석하기 위한 형태소 분석 사전을 구축하는 데 목적이 있다. 분석 엔진으로서는 오픈소스 소프트웨어인 “
MeCab(
메카부)”를 사용하였다.
MeCab로 사전을 구축할 때 사전 항목이 등록된 ‘Seed 사전’과 기계 학습을 위한 ‘학습 데이터’가 필요한데 ‘Seed 사전’은 기존 한국어 형태소 분석 사전에 조선어 항목을 추가하여 약 21만 개 규모로 구성하였다. ‘학습 데이터’로는 먼저 한국어 형태소 분석 사전 구축 시에 사용한 데이터를 이용하였는데 로동신문 기사를 가지고 성능 평가를 실시한 결과 형태소 경계 판정에서 약 97.73%, 동음이의어 판정에서...