본 연구는 북한의 조선어 문장을 자동 형태소 분석하기 위한 형태소 분석 사전을 구축하는 데 목적이 있다. 분석 엔진으로서는 오픈소스 소프트웨어인 “MeCab(메카부)”를 사용하였다. MeCab로 사전을 구축할 때 사전 항목이 등록된 ‘Seed 사전’과 기계 학습을 위한 ‘학습 데이터’가 필요한데 ‘Seed 사전’은 기존 한국어 형태소 분석 사전에 조선어 항목을 추가하여 약 21만 개 규모로 구성하였다. ‘학습 데이터’로는 먼저 한국어 형태소 분석 사전 구축 시에 사용한 데이터를 이용하였는데 로동신문 기사를 가지고 성능 평가를 실시한 결과 형태소 경계 판정에서 약 97.73%, 동음이의어 판정에서 약 92.11%의 성능을 보였다. ‘학습 데이터’를 다양하게 구성하여 성능 평가를 시도한 결과, 한국어 데이터에 로동신문과 북한의 유학생용 조선어 교재 데이터를 추가한 경우, 그리고 MeCab의 기능을 사용하여 한국어 데이터로 구축한 분석 사전을 조선어 데이터로 ‘재학습’한 경우, 성능을 향상시킬 수 있었다. 본 연구에서 구축한 분석 사전은 프로그래밍 언어를 통해서 사용할 수 있으며 또 분석 결과를 기존의 분석 도구에서 활용할 수도 있다는 점에서 매우 유용하다.
카카오톡
페이스북
블로그