통일과나눔 아카이브 8000만

전체메뉴

학술

  • HOME
  • 논문
  • 학술

북한 조선어 형태소 분석 사전 구축에 관한 연구

A Study on Building a Morphological Analysis Dictionary for North Korean Language

상세내역
저자 스가이 요시노리
소속 및 직함 긴키대학교
발행기관 한국사전학회
학술지 한국사전학
권호사항 44
수록페이지 범위 및 쪽수 33-63
발행 시기 2024년
키워드 #조선어   #형태소 분석   #분석 사전   #MeCab(메카부)   #로동신문   #조선어 교재   #스가이 요시노리
원문보기
상세내역
초록
본 연구는 북한의 조선어 문장을 자동 형태소 분석하기 위한 형태소 분석 사전을 구축하는 데 목적이 있다. 분석 엔진으로서는 오픈소스 소프트웨어인 “MeCab(메카부)”를 사용하였다. MeCab로 사전을 구축할 때 사전 항목이 등록된 ‘Seed 사전’과 기계 학습을 위한 ‘학습 데이터’가 필요한데 ‘Seed 사전’은 기존 한국어 형태소 분석 사전에 조선어 항목을 추가하여 약 21만 개 규모로 구성하였다. ‘학습 데이터’로는 먼저 한국어 형태소 분석 사전 구축 시에 사용한 데이터를 이용하였는데 󰡔로동신문󰡕 기사를 가지고 성능 평가를 실시한 결과 형태소 경계 판정에서 약 97.73%, 동음이의어 판정에서 약 92.11%의 성능을 보였다. ‘학습 데이터’를 다양하게 구성하여 성능 평가를 시도한 결과, 한국어 데이터에 󰡔로동신문󰡕과 북한의 유학생용 조선어 교재 데이터를 추가한 경우, 그리고 MeCab의 기능을 사용하여 한국어 데이터로 구축한 분석 사전을 조선어 데이터로 ‘재학습’한 경우, 성능을 향상시킬 수 있었다. 본 연구에서 구축한 분석 사전은 프로그래밍 언어를 통해서 사용할 수 있으며 또 분석 결과를 기존의 분석 도구에서 활용할 수도 있다는 점에서 매우 유용하다.
목차