아카이브8000만

통일과나눔 통일과미래

전체메뉴

통일과나눔 통일과미래

논문

학술

공유하기

HOME
논문
학술

북한 조선어 형태소 분석 사전 구축에 관한 연구

A Study on Building a Morphological Analysis Dictionary for North Korean Language

상세내역
저자	스가이 요시노리
소속 및 직함	긴키대학교
발행기관	한국사전학회
학술지	한국사전학
권호사항	44
수록페이지 범위 및 쪽수	33-63
발행 시기	2024년
키워드	#조선어 #형태소 분석 #분석 사전 #MeCab(메카부) #로동신문 #조선어 교재 #스가이 요시노리
	원문보기

상세내역
초록	본 연구는 북한의 조선어 문장을 자동 형태소 분석하기 위한 형태소 분석 사전을 구축하는 데 목적이 있다. 분석 엔진으로서는 오픈소스 소프트웨어인 “MeCab(메카부)”를 사용하였다. MeCab로 사전을 구축할 때 사전 항목이 등록된 ‘Seed 사전’과 기계 학습을 위한 ‘학습 데이터’가 필요한데 ‘Seed 사전’은 기존 한국어 형태소 분석 사전에 조선어 항목을 추가하여 약 21만 개 규모로 구성하였다. ‘학습 데이터’로는 먼저 한국어 형태소 분석 사전 구축 시에 사용한 데이터를 이용하였는데 󰡔로동신문󰡕 기사를 가지고 성능 평가를 실시한 결과 형태소 경계 판정에서 약 97.73%, 동음이의어 판정에서 약 92.11%의 성능을 보였다. ‘학습 데이터’를 다양하게 구성하여 성능 평가를 시도한 결과, 한국어 데이터에 󰡔로동신문󰡕과 북한의 유학생용 조선어 교재 데이터를 추가한 경우, 그리고 MeCab의 기능을 사용하여 한국어 데이터로 구축한 분석 사전을 조선어 데이터로 ‘재학습’한 경우, 성능을 향상시킬 수 있었다. 본 연구에서 구축한 분석 사전은 프로그래밍 언어를 통해서 사용할 수 있으며 또 분석 결과를 기존의 분석 도구에서 활용할 수도 있다는 점에서 매우 유용하다.
목차

이전글, 다음글
다음글	북한 핵·미사일 위협 상쇄를 위한 미사일 전력발전 방향
이전글	핵-비핵 전략무기(NNSW) 연계(Nexus): 북한의 핵전략과 한미동맹에의 함의

목록