이 논문에서는 현재까지 갖추어져 있는 북한어 말뭉치 형태 분석 지침과 북한어 형태 주석 말뭉치 구축 과정을 검토하고, 이들의 처리 방법에 대하여 논의하였다. 특히 대규모 말뭉치 분석자와 사용자의 입장에서 북한어 형태 분석 과정에서 발생하는 실제적인 문제들을 논의하였다. 2장에서는 문어 말뭉치 형태 분석 작업에서 발생하는 문제를 다루었다. 먼저, 남북한 사전에 등재되지 않은 단어를 분석할 때의 문제를 합성어를 중심으로 살폈다. 다음으로, 한글과 한글 외의 문자가 혼용되어 있는 어절을 처리하는 방식을 두 가지로 검토하였다. 3장에서는 구어 말뭉치 형태 분석 작업에서 발생하는 문제를 다루었다. 먼저, 재구조화에 의해 조사와 어미를 분리하기 어려운 경우 재구조화된 형태를 인정하되 조사나 어미가 분리되지 않으며 다른 통사 성분과 통사적 관계를 형성하지도 않는다면 분석하지 않을 것을 주장하였다. 다음으로, 담화 표지로 기능하는 형태들의 처리 방식에 대하여 논의하였다. 특히 활용형이 담화 표지로 기능할 때 어간과 어미를 분리하지 말아야 함을 주장하였다.
카카오톡
페이스북
블로그