뉴스 데이터는 장기적 분석이 가능하고 토픽모델링을 통해 분석된 주제는 추세를 파악하는데사용될 수 있다. 기존 북한 관련 뉴스 데이터를 분석한 연구들은 비교적 단기간의 활동 분석과 정량적 접근과 LDA 같이 과거부터 많이 사용된 기법이 주로 활용되었다. 본 연구는 북한 김정은 집권 시기 핵·미사일 관련 뉴스 데이터 156,884건의 중요 키워드를 분석하고 토픽모델링을 실시하였다. 키워드 분석은 정량적 분석과 TF-IDF 기법을 활용하였다. 토픽 모델링은 LDA 모델을 활용하고 연도별 토픽의 트렌드 변화를 분석하였다. 또한 자연어처리 모델 기반 BERTopic을 통해 토픽모델링을 실시하고 LDA와 토픽 분석의 차이점을 비교했다. 이를 통해 뉴스 데이터에 담긴 주제를 파악하고 두 모델의 특성을 비교할 수 있었다. 또한 김정은 집권 이후 핵·미사일 관련 위협 활동의 추세가 지속적으로 증가하는 것을 확인하였다.
카카오톡
페이스북
블로그