<인공신경망 기계번역>

 
 
미래창조과학부가 지난 2월 14일 ICT기반 공공서비스 촉진사업의 과제로 “인공지능 기반 고전문헌 자동번역시스템 구축” 사업을 선정했습니다. 이 사업을 통해 한국고전번역원(이하 번역원)은 보다 효율적인 작업을 위한 고전 자동번역기를 개발하게 됩니다. 그 결과 인공신경망 기계번역(이하 NMT)이라는 신기술을 도입한다고 하는데요, 그 첫 대상은 ‘승정원일기’입니다.

승정원일기는 조선의 비서실인 승정원에서 작성한 업무일지입니다. 매일 왕에게 올라오는 상소의 원문, 왕과 신하 간의 모든 토론 내용, 날씨까지 기록했습니다. 조선 정치사의 심층 이해뿐만 아니라, 한반도 기후의 동향까지 분석할 수 있는 값진 사료입니다. 그 분량이 조선왕조실록의 5배인 2억4250만 자 분량이라고 하니 정말 어마어마합니다. 1994년에 시작된 번역은 아직 20% 정도밖에 완성되지 못했지만, 번역원은 이번 사업으로 2062년 완료 예정이었던 번역이 2035년으로 앞당겨질 것이라 전망했습니다.

번역기를 이용한 고전번역은 어떻게 이루어질까요? 먼저, 기존에 번역된 원문과 한글 번역물을 쌍으로 입력하여 시스템을 학습시킵니다. 그리고 충분히 학습된 시스템에 한문 원문을 입력시키면, 추후에 번역가들이 다듬을 초벌 번역물이 만들어진다고 합니다. 이밖에도 향후 이미지 인식을 이용해 원문을 자동 입력하는 방법도 검토 중에 있습니다. 충분한 데이터만 있다면 다양한 시대의 고전들을 모두 번역할 수 있게 된다고 합니다.

그렇다면 원문과 번역물을 같이 넣어주는 것만으로 번역이 어떻게 이루어지는 것일까요? 재밌는 것은 그 답을 알면서도 모른다는 것입니다. 기존의 통계적 기계번역(이하 SMT)이나 규칙기반 기계번역(이하 RBMT)은 그 방식이 명료합니다. 우선 내부 사전에 존재하는 의미 단위가 나올 때까지 문장을 잘게 쪼갭니다. 그리고 이렇게 쪼개진 단위들은 단어 사전에 의해 번역되고 다시 내부 규칙에 의해 재조합됩니다. 이때 RBMT는 언어학적으로 정의된 규칙 사전을 이용하고 SMT는 통계적인 방법으로 만들어진 사전을 이용합니다. 하지만 아쉽게도 두 방식은 잘게 쪼갠 단위들을 다시 조립해나가는 것이기에 간혹 문맥 파악을 힘들어하고 이로 인해 엉뚱한 결과를 내놓기도 합니다.

반면, NMT는 문장 자체를 번역에 사용합니다. 학습될 문장이 입력되면 번역기는 그것을 노트에 정리해나가듯 비슷한 것들끼리 내부 공간에 정리합니다. 하지만 노트와는 달리 번역기는 수많은 종류의 문장들을 저장해야하기 때문에 수백 내지 수천의 고차원 공간을 사용하게 됩니다. 이렇게 되면 문장을 번역할 때, 이와 비슷한 문장 그룹을 찾기만 하면 되기에 문장이 입력되자마자 문맥 파악이 쉽게 이루어집니다. 또한 각 의미 단위들의 번역은 주변 단위들의 영향을 받기 때문에 글의 통일성이 유지됩니다. 하지만 데이터가 저장되는 공간은 그 차원이 늘어날수록 크게 복잡해지는 성질이 있기 때문에, 학습이 이루어진 시스템의 내부를 분석하는 것은 매우 어렵다고 합니다.

▲ 세 가지 기계번역의 작동 방식. SMT와 RBMT(왼쪽)은 의미단위를 쪼갠 다음 다시 조합한다. 반면 NMT(오른쪽)는 이미 학습된 문장 자체를 번역에 직접 이용한다.

이는 인간의 신경망과 닮았습니다. 인간은 언어를 처음 배울 때 규칙과 단어를 따로 공부하지 않습니다. 다만 NMT와 마찬가지로 무수히 많은 문장들을 받아들이고 이를 축적해서 나름대로의 규칙을 만들어냅니다. 또, 사람들이 단어를 해석할 때 주변 문맥에서 그 뜻을 연상하듯, NMT는 수치계산을 통해 이를 수행합니다. 가장 기본적인 구조의 작동은 쉽게 설명할 수 있으면서 그것들이 모이면 금세 분석하기 어려워진다는 점도 서로 비슷합니다.

NMT는 먼 미래의 기술만이 아닙니다. 지난 10월 26일, 네이버는 자사가 개발한 번역기인 파파고에 NMT 기반의 한국어-영어 간 번역을 도입했다고 밝혔습니다. 구글 번역 또한 지난 11월 15일, 한국어를 포함한 9개 주요 언어에 대해 NMT를 적용했고, 그로 인해 번역 오류가 55~85% 이상 줄었다고 주장한 바 있습니다.

자동 번역 기술은 어디까지 발전하고, 그로 인해 어떤 일들이 일어나게 될까요? 우리는 영어 공부로부터 해방될 수 있을까요? 철학과 이중원 교수는 “데이터가 충분히 쌓이면 학술어를 넘어 일상어까지 번역할 수 있다”고 말했습니다. 그렇다면 인터넷 사용자들은 하나의 언어를 사용하는 것처럼, ‘각자의 모국어’만으로도 소통 가능할 것입니다. 언어의 벽이 무너진 곳은 어떤 곳일까요. 이 교수는 “긍정과 부정 모두 나타날 것” 이라며, “타문화에 대한 이해와 집단지성의 활성화가 일어나겠지만, 지나치게 많은 정보로 인한 피로, 가짜 정보들에 대한 판별의 어려움 등이 나타날 수 있다”고 말했습니다.

역사가 보여주듯 모든 기술은 양면성을 가지고, 그것을 사용하는 사람이 비로소 그 유용성을 결정합니다. 새로운 기술들이 쏟아지는 현대사회에서, 그것들을 현명하게 활용하기 위해서는 우리들 자신이 그에 걸맞은 사람이 돼야겠습니다.


글·시각자료_ 서지원 수습기자 sjw_101@uos.ac.kr

저작권자 © 서울시립대신문 무단전재 및 재배포 금지