본문 바로가기
칼럼

언어의 장벽을 허무는 인공지능 번역기

글쓴이 Lina Ha() 2017년 12월 08일

4차 산업혁명 시대를 맞아 그 핵심 기술 중 하나인 인공지능을 이용한 기기들이 연일 화제입니다. 작게는 스피커에서 크게는 에어컨, 자동차까지 종류도 다양합니다. 그중 최근 인공지능 기술을 품고 등장한 온라인 번역기에 대한 관심이 아주 높습니다. 문장을 이해하고 분석하는 능력이 웬만한 사람 못지않은데요. 이전과 어떻게 달라졌는지 자세히 살펴보도록 하겠습니다.


달라진 한국어 번역, 얼마나 정확할까

한때 온라인 번역기를 사용하며 답답함을 느꼈던 분들 많으시죠. 이제는 달라졌습니다. AI(Artificial Intelligence, 인공지능) 기술을 품은 번역기는 이전보다 훨씬 섬세하고 유연해졌습니다. 마이크로소프트(이하, MS)는 지난해 11월, 처음으로 인공지능 신경망(ANN, Artificial Neural Network) 기반 번역 서비스를 공개했습니다. 인공 신경망은 인간의 두뇌와 비슷한 방식으로 여러 가지 정보를 처리하는 *알고리즘을 말하는데요. 당시 MS는 영어, 독일어, 아랍어, 중국어를 포함한 10가지 언어를 지원했고, 이번에 한국어를 추가하면서 총 11가지 언어에 최대 10,000자까지 번역하게 됐습니다.

* 알고리즘(Algorithm): 어떤 문제를 해결하기 위한 절차, 방법, 명령어들의 집합

MS 번역기를 설명한 이미지 MS 공식 트위터MS의 신경망 기반 번역은 인공지능과 *머신러닝 기법을 통해 언어를 학습하고, 총 두 단계에 걸쳐 번역합니다. 단순히 문장 안에 있는 몇 개 단어의 뜻을 기계적으로 번역해 보여주는 게 아니라 문장 전체의 의미를 파악하고 가장 잘 맞는 뜻을 가진 단어를 골라 번역하는 것이죠. MS 블로그에 있는 예시를 보겠습니다.

*머신러닝(Machine Learning): 인공지능 연구 분야 중 하나. 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법.
‘개가 매우 행복해 보인다. 그 개는 강아지 6마리를 낳았다’라는 문장을 MS 신경망 번역을 이용해 프랑스어로 번역을 하면 ‘La chienne a l’air très heureuse. La chienne portait 6 chiots’라고 보여준다. 프랑스어에서는 똑같은 단어라도 모든 명사에 남성형과 여성형으로 성이 나뉘는데, 이 성별이 무엇이냐에 따라 뒤따라오는 동사 형태가 다르게 쓰인다. 불어로 ‘개’는 남성형 명사로 ‘Le chien’으로 표현하지만, 신경망 분석을 거쳐 이 문장에서는 암컷이라고 추론해 여성 형태의 ‘La chienne’로 번역했다.

MS 번역 서비스에 예시를 번역한 결과 MS 홈페이지예시와 같이 신경망 기반 번역은 문장 전체의 맥락을 파악해 사람이 말하는 것처럼 자연스러운 번역이 특징입니다. MS의 말처럼 실제 추론 번역이 가능한지 본 페이지에 적용해 보았습니다. 여성 형태의 ‘La chienne’가 아닌 남성형 명사인 ‘Le chien’로 번역됐는데요. 때에 따라 다를 수 있지만, 안타깝게도 아직 완벽하게 학습된 상태는 아닌듯합니다.



구글도 지난 11월, 한국어를 포함한 8개의 언어조합에 ‘구글 신경망 기계번역 기술 ‘GNMT(Google Neural Machine Translation)’를 적용한 번역기를 선보였습니다. 구체적으로 어떤 변화가 있는지 구글 한국 블로그에 실린 내용을 참고해 비교해봤습니다.

이전 방식의 번역과 새로운 방식의 번역을 비교한 사진 구글

(이전) The sovereignty of the Republic of Korea and the people, and all state authority shall emanate from the people.
(현재) The sovereignty of the Republic of Korea is in the people, and all power comes from the people.

헌법 제1조 2항인 ‘대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다’를 번역한 문장입니다. 왼쪽은 그동안 구글이 번역문으로 제시했던 문장이고, 오른쪽은 달라진 구글 번역 문장입니다. 이전 번역은 원문을 보지 않고는 뜻을 파악하기 어려웠지만, 현재는 좀 더 명확한 문장이 됐습니다. 추가로 성별을 특정하지 않는 대명사를 번역해 보았습니다.

사람의 편견이 반영돼 성별이 다르게 번역된 경우 구글 번역기

위와 같이 사람의 편견이 반영된 결과가 나옵니다. ‘미술 선생님’은 주어를 여성형으로 사용하고 ‘수학 선생님’은 남성형으로 사용하는 식인데요. 이밖에도 ‘국어, 화학 선생님’는 여성형으로, ‘음악, 영어’ 선생님은 남성형으로 번역됐습니다. 이는 자주 쓰는 훈련데이터를 기반으로 유추한 결과로 보여집니다. 신조어와 *야민정음은 부분 번역이 가능합니다. 아래 예시에서처럼 황당할 때 주로 쓰는 감탄사 ‘헐’을 입력하니 ‘OMG(Oh My God)’로 옳게 번역되었고, 세종대왕을 ‘세종머왕’으로 써도 문장 전체의 의미를 파악해 비교적 적절하게 번역됐습니다. 물론 모든 신조어가 제대로 번역되는 것은 아닙니다.

* 야민정음: 모양이 비슷한 글자로 표기하는 인터넷 용어

위 인터넷 용어의 번역이 바르게 된 경우 아래 오타를 제대로 번역한 경우 구글 번역기

이번에는 국내 번역 서비스인 네이버 파파고(Papago)를 살펴보겠습니다. 베타 서비스 출시 후, 약 1년 만에 인공신경망 번역 기술 ‘N2MT(Naver Neural Machine Translation)’가 적용된 정식 서비스를 선보였는데요. 이전과 크게 달라진 점은 해당 기술이 적용되는 글자 수 범위가 200자에서 최대 5,000자까지 확대된 것입니다. 장문을 잘라 쓸 수밖에 없었던 과거와 달리, 신문기사나 논문처럼 긴 문장도 한 번에 정확하고 자연스러운 번역 결과를 얻을 수 있게 되었죠. 같은 기술을 적용한 파파고와 구글, 어떤 차이점이 있는지 아래 사례를 보겠습니다.

좌 파파고 번역 PC 버전 네이버 파파고 우 구글 번역 PC 버전 구글 번역기

애국가의 첫 소절을 입력해 보았습니다. 파파고는 정확하게 번역을 했지만, 구글은 너무 축약돼 버렸습니다. 일상 용어는 어떨까요? 우리가 흔히 쓰는 줄임말인 ‘아점’을 입력하자 파파고는 제 뜻에 맞게 ‘Brunch’로 번역한 반면, 구글은 전혀 다른 뜻으로 인식했습니다. 장문 번역의 경우, 구글과 비교했을 때 기능 면에서는 큰 차이가 없지만, 문장에 따라 쓰인 단어가 조금씩 달랐고 음성 번역은 파파고의 정확도가 더 높았습니다. 이미지 텍스트 번역은 두 번역기 모두 미흡한 점이 많았습니다. 앞서 언급한 사례들은 한국어를 기반으로 한 문장과 단어이므로 파파고에 유리할 수 있다는 점을 참작해야 할 것입니다.

결론적으로, 구글 번역은 사용 빈도가 많은 언어일수록 정확도가 높으며, 여러 나라 언어로 번역이 필요할 때나 전문적인 내용을 번역할 때 좋습니다. 네이버 파파고는 속담 등 한국 관용어 번역과 한국어 기반의 일상적인 대화를 번역할 때 유용하다고 볼 수 있겠습니다.

번역 기능으로 활용도 높인 서비스

번역기는 아니지만, 번역 기능을 탑재해 생활 속에서 유용하게 쓰이는 서비스도 있습니다. 구글은 사용자의 편의를 높이기 위한 여행 후기 자동 번역 기능을 선보였습니다. 이제는 구글 지도와 검색 결과에 보이는 후기 모두 자신의 언어로 볼 수 있게 된 건데요. 번역물 바로 아래 원문도 표시되므로 혹시 있을 번역 오류도 피할 수 있습니다.

구글 여행 후기 번역 전과 후 구글 한국 공식 블로그

카메라를 활용한 번역 서비스도 있습니다. 구글 번역 앱 ‘워드 렌즈(Word Lens)’와 네이버 파파고의 ‘즉석카메라 번역 기능’은 카메라로 글자를 비추면 화면에 바로 번역된 형태의 이미지로 보여주는데요. 워드 렌즈는 언어 팩을 기반으로 동작하기 때문에 인터넷 등 통신시설이 잘 구축되지 않은 국가에서도 자유롭게 쓸 수 있고, 최근 한국어-영어 번역 기능이 추가되면서 한국은 세계에서 31번째로 구글 번역 앱 워드 렌즈를 쓸 수 있는 국가가 됐습니다.

좌 구글 워드 렌즈 활용 화면 구글 한국 공식 블로그 우 네이버 V Fansubs 화면  V Fansubs 홈페이지

네이버는 한류 열풍의 여세를 몰아 자발적인 집단 지성을 생성하기에 좋은 ‘팬심’을 활용했습니다. 브이 라이브 자막 서비스인 ‘V Fansubs’는 글로벌 팬이라면 특별한 절차나 언어 제한 없이 편리하게 번역 작업에 참여할 수 있는 기능인데요. 지난해 베타 버전 출시 후, 141개국에서 약 6만 명의 팬 번역가가 참여해 약 55개 언어로 자막이 제작되는 등 큰 호응을 얻었습니다. V Fansubs 자막은 일반 예문보다 표현이 자연스러워 네이버 어학 사전 예문과 파파고의 학습 데이터로 활용되는 것은 물론, 10대들의 신조어까지 잘 반영되어 있어 그 가치가 점점 높아지고 있습니다.


세계는 지금 기술을 통한 글로벌화를 추진하고 있습니다. 글로벌화의 기본은 ‘언어’지만, 부족한 언어를 채워주는 것은 ‘기술’이 되었습니다. 물론 아직 시험 단계에 있어 불완전한 부분도 있지만, 머지않아 일상 속에서 AI 기술을 자연스럽게 활용하는 때가 올 거라는 생각이 듭니다. ‘언어 장벽’이라는 말도 곧 옛말이 되겠고요. 나중에는 말함과 동시에 번역되어 들려지는 기능이 휴대폰에 탑재되지 않을까 상상하며 글을 마칩니다.