대규모 특허 문서 번역을 위한 다국어 유도 문장 정렬 기반의 신경망 기계 번역 기술 개발 과제 개시



TEAMLAB이 한국연구재단의 위탁 연구과제인 「대규모 특허 문서 번역을 위한 다국어 유도 문장 정렬 기반의 신경망 기계 번역 기술 개발」 과제를 개시하였습니다.

과제 정보는 아래와 같습니다.

  • 과제명: 대규모 특허 문서 번역을 위한 다국어 유도 문장 정렬 기반의 신경망 기계 번역 기술 개발
  • 참여기간: 2018.06 ~ 2021.05
  • 위탁기관: 한국연구재단
  • 연구기관: TEAMLAB
  • 연구비: 1억 5천만원

연구 개요는 아래와 같습니다.

연구개요

본 연구는 다국어 유도 문장 정렬 기법(guided sentence alignment)을 기반으로 하여 대규모 특허 문서 번역에 특화된 신경망 기계 번역(neural machine translation) 기술 개발을 목표로 한다.

연구목표

연구 추진 전략

연구개발체계

연구성과

  • 본 연구에서 Capsule network를 NMT에 적용하여 특허 문서 번역에 있어 문장 배치를 지원하는 NMT 모델을 제시
  • 본 연구를 통해 Capsule network기반의 Text 연구를 선점할 수 있는 기반 마련 가능
  • 본 연구는 1) 다국어 특허 데이터 Set 2) Capsule network를 사용한 NMT 3) Capsule network 기반 다국어 Embedding 생성 등 새로운 기술 분야의 중요한 baseline이 될 수 있는 모델들을 제시할 수 있음

활용계획 및 기대효과

  • Capsule network은 ‘17년에 발표된 기법으로, CNN, RNN과 함께 새로운 딥러닝 기반 모델이 될 것으로 기대
  • 아직 Capsule network이 Text 영역에서 많이 연구되지 않았으며, NMT 분야에서 시도된 적이 없음
  • 특허 분석 등 기술 문서 분야의 기계 번역 기술은 그 중요성에 비해 전문적으로 시도하고 있는 국내 기업이 존재하지 않음
  • 앞으로 NMT 분야에서 가장 많은 경제적 가치를 차지할 수 있는 분야는 기술 번역 분야이며 본 연구를 통해 해당 기술을 선점할 수 있음