대규모 특허 문서 번역을 위한 다국어 유도 문장 정렬 기반의 신경망 기계 번역 기술 개발

연구정보

  • 지원기관명 : 한국연구재단
  • 지원사업명 : 이공분야기초연구사업
  • 연구기관 : TEAMLAB
  • 과제명 : 대규모 특허 문서 번역을 위한 다국어 유도 문장 정렬 기반의 신경망 기계 번역 기술 개발
  • 연구비: 1억 5천만원

본 연구는 다국어 유도 문장 정렬 기법(guided sentence alignment)을 기반으로 하여 대규모 특허 문서 번역에 특화된 신경망 기계 번역(neural machine translation) 기술 개발을 목표로 한다.

연구목표

연구 필요성

  • 기계번역의 시장 중 가장 큰 시장은 기술 번역 시장으로 미국 기준 30%로 기대
  • 전문 영역임에도 불구하고 특화된 모델 및 데이터 Set이 부족
  • 특화된 NMT 모델을 확보하여 기술 번역 시장 선도 기술 확보가 필요

목적 및 내용

  • 목적 : 국제 출원 특허 문서(PCT 출원, 패밀리 특허)간의 구조적인 특징을 이용하여, 특허에 특화된 대규모 다국어 신경망 기계 번역 기술을 개발함을 목적으로 함
  • 내용 : 언어가 다른 문서간의 문장 또는 단어의 배치(sentence alignment)가 다른 것을 고려하여 기계 번역을 실시하는 유도 문장 정렬 기법을 Sequence2Sequence Network에 적용하여 신경망을 구성. 이를 통해, 신경망 기계 번역(NMT, neural machine translation)의 대표적인 평가 지표인 BLEU를 Baseline 대비 10% 증가하는 NMT 모델을 개발

연구 추진 전략

연구개발체계

연구 방법

  1. 특허 전문 DB 업체와 특허 데이터 공동 구축
    • 현재 공동 연구를 진행중 인 특허 전문 DB업체와 협의하여 번역용 특허 데이터 set을 수집할 계획
    • 기존 기업이 보유중인 특허 키워드 등 공유가능 범위 내에서 데이터를 협력할 계획이 있음
  2. 대용량 분산처리 시스템 사용 및 클라우드 서비스 활용
    • 본 연구팀은 기존 과제를 통해, 한국 특허 DB와 미국 특허 DB를 선행적으로 확보
    • 기확보된 한국 및 미국 특허는 자체 보유중인 대용량 분산 처리 시스템에 저장되어 있음
    • 실험데이터는 자체 서버에서 대용량 프로토타입 구축은 클라우드 서비스를 활용할 예정
  3. 특허 번역 competition 대회 참가를 통한 객관적 기술 상태 평가
    • 현재 J국 특허청에서는 특허 데이터 set을 공개하여 매년 특허 번역 기술에 대한 경진대회를 개최
    • 본 연구는 매년 해당 대회에 참가하여 연구진의 모델을 평가할 예정

연구결과의 중요성

  1. 학문적 중요성
    • 본 연구에서 Capsule network를 NMT에 적용하여 특허 문서 번역에 있어 문장 배치를 지원하는 NMT 모델을 제시
    • Capsule network은 ‘17년에 발표된 기법으로, CNN, RNN과 함께 새로운 딥러닝 기반 모델이 될 것으로 기대
    • 아직 Capsule network이 Text 영역에서 많이 연구되지 않았으며, NMT 분야에서 시도된 적이 없음
    • 본 연구를 통해 Capsule network기반의 Text 연구를 선점할 수 있는 기반 마련 가능
  2. 기술적 중요성
    • 본 연구는 1) 다국어 특허 데이터 Set 2) Capsule network를 사용한 NMT 3) Capsule network 기반 다국어 Embedding 생성 등 새로운 기술 분야의 중요한 baseline이 될 수 있는 모델들을 제시할 수 있음
  3. 경제적 중요성
    • 특허 분석 등 기술 문서 분야의 기계 번역 기술은 그 중요성에 비해 전문적으로 시도하고 있는 국내 기업이 존재하지 않음
    • 앞으로 NMT 분야에서 가장 많은 경제적 가치를 차지할 수 있는 분야는 기술 번역 분야이며 본 연구를 통해 해당 기술을 선점할 수 있음