다국어 문서에서의 코드판별시스템
This presentation is the property of its rightful owner.
Sponsored Links
1 / 7

다국어 문서에서의 코드판별시스템 PowerPoint PPT Presentation


  • 110 Views
  • Uploaded on
  • Presentation posted in: General

다국어 문서에서의 코드판별시스템. 박준식 , 마유승. 검색. 인공지능. 한국어 문서. 검색. AI. 영어 문서. 다국어 정보검색. 현 정보검색 기술의 현황 사용자가 입력한 질의언어에 국한된 검색이 대부분 ( 한국어 질의 )  ( 한국어 문서 ) ( 영어 질의 )  ( 영어문서 ) … … 다국어 정보시스템에 대한 관심 증대. 한국어 문서. 영어 문서. … …. … …. 검색. 인공지능. 중국어 문서. 다국어 정보검색 (Cont’d). 다국어 정보검색

Download Presentation

다국어 문서에서의 코드판별시스템

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5734674

다국어 문서에서의 코드판별시스템

박준식, 마유승


5734674

검색

인공지능

한국어 문서

검색

AI

영어 문서

다국어 정보검색

  • 현 정보검색 기술의 현황

    • 사용자가 입력한 질의언어에 국한된 검색이 대부분

      (한국어 질의)  (한국어 문서)

      (영어 질의 )  (영어문서)

      … …

    • 다국어 정보시스템에 대한 관심 증대


Cont d

한국어 문서

영어 문서

… …

… …

검색

인공지능

중국어 문서

다국어 정보검색 (Cont’d)

  • 다국어 정보검색

    • 모국어 외에 타국어로 작성된 자료 들도 검색

      (한국어 질의) (한국어 문서)

       (영어 문서)

       (일어 문서)

       … …


5734674

KSC

인공지능

JIS

昔因走監

GB

牢傍瘤雌

BIG5

檣奢雖棘

한국어

검색엔진

한국어 출력

디스플레이

질의어 번역

영어

검색엔진

영어 출력

… …

… …

… …

… …

검색

인공지능

중국어

검색엔진

중국어출력

다국어 문서 디스플레이 문제

  • 고려사항

    • 질의어 번역문제

    • 검색 문서의 디스플레이 문제


5734674

프로젝트 개요

  • 다국어 정보검색 결과로 받아온 외국어 문서를 인공지능 기법을 이용하여 그 나라에 맞는 언어형태로 보여주는 시스템

    • 대상 언어: 영어, 한국어, 중국어, 일본어

한국어

검색엔진

한국어 출력

디스플레이

질의어 번역

영어

검색엔진

영어 출력

… …

… …

… …

… …

검색

인공지능

중국어

검색엔진

중국어출력


5734674

프로젝트 접근방식

  • 코드 출현패턴과 언어간의 관계

    • 각 나라 언어문서에서의 코드출현 패턴분석

      • 통계적 방법 : unigram-model

      • Decision Tree 이용 : 코드에 가중치 부여

      • 기타 방법 적용 고려

    • 조사나 종결어미 등의 분포 특성 등 휴리스틱 추가

  • 대상 언어 및 코딩 시스템

    • 한국어 (EUC-KR, ISO-2022-KR)

    • 일본어 (EUC-JIS, SJIS)

    • 중국어 (GB, BIG5)

    • 영어


5734674

접근방식의 적용예

C0CE B0F8 C1F6 B4C9(인공지능)

ISO-2022-* ?

YES

NO

language identificationmodule

language identificationwith esc-seq.

추가 휴리스틱 적용

EUC-KR


  • Login