slide1
Download
Skip this Video
Download Presentation
다국어 문서에서의 코드판별시스템

Loading in 2 Seconds...

play fullscreen
1 / 7

다국어 문서에서의 코드판별시스템 - PowerPoint PPT Presentation


  • 165 Views
  • Uploaded on

다국어 문서에서의 코드판별시스템. 박준식 , 마유승. 검색. 인공지능. 한국어 문서. 검색. AI. 영어 문서. 다국어 정보검색. 현 정보검색 기술의 현황 사용자가 입력한 질의언어에 국한된 검색이 대부분 ( 한국어 질의 )  ( 한국어 문서 ) ( 영어 질의 )  ( 영어문서 ) … … 다국어 정보시스템에 대한 관심 증대. 한국어 문서. 영어 문서. … …. … …. 검색. 인공지능. 중국어 문서. 다국어 정보검색 (Cont’d). 다국어 정보검색

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '다국어 문서에서의 코드판별시스템' - asabi


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2
검색

인공지능

한국어 문서

검색

AI

영어 문서

다국어 정보검색
  • 현 정보검색 기술의 현황
    • 사용자가 입력한 질의언어에 국한된 검색이 대부분

(한국어 질의)  (한국어 문서)

(영어 질의 )  (영어문서)

… …

    • 다국어 정보시스템에 대한 관심 증대
cont d
한국어 문서

영어 문서

… …

… …

검색

인공지능

중국어 문서

다국어 정보검색 (Cont’d)
  • 다국어 정보검색
    • 모국어 외에 타국어로 작성된 자료 들도 검색

(한국어 질의)  (한국어 문서)

 (영어 문서)

 (일어 문서)

 … …

slide4
KSC

인공지능

JIS

昔因走監

GB

牢傍瘤雌

BIG5

檣奢雖棘

한국어

검색엔진

한국어 출력

디스플레이

질의어 번역

영어

검색엔진

영어 출력

… …

… …

… …

… …

검색

인공지능

중국어

검색엔진

중국어출력

다국어 문서 디스플레이 문제
  • 고려사항
    • 질의어 번역문제
    • 검색 문서의 디스플레이 문제
slide5
프로젝트 개요
  • 다국어 정보검색 결과로 받아온 외국어 문서를 인공지능 기법을 이용하여 그 나라에 맞는 언어형태로 보여주는 시스템
    • 대상 언어: 영어, 한국어, 중국어, 일본어

한국어

검색엔진

한국어 출력

디스플레이

질의어 번역

영어

검색엔진

영어 출력

… …

… …

… …

… …

검색

인공지능

중국어

검색엔진

중국어출력

slide6
프로젝트 접근방식
  • 코드 출현패턴과 언어간의 관계
    • 각 나라 언어문서에서의 코드출현 패턴분석
      • 통계적 방법 : unigram-model
      • Decision Tree 이용 : 코드에 가중치 부여
      • 기타 방법 적용 고려
    • 조사나 종결어미 등의 분포 특성 등 휴리스틱 추가
  • 대상 언어 및 코딩 시스템
    • 한국어 (EUC-KR, ISO-2022-KR)
    • 일본어 (EUC-JIS, SJIS)
    • 중국어 (GB, BIG5)
    • 영어
slide7
접근방식의 적용예

C0CE B0F8 C1F6 B4C9(인공지능)

ISO-2022-* ?

YES

NO

language identificationmodule

language identificationwith esc-seq.

추가 휴리스틱 적용

EUC-KR

ad