1 / 25

컴퓨터 에이전트

11/01/2002 — Class10. 컴퓨터 에이전트. Project Presentation Information Retrieval: 검색엔진의 개념/분류 검색이론-검색연산자 Article 토론. A. 검색엔진의 개념 / 분류. 1. 검색엔진 ( Search Engine) 이란? 정보의 중개역할을 하는 것으로 인터넷사이트에 대한 정보를 가지고 데이터베이스 Robot 이라고 불리는 소프트웨어가 링크가 걸린 웹페이지 다니며 각각의 웹페이지에 대한 정보를 수집하여 DB 화 작업수행

leanne
Download Presentation

컴퓨터 에이전트

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 11/01/2002—Class10 컴퓨터 에이전트 Project Presentation Information Retrieval: 검색엔진의 개념/분류 검색이론-검색연산자 Article 토론 대전대학교정보통신공학부

  2. A. 검색엔진의 개념 / 분류 1. 검색엔진 (Search Engine)이란? • 정보의 중개역할을 하는 것으로 인터넷사이트에 대한 정보를 가지고 데이터베이스 • Robot이라고 불리는 소프트웨어가 링크가 걸린 웹페이지 다니며 각각의 웹페이지에 대한 정보를 수집하여 DB화 작업수행 • 검색엔진(search Engine)/디렉토리 서비스(Directory Service 대전대학교정보통신공학부

  3. 검색엔진(search Engine)/디렉토리 서비스(Directory Service) 의 차이점 대전대학교정보통신공학부

  4. 2. 검색엔진의 분류 • 주제별 검색엔진 • 디렉토리 서비스, 주제별 카탈로그, 인터넷 카탈로그 • 대분류 -> 중분류 -> 소분류 작업 • 디렉토리 관리자가 색인화(Index) 작업 • 찾는 정보에 대한 지식 불 분명시 또는 특정분야 검색시 사용 • 정보에 대한 평가가 가능해 신뢰성이 높다 • 데이터수집, 확인, 분류 작업에 시간과 인력 요망  정보양 상대적으로 적고, 개인차로 검색이 어려울수도 • 복잡한 연산자나 3개이상의 키워드사용시 검색결과 않나 올 수도 대전대학교정보통신공학부

  5. [주제별 검색엔진의 예] 대전대학교정보통신공학부

  6. 2. 검색엔진의 분류 (2) 키워드형 검색엔진 • 인덱스형, 단어별 검색, 로봇 에이전트형 • 로봇이 자동으로 정보수집하기에 상대적으로 정보량이 많다. • 키워드 조합으로 정밀한 연산식을 작성할때 유용 • 연산식 복잡, 다양하게 사용 가능 • 정보량은 많으나 검색한 웹페이지 신뢰도는 낮다. 대전대학교정보통신공학부

  7. [키워드형 검색엔진의 예] 대전대학교정보통신공학부

  8. [키워드형 검색엔진의 검색과 동작] Internet Robot/ Spider 등록기 색인기 인덱스 DB 검색기 검색어 입력 검색결과 조회 대전대학교정보통신공학부

  9. 2. 검색엔진의 분류 (3) 메타 검색엔진 • 일종의 지능형 검색엔진 • 여러가지 검색엔진을 한곳에 모아놓은 검색엔진 • 각검색엔진의 특성을 구분하여 검색을 진해하는 주제별 도는 키워드검색형 엔진을 따로 찾아다닐 필요 없음. • 한번의 검색어 입력으로 어러가지 검색엔진 결과 한눈에 볼수 있음. • 정밀한 검색식 입력이 불가능 • 정교한 검색보다는 자료를 광범위하게 찾고자 할때 유용 대전대학교정보통신공학부

  10. [메타 검색엔진의 예] 대전대학교정보통신공학부

  11. 2. 검색엔진의 분류 (4) 모듬형검색엔진 • 여러가지 검색엔진의 검색어 입력상자를 한곳에 모아놓은 검색엔진 • 정교한 검색하기에는 무리 • 전문적인 분야의 정보검색에 유리 • 한 화면안에서 여러 검색엔진 이용가능 대전대학교정보통신공학부

  12. [모듬형 검색엔진의 예] 대전대학교정보통신공학부

  13. 2. 검색엔진의 분류 (5) 유즈넷뉴스검색엔진 • 뉴스그룹에 있는 자료를 대상으로 하는 검색엔진 [모듬형 검색엔진의 예] 대전대학교정보통신공학부

  14. 2. 검색엔진의 분류 (6) 기타 전문 검색엔진 • 인명을 검색해주는 인명검색엔진은 거주지 주소, E-mail 주소를 알려줌 • 학술, 교육등 특정분야의 정보를 찾아주는 검색엔진이 있다. 대전대학교정보통신공학부

  15. [인명 검색엔진의 예] 대전대학교정보통신공학부

  16. [분야별 전문 검색엔진의 예] 대전대학교정보통신공학부

  17. B. 검색이론--검색연산자 1. 연산자 검색 • DB 검색에 사용되는 연산자 • 부울연산자(Boolean Operator) • 인접연산자(Proximity Operator) • 일반적으로 연산자의 입력형태는 대소문자 구분하지 않음 • 불용어(stop word:전치사 대명사등 검색어로 의김가 없어 키워드로 사용할수 없는 단어)와 구분하기 위하여 대문자 요구하는 경우도 있음을 유의. 대전대학교정보통신공학부

  18. 연산자 조합시 우선순위 • 연산순서: NEAR(ADJ) > NOT >AND > OR • 왼쪽에서 오른쪽 순 • 괄호를 이용한 검색시 우선순위 • 연산순서: (괄호) > NEAR(ADJ) > NOT > AND >OR • 괄호는 모든 연산자보다 우선한다 대전대학교정보통신공학부

  19. (1) 부울 연산자 • AND –교집합을 나타내는 연산자 - digital AND camera - Digital 과 Camera가 모두 포함된 문서만 검색 • OR - 합집합을 나타내는 연산자 - digital OR camera - Digital 이나 Camera가 포함된 문서 검색 Digital Camera AND Digital Camera OR 대전대학교정보통신공학부

  20. NOT • 차집합 또는 여집합을 나타내는 논리연산자 - digital OR camera • Digital 은 포함되어 있으나 Camera는 제외된 문서 검색 AND = &, or = |, NOT = ! 와 같은 특수기호 사용가능 Digital Camera NOT 대전대학교정보통신공학부

  21. (2) 인접연산자 • 검색어로 입력한 두개의 단어의 위치및 거리를 조건을 검색하는 것 • NEAR • 연산자 좌우에 위치한 두 검색어가 순서에 상관없이 서로 가깝게 위치한 문서를 검색하는 연산자 • AND 연산자의 경우보다 정밀한 검색 수행 가능 • ADJ • 순서를 고려하는 인접 연산자 • 다른 형태로 표현되기도 (ex.) Followed by 대전대학교정보통신공학부

  22. 2. 구(Phrase) 검색 • 두개이상의 단어가 순서대로 연속해서 나오는 문자열을 하나의 어구로 찾는것(ex.) 단체이름, 행사이름, 책이름 • 대부분 큰따옴표(““)로 두개이상의 단어를 감싸주어 어구로 설정 3. 절단(Truncation) 검색 • 절두, 와일드카드, 문자마스킹이라 부름 • 문자를 잘라버리는 것이 아닌 도스의 *와 같음 대전대학교정보통신공학부

  23. 4. 대소문자 구분 • 대소문자의 구분(case-sensitive) 기능은 특히 고유명사의 검색에 유용 • 검색옵션을 통해 기능 부여 • 대부분 검색엔진은 대소문자 기능제공하지 않음 • Altavista, 한미르사이트가 제공 5. 불용어(Stop word) • DB를 색인화할때 무시되는 문자열 • 한글  조사, 접속사, 어미etc. • 영어  동사, 조동사, 전치사, 대명사etc. 대전대학교정보통신공학부

  24. 6. 시소러스(Thesaurus) • 검색어간의 동의어, 반의어관계, 계층관계, 종속관계등에 대한 정보를 제공하는 용어사전 • 알파벳순의 통제 어휘집으로서 유의어, 동의어, 별도의 철자, 어순등이 수록되어 있음 • 심마니, go.com등은 단어확장 기능 제공, 유의어 동의등도 검색해 주는 기능임. (ex.) 사랑#  사모, 애정, 총애, 친애, love, affection등의 단어가 함께 검색됨 대전대학교정보통신공학부

  25. Article 토론 • Reading Material 01: “이름 좋은 웹사이트가 성공한다 ” • 다운로드 속도의 기술적 요소 • 인식의 속도 / 물리적 속도 • Reading Material 02: "돈 버는 홈 페이지 만드는 법" • 브랜드의 중요성 • 인터넷 브랜딩 법칙 • 알림: • 다음주 프레젠테이션팀은 프리젠테이션에 필요한 ppt 자료를 저에게 보내주셔야 합니다 . (마감일: 11월 6일(수) 22:00까지) • 11월 8일 수업시작과 함께 모든 프로젝트팀은 특정 웹사이트 분석 보고서를 제출하셔야 합니다. • 수업 참여전 클래스홈페이지의 notice!란을 꼭 읽어주세요. Thanks. 대전대학교정보통신공학부

More Related