250 likes | 528 Views
11/01/2002 — Class10. 컴퓨터 에이전트. Project Presentation Information Retrieval: 검색엔진의 개념/분류 검색이론-검색연산자 Article 토론. A. 검색엔진의 개념 / 분류. 1. 검색엔진 ( Search Engine) 이란? 정보의 중개역할을 하는 것으로 인터넷사이트에 대한 정보를 가지고 데이터베이스 Robot 이라고 불리는 소프트웨어가 링크가 걸린 웹페이지 다니며 각각의 웹페이지에 대한 정보를 수집하여 DB 화 작업수행
E N D
11/01/2002—Class10 컴퓨터 에이전트 Project Presentation Information Retrieval: 검색엔진의 개념/분류 검색이론-검색연산자 Article 토론 대전대학교정보통신공학부
A. 검색엔진의 개념 / 분류 1. 검색엔진 (Search Engine)이란? • 정보의 중개역할을 하는 것으로 인터넷사이트에 대한 정보를 가지고 데이터베이스 • Robot이라고 불리는 소프트웨어가 링크가 걸린 웹페이지 다니며 각각의 웹페이지에 대한 정보를 수집하여 DB화 작업수행 • 검색엔진(search Engine)/디렉토리 서비스(Directory Service 대전대학교정보통신공학부
검색엔진(search Engine)/디렉토리 서비스(Directory Service) 의 차이점 대전대학교정보통신공학부
2. 검색엔진의 분류 • 주제별 검색엔진 • 디렉토리 서비스, 주제별 카탈로그, 인터넷 카탈로그 • 대분류 -> 중분류 -> 소분류 작업 • 디렉토리 관리자가 색인화(Index) 작업 • 찾는 정보에 대한 지식 불 분명시 또는 특정분야 검색시 사용 • 정보에 대한 평가가 가능해 신뢰성이 높다 • 데이터수집, 확인, 분류 작업에 시간과 인력 요망 정보양 상대적으로 적고, 개인차로 검색이 어려울수도 • 복잡한 연산자나 3개이상의 키워드사용시 검색결과 않나 올 수도 대전대학교정보통신공학부
[주제별 검색엔진의 예] 대전대학교정보통신공학부
2. 검색엔진의 분류 (2) 키워드형 검색엔진 • 인덱스형, 단어별 검색, 로봇 에이전트형 • 로봇이 자동으로 정보수집하기에 상대적으로 정보량이 많다. • 키워드 조합으로 정밀한 연산식을 작성할때 유용 • 연산식 복잡, 다양하게 사용 가능 • 정보량은 많으나 검색한 웹페이지 신뢰도는 낮다. 대전대학교정보통신공학부
[키워드형 검색엔진의 예] 대전대학교정보통신공학부
[키워드형 검색엔진의 검색과 동작] Internet Robot/ Spider 등록기 색인기 인덱스 DB 검색기 검색어 입력 검색결과 조회 대전대학교정보통신공학부
2. 검색엔진의 분류 (3) 메타 검색엔진 • 일종의 지능형 검색엔진 • 여러가지 검색엔진을 한곳에 모아놓은 검색엔진 • 각검색엔진의 특성을 구분하여 검색을 진해하는 주제별 도는 키워드검색형 엔진을 따로 찾아다닐 필요 없음. • 한번의 검색어 입력으로 어러가지 검색엔진 결과 한눈에 볼수 있음. • 정밀한 검색식 입력이 불가능 • 정교한 검색보다는 자료를 광범위하게 찾고자 할때 유용 대전대학교정보통신공학부
[메타 검색엔진의 예] 대전대학교정보통신공학부
2. 검색엔진의 분류 (4) 모듬형검색엔진 • 여러가지 검색엔진의 검색어 입력상자를 한곳에 모아놓은 검색엔진 • 정교한 검색하기에는 무리 • 전문적인 분야의 정보검색에 유리 • 한 화면안에서 여러 검색엔진 이용가능 대전대학교정보통신공학부
[모듬형 검색엔진의 예] 대전대학교정보통신공학부
2. 검색엔진의 분류 (5) 유즈넷뉴스검색엔진 • 뉴스그룹에 있는 자료를 대상으로 하는 검색엔진 [모듬형 검색엔진의 예] 대전대학교정보통신공학부
2. 검색엔진의 분류 (6) 기타 전문 검색엔진 • 인명을 검색해주는 인명검색엔진은 거주지 주소, E-mail 주소를 알려줌 • 학술, 교육등 특정분야의 정보를 찾아주는 검색엔진이 있다. 대전대학교정보통신공학부
[인명 검색엔진의 예] 대전대학교정보통신공학부
[분야별 전문 검색엔진의 예] 대전대학교정보통신공학부
B. 검색이론--검색연산자 1. 연산자 검색 • DB 검색에 사용되는 연산자 • 부울연산자(Boolean Operator) • 인접연산자(Proximity Operator) • 일반적으로 연산자의 입력형태는 대소문자 구분하지 않음 • 불용어(stop word:전치사 대명사등 검색어로 의김가 없어 키워드로 사용할수 없는 단어)와 구분하기 위하여 대문자 요구하는 경우도 있음을 유의. 대전대학교정보통신공학부
연산자 조합시 우선순위 • 연산순서: NEAR(ADJ) > NOT >AND > OR • 왼쪽에서 오른쪽 순 • 괄호를 이용한 검색시 우선순위 • 연산순서: (괄호) > NEAR(ADJ) > NOT > AND >OR • 괄호는 모든 연산자보다 우선한다 대전대학교정보통신공학부
(1) 부울 연산자 • AND –교집합을 나타내는 연산자 - digital AND camera - Digital 과 Camera가 모두 포함된 문서만 검색 • OR - 합집합을 나타내는 연산자 - digital OR camera - Digital 이나 Camera가 포함된 문서 검색 Digital Camera AND Digital Camera OR 대전대학교정보통신공학부
NOT • 차집합 또는 여집합을 나타내는 논리연산자 - digital OR camera • Digital 은 포함되어 있으나 Camera는 제외된 문서 검색 AND = &, or = |, NOT = ! 와 같은 특수기호 사용가능 Digital Camera NOT 대전대학교정보통신공학부
(2) 인접연산자 • 검색어로 입력한 두개의 단어의 위치및 거리를 조건을 검색하는 것 • NEAR • 연산자 좌우에 위치한 두 검색어가 순서에 상관없이 서로 가깝게 위치한 문서를 검색하는 연산자 • AND 연산자의 경우보다 정밀한 검색 수행 가능 • ADJ • 순서를 고려하는 인접 연산자 • 다른 형태로 표현되기도 (ex.) Followed by 대전대학교정보통신공학부
2. 구(Phrase) 검색 • 두개이상의 단어가 순서대로 연속해서 나오는 문자열을 하나의 어구로 찾는것(ex.) 단체이름, 행사이름, 책이름 • 대부분 큰따옴표(““)로 두개이상의 단어를 감싸주어 어구로 설정 3. 절단(Truncation) 검색 • 절두, 와일드카드, 문자마스킹이라 부름 • 문자를 잘라버리는 것이 아닌 도스의 *와 같음 대전대학교정보통신공학부
4. 대소문자 구분 • 대소문자의 구분(case-sensitive) 기능은 특히 고유명사의 검색에 유용 • 검색옵션을 통해 기능 부여 • 대부분 검색엔진은 대소문자 기능제공하지 않음 • Altavista, 한미르사이트가 제공 5. 불용어(Stop word) • DB를 색인화할때 무시되는 문자열 • 한글 조사, 접속사, 어미etc. • 영어 동사, 조동사, 전치사, 대명사etc. 대전대학교정보통신공학부
6. 시소러스(Thesaurus) • 검색어간의 동의어, 반의어관계, 계층관계, 종속관계등에 대한 정보를 제공하는 용어사전 • 알파벳순의 통제 어휘집으로서 유의어, 동의어, 별도의 철자, 어순등이 수록되어 있음 • 심마니, go.com등은 단어확장 기능 제공, 유의어 동의등도 검색해 주는 기능임. (ex.) 사랑# 사모, 애정, 총애, 친애, love, affection등의 단어가 함께 검색됨 대전대학교정보통신공학부
Article 토론 • Reading Material 01: “이름 좋은 웹사이트가 성공한다 ” • 다운로드 속도의 기술적 요소 • 인식의 속도 / 물리적 속도 • Reading Material 02: "돈 버는 홈 페이지 만드는 법" • 브랜드의 중요성 • 인터넷 브랜딩 법칙 • 알림: • 다음주 프레젠테이션팀은 프리젠테이션에 필요한 ppt 자료를 저에게 보내주셔야 합니다 . (마감일: 11월 6일(수) 22:00까지) • 11월 8일 수업시작과 함께 모든 프로젝트팀은 특정 웹사이트 분석 보고서를 제출하셔야 합니다. • 수업 참여전 클래스홈페이지의 notice!란을 꼭 읽어주세요. Thanks. 대전대학교정보통신공학부