การจัดเก็บและค้นคืนสารสนเทศ
Download
1 / 56

การจัดเก็บและค้นคืนสารสนเทศ - PowerPoint PPT Presentation


  • 205 Views
  • Updated On :

การจัดเก็บและค้นคืนสารสนเทศ. INFORMATION STORAGE and RETRIEVAL : ISR. review การค้นหาสารสนเทศบนอินเทอร์เน็ต. เป็นคำที่ใช้เรียกเครื่องมือหรือระบบที่ช่วยค้นสารสนเทศจากเครือข่ายเว็บไซต์ที่อยู่บนอินเทอร์เน็ต ขั้นตอนการทำงานหลักๆ ประกอบด้วย 3 ขั้นตอน คือ. เสิร์ชเอนจิ้น (Search Engines).

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'การจัดเก็บและค้นคืนสารสนเทศ' - gilon


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

การจัดเก็บและค้นคืนสารสนเทศการจัดเก็บและค้นคืนสารสนเทศ

INFORMATION STORAGE and RETRIEVAL : ISR


Review

reviewการจัดเก็บและค้นคืนสารสนเทศการค้นหาสารสนเทศบนอินเทอร์เน็ต


Search engines

เป็นคำที่ใช้เรียกเครื่องมือหรือระบบที่ช่วยค้นสารสนเทศจากเครือข่ายเว็บไซต์ที่อยู่บนอินเทอร์เน็ต

ขั้นตอนการทำงานหลักๆ ประกอบด้วย 3 ขั้นตอน คือ

เสิร์ชเอนจิ้น(Search Engines)

1. ค้นหา (Crawling)

2. จัดทำดัชนี (Indexing)

3. ให้บริการค้นคืน (Retrieval)


Search engines1

1. Free text Search Engines

2. Index or Directory Search Engines

3. Multi or Meta Search Engines

4. Natural language Search Engines

5. Resource or Site Specific Search Engines

ประเภทของ Search Engines


Search engines2

มีเกณฑ์ในการพิจารณดังนี้มีเกณฑ์ในการพิจารณดังนี้

1. ความทันสมัยของฐานข้อมูล (Currency)

2. คุณลักษณะด้านการติดต่อกับผู้ใช้ในการค้นข้อมูล

(Search Interface)

3. คุณลักษณะด้านการค้นหา (Search Features)

4. คุณลักษณะด้านการแสดงผลการค้น (Results List

Display Features)

5. คุณลักษณะพิเศษอื่นๆ (Other Features of Note)

การเปรียบเทียบ Search Engines


การค้นหาข้ามฐานข้อมูลการค้นหาข้ามฐานข้อมูล


แบ่งตามจุดมุ่งหมายในการจัดทำ สามารถแบ่งได้ดังนี้

1. ฐานข้อมูลต้นแหล่ง (Source Database)

จะให้ข้อมูลฉบับเต็ม(Full Text) แก่ผู้ใช้ ฐานข้อมูลประเภทนี้ได้แก่

ประเภทของฐานข้อมูล


1. สามารถแบ่งได้ดังนี้ ฐานข้อมูลต้นแหล่ง (Source Database)

1.1 ฐานข้อมูลข้อเท็จจริง(Factual Database) จะมีข้อมูลที่ไม่ใช่ตัวเลขที่ใช้ในการคำนวณหรือนำไปใช้การคิดวิเคราะห์ เช่น นามานุกรมของหน่วยงานโครงการวิจัยเป็นต้น

1.2 ฐานข้อมูลเนื้อหาเต็ม (Full-Text Database) จะให้เนื้อหาทั้งหมดของเอกสาร เช่น บทความวารสารฉบับเต็ม รายงานการวิจัยฉบับเต็ม เป็นต้น

1.3 ฐานข้อมูลตัวเลข (Numeric Database) ให้ข้อมูลสถิติต่างๆ เช่น สถิติการค้าการเงิน ราคาหุ้น

ประเภทของฐานข้อมูล


2. สามารถแบ่งได้ดังนี้ ฐานข้อมูลอ้างอิง (Reference Database)

เป็นฐานข้อมูลที่ไม่มีเนื้อหาฉบับเต็ม(full-text) แต่จะชี้แนะไปยังแหล่งที่สามารถให้ข้อมูลที่ต้องการได้ ฐานข้อมูลประเภทนี้ได้แก่ ฐานข้อมูลบรรณานุกรรม(Bibliographic Database)

ประเภทของฐานข้อมูล


ทำไมต้องค้นหาข้ามฐานข้อมูลทำไมต้องค้นหาข้ามฐานข้อมูล ?


ปัจจุบันฐานข้อมูลมีเป็นจำนวนมากปัจจุบันฐานข้อมูลมีเป็นจำนวนมาก


ปัญหาจากการกระจายตัวของฐานข้อมูล ทำให้เกิดปัญหาต่างๆ ดังนี้

- ต้องจดจำที่อยู่ของฐานข้อมูล เช่น URL นอกจากนี้ต้องจดจำประเภทของฐานข้อมูลเหล่านั้นด้วย

- ต้องใช้ระยะเวลานานสำหรับการค้นหาในแต่ละฐานข้อมูล

- ต้องเรียนรู้การใช้งานส่วนติดต่อผู้ใช้ (User Interface:UI) ของแต่ฐานข้อมูล เนื่องจากฐานข้อมูลแต่ละประเภทมีส่วนหน้าจอสำหรับติดต่อผู้ใช้ ที่แตกต่างกัน ทำให้ผู้ใช้ต้องเรียนรู้การใช้งานของแต่ละฐานข้อมูล

ปัญหาที่พบจากการเพิ่มจำนวนของฐานข้อมูล


ปัญหาที่พบจากการเพิ่มจำนวนของฐานข้อมูลปัญหาที่พบจากการเพิ่มจำนวนของฐานข้อมูล


สามารถแก้ปัญหาด้วยวิธีการทำงานแบบปฎิบัติร่วมกันสามารถแก้ปัญหาด้วยวิธีการทำงานแบบปฎิบัติร่วมกัน (Interoperability) เพื่อให้ ระบบที่มีความแตกต่างกันทั้งในด้านของฮาร์ดแวร์ (Hardware) ซอฟต์แวร์ประยุกต์(Application Software) และระบบจัดการฐานข้อมูล (Database Management System:DBMS ) สามาถแลกเปลี่ยนข้อมูลหรือติดต่อสื่อสารกันได้

วิธีการแก้ปัญหา


การสื่อสารเพื่อการปฏิบัติร่วมกันใช้หลักการสื่อสาร คือ

1. ร้องขอ (Request)ทำการร้องขอเพื่อให้ระบบเป้าหมายปฏิบัตตามตามที่ร้องขอ

2. ตอบกลับ (Response)เมื่อระบบเป้าหมายปฏิบัตตามที่ร้อง จะตอบกลับเป็นผลลัพธ์ตามที่ร้องขอมา

หลักการสื่อสารข้อมูล


ฐานข้อมูล คือA

ฐานข้อมูล B

ขั้นตอนการสื่อสารเพื่อร้องขอ


ฐานข้อมูล คือA

ฐานข้อมูล B

ขั้นตอนการตรวจสอบการร้องขอ


ฐานข้อมูล คือA

ฐานข้อมูล B

ขั้นตอนการปฎิบัติตามที่ร้องขอ

ปฏิบัติตาม

ที่ร้องขอ


ฐานข้อมูล คือA

ฐานข้อมูล B

ขั้นตอนการตอบกลับผลลัพธ์

ข้อมูล


Interoperability

การทำงานแบบปฎิบัติร่วมกันเพื่อให้สามาถสืบค้นข้อมูลระหว่างระบบที่มีความแตกต่างกันสามารถกระทำได้ 2 วิธี คือ

1. Meta search(Federated search)

2. Harvesting and Indexing

*โดยขั้นตอนการทำงานทั้ง 2 วิธีจะถูกกำหนดโดยโปรโตคอล (Protocol)

การทำงานแบบปฎิบัติร่วมกัน (Interoperability)


Meta search federated search

คือ การสืบค้นผ่านหน้าจอสืบค้นเพียงหน้าจอเดียวที่มีความสามารถสืบค้นข้ามไปยังทุกๆ ฐานข้อมูลเป้าหมายในเวลาเดียวกัน

ผลลัพธ์จากการสืบค้นจากทุกๆ แหล่งข้อมูล จะเรียง ลำดับตามที่ต้องการ ถือว่าเป็นเทคนิคการค้นหาที่อำนวยความสะดวกและมีประสิทธิภาพให้แก่ผู้สืบค้น

Meta search(Federated search)


Meta search federated search1

Meta search การสืบค้นผ่านหน้าจอสืบค้นเพียงหน้าจอเดียวที่มีความสามารถสืบค้นข้ามไปยังทุกๆ ฐานข้อมูลเป้าหมายในเวลาเดียวกัน (Federated search)


Meta search federated search2

ข้อดี การสืบค้นผ่านหน้าจอสืบค้นเพียงหน้าจอเดียวที่มีความสามารถสืบค้นข้ามไปยังทุกๆ ฐานข้อมูลเป้าหมายในเวลาเดียวกัน

ผลลัพธ์จากการสืบค้นจากทุกๆ แหล่งข้อมูล จะเรียง ลำดับตามที่ต้องการ ถือว่าเป็นเทคนิคการค้นหาที่อำนวยความสะดวกและมีประสิทธิภาพให้แก่ผู้สืบค้น

Meta search(Federated search)


Meta search federated search3

ข้อเสีย การสืบค้นผ่านหน้าจอสืบค้นเพียงหน้าจอเดียวที่มีความสามารถสืบค้นข้ามไปยังทุกๆ ฐานข้อมูลเป้าหมายในเวลาเดียวกัน

- ความล่าช้า ซึ่งขึ้นอยู่กับหลายปัจจัย เช่น เมื่อส่งคำค้นจากระบบหนึ่งไปยังอีกระบบหนึ่งต้องอาศัยเวลาในการเปลี่ยนคำค้นให้อยู่ในรูปที่ระบบฐานข้อมูลนั้นๆ เข้าใจได้ และระยะเวลาในการตอบกลับข้อมูลจากการค้นหาขึ้นอยู่กับฐานข้อมูลภายนอก

- ข้อจำกัดในด้านจำนวนของฐานข้อมูล เนื่องจากหากมีฐานข้อมูลเป็นจำนวนมากกระจายตัวกันอยู่ จะทำให้การค้นหาใช้เวลานาน

- การพัฒนาทำได้ยาก มีความซับซ้อน

Meta search(Federated search)


Meta search federated search4

การทำงานให้สามารถค้นหาแบบ Meta Search ได้ต้องอาศัยการสื่อสารโดยใช้โปรโตคอล ซึ่งโปรโตคอลที่ใช้ค้นหาแบบ Meta Search ได้แก่ โปรโตคอล Z39.50 SRU(Search/Retrieve via URL)และอื่นๆ

Meta search(Federated search)


Z39 50

Z39.50 หรือ ISO23950 เป็นกฏกติกาที่กำหนดสำหรับการสืบค้นข้อมูลจากคลังข้อมูลหรือฐานข้อมูลที่มีหลากหลายในการให้บริการ มีชื่อเต็มว่า ANSI 39.50-1995, Information Retrieval Application Service Definition and Protocol Specification

รายละเอียดเพิ่มเติมสามารถติดตามได้จาก http://www.loc.gov/z39.50/agency/

โปรโตคอล Z39.50


Z39 501

Z39.50 สามารถอำนวยความสะดวกแก่ผู้ใช้ในการสืบค้นเพียงหนึ่งจอในหนึ่งแหล่งต่อเข้ากับคลังข้อมูลอ้างอิงต่างๆ หลายแห่งพร้อมกัน ผลลัพธ์ที่ได้ยังจะส่งคืนในรูปแบบมาตรฐานเดียวกัน โดยระยะแรกใช้สำหรับข้อมูล Bibliographical ที่อยู่ในรูปแบบของ Machine Readable Cataloging Record (MARC) แต่ยังได้รับการพัฒนาเรื่อยมา จนสามารถใช้กับข้อมูลรูปแบบอื่นได้

โปรโตคอล Z39.50


Z39 502

โปรโตคอล Z39.50

การทำงานของโปรโตคอล Z39.50



Z39 504

สามารถทดลองสืบค้นได้ที่

http://www.loc.gov/z3950/

โปรโตคอล Z39.50


Z39 505

สามารถทดลองสืบค้นได้ที่

http://iic.oie.go.th:8080/gw/basic/indexeng.jsp

โปรโตคอล Z39.50


Sru search retrieve via url

SRU เป็นโปรโตคอลที่ใช้ผ่าน URL โดยใช้ HTTP GET หรือส่งผ่านข้อมูล HTTP POST (SRU via POST) ซึ่งสามารถหลีกเลี่ยงข้อจำกัดในเรื่องความยาวและชุดของตัวอักขระใน HTTP GET สำหรับผลลัพธ์ในการค้นหาข้อมูล อยู่ในรูปแบบที่เขียนด้วย XML

โปรโตคอล SRU(Search/Retrieve via URL)


Http get

เป็นวิธีการสื่อสารผ่านโปรโตคอล HTTP (Hyper Text Transfer Protocol) ซึ่งวิธีแบบ GET จะเป็นการส่งข้อมูลผ่านทาง URL

HTTP GET



Request เกินกว่าที่วิธีการแบบ

http://z3950.loc.gov:7090/voyager?version=1.1&operation=searchRetrieve &query=dinosaur&maximumRecords=1&recordSchema=dc

ตัวอย่างการสื่อสารของโปรโตคอล SRU

Response

<record>  <recordSchema>info:srw/schema/1/dc-v1.1</recordSchema>  <recordPacking>xml</recordPacking>  <recordData>    <srw_dc:dc xmlns:srw_dc="info:srw/schema/1/dc-v1.1">     <dc:title>This is a Sample Record</dc:title>    </srw_dc:dc>  </recordData>  <recordPosition>1</recordPosition>  <extraRecordData>    <rel:score xmlns:rel="info:srw/extensions/2/rel-1.0">      0.965    </rel:rank>   </extraRecordData></record>


Harvesting and indexing

การเก็บรวบรวม เกินกว่าที่วิธีการแบบ (Collect) ข้อมูลจากฐานข้อมูลต่างชนิดกันมาไว้ในระบบส่วนกลาง โดยระบบส่วนกลางจะทำหน้าจัดเก็บข้อมูล, จัดทำดรรชนีสำหรับสืบค้น,ให้บริการค้นหาข้อมูล และบริการอื่นๆ ที่เกี่ยวข้องกับข้อมูลที่ได้จาการจัดเก็บ

Harvesting and Indexing


Harvesting and indexing1

Harvesting and Indexing เกินกว่าที่วิธีการแบบ


Harvesting and indexing2

ข้อดี เกินกว่าที่วิธีการแบบ

- มีความรวดเร็วในการสืบค้นข้อมูล เนื่องจากข้อมูลถูกจัดเก็บไว้ในระบบที่ให้บริการสืบค้น

- ไม่มีข้อจำกัดของจำนวนฐานข้อมูลภายนอกที่ต้องการค้นหา

Harvesting and Indexing


Harvesting and indexing3

ข้อเสีย เกินกว่าที่วิธีการแบบ

- ข้อมูลอาจไม่ถูกปรับปรุงให้ทันสมัย ซึ่งปัจจัยนี้ขึ้นอยู่กับความถี่ของการจัดเก็บข้อมูล

- ต้องใช้ฐานข้อมูลขนาดใหญ่ เนื่องจากเป็นการจัดเก็บข้อมูลที่สนใจทั้งหมดมาไว้ที่ส่วนกลาง ดังนั้น จึงจำเป็นต้องจัดเตรียมฐานข้อมูลที่สามารถรองรับข้อมูลที่มีปริมาณมากได้

Harvesting and Indexing


Harvesting and indexing4

โปรโตคอลที่ใช้ในการดำเนินการแบบ Harvesting and Indexing ได้แก่ โปรโตคอล OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

Harvesting and Indexing


Oai pmh open archives iniative protocol for metadata harvesting

Open Archive Initiative เป็นองค์กรความร่วมมือที่จัดตั้งขึ้น เพื่อทำให้การปฎิบัติร่วมกัน (Interoperability) ของห้องสมุดดิจิตอล (Digital Library)หรือคลังข้อมูลดิจิตอล (Digital Repository) เกิดขึ้นได้ โดยได้กำหนดโปรโตคอลในรูปอย่างง่าย (Simple Protocol) มีชื่อเรียกว่า “Protocol for Metadata Harvesting (OAI-PMH)”

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting1

หลักการทำงาน แบ่งการทำงานออกเป็น 2 ส่วนคือ

1. ส่วนจัดเตรียมข้อมูล (Data Provider)

ทำหน้าที่จัดเตรียมข้อมูลเมทาดาตา (metadata) ให้สามารถเข้าถึงได้ และอาจอนุญาตให้เข้าถึงทรัพยากร (resource) อื่นๆ ที่เกี่ยวข้อง

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting2

2. ส่วนจัดเตรียมบริการ (Service Provider)

ทำหน้าที่จัดเก็บ (Havest) ข้อมูลจากส่วนจัดเตรียมข้อมูล และนำข้อมูลที่ได้มาจัดเตรียมการให้บริการกับผู้ใช้งาน เช่น การค้นหา (searching), การจัดทำดรรชนี(Indexing) และอื่นๆ

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting3

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting4

2. ส่วนจัดเตรียมบริการ (Service Provider)

ทำหน้าที่จัดเก็บ (Havest) ข้อมูลจากส่วนจัดเตรียมข้อมูล และนำข้อมูลที่ได้มาจัดเตรียมการให้บริการกับผู้ใช้งาน เช่น การค้นหา (searching), การจัดทำดรรชนี(Indexing) และอื่นๆ

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting5

OAI –PMH ได้กำหนดการร้องขอ (เรียกว่า Verbs)เพื่อร้องขอข้อมูลจากส่วนจัดเตรียมบริการ(Service Provider)ไปยังส่วนจัดเตรียมข้อมูล(Data Provider) ทั้งสิ้น 6 รูปแบบ มีรายละเอียดดังนี้

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting6

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting7

1. GetRecord หมายถึง การให้แสดงระเบียน(record) ข้อมูลเมทาดาตาโดยสามารถระบุ เงื่อนไขได้ เช่น การให้แสดงเอกสารอิเล็กทรอนิกส์ที่ใช้มาตรฐานเมทาดาตา Dublin Core

2. Identify หมายถึง การให้แสดงข้อมูลทั่วไปเกี่ยวกับห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ

3. ListIdentifiers หมายถึง ให้แสดงในส่วน Header ซึ่งระบุค่าตามที่ OAI กำหนด

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh open archives iniative protocol for metadata harvesting8

4. ListMetadataFormats หมายถึง ให้แสดงข้อมูลมาตรฐานเมทาดาตาที่ใช้งานในห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ

5. ListRecords หมายถึงการให้แสดงระเบียนข้อมูลเมทาดาตาทั้งหมดที่มีอยู่ในฐานข้อมูลของห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ

6. ListSets หมายถึง การให้แสดงโครงสร้างการจัดเก็บข้อมูลหรือหมวดหมู่ของห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ

OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)


Oai pmh

ร้องขอ

ตัวอย่างการสื่อสารผ่านโปรโตคอล OAI-PMH

ตอบกลับ




http://ir.ub.rug.nl/oai/?verb=Identify

ทดลองใช้งานได้ที่


Oai pmh3

คือ เน้นความง่ายและมีอุปสรรคต่ำ (low barrier) สำหรับการพัฒนาส่วนจัดเตรียมข้อมูล

ดังนั้น ข้อได้เปรียบของ OAI-PMH คือ ความเรียบง่ายในการใช้งาน กล่าวคือ การร้องขอใช้วิธีร้องขอผ่าน HTTP GET หรือ HTTP POST ซึ่งใช้งานอยู่แล้วบนอินเทอร์เน็ต และการตอบกลับใช้การตอบกลับข้อมูลแบบ XML ตามที่ OAI ได้กำหนดขึ้น

OAI-PMHแนะนำมาตรฐานเมทาดาตาสำหรับข้อมูลเพื่อใช้ในการตอบกลับ คือ Dublin Core

เป้าหมายของการพัฒนาโปรโตคอล OAI-PMH


Oai pmh4

ตัวอย่างขั้นตอนและรายละเอียดของโปรโตคอลตัวอย่างขั้นตอนและรายละเอียดของโปรโตคอล

http://www.openarchives.org/OAI/openarchivesprotocol.html

รายชื่อ Service Provider

http://www.openarchives.org/service/listproviders.html

รายชื่อ Data Provider

http://www.openarchives.org/Register/BrowseSites

รายละเอียดของโปรโตคอล OAI-PMH


ควรใช้โปรโตคอลไหนดี ตัวอย่างขั้นตอนและรายละเอียดของโปรโตคอล?

Harvesting and Indexing

Meta search


ad