1 / 56

การจัดเก็บและค้นคืนสารสนเทศ

การจัดเก็บและค้นคืนสารสนเทศ. INFORMATION STORAGE and RETRIEVAL : ISR. review การค้นหาสารสนเทศบนอินเทอร์เน็ต. เป็นคำที่ใช้เรียกเครื่องมือหรือระบบที่ช่วยค้นสารสนเทศจากเครือข่ายเว็บไซต์ที่อยู่บนอินเทอร์เน็ต ขั้นตอนการทำงานหลักๆ ประกอบด้วย 3 ขั้นตอน คือ. เสิร์ชเอนจิ้น (Search Engines).

gilon
Download Presentation

การจัดเก็บและค้นคืนสารสนเทศ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. การจัดเก็บและค้นคืนสารสนเทศการจัดเก็บและค้นคืนสารสนเทศ INFORMATION STORAGE and RETRIEVAL : ISR

  2. reviewการค้นหาสารสนเทศบนอินเทอร์เน็ตreviewการค้นหาสารสนเทศบนอินเทอร์เน็ต

  3. เป็นคำที่ใช้เรียกเครื่องมือหรือระบบที่ช่วยค้นสารสนเทศจากเครือข่ายเว็บไซต์ที่อยู่บนอินเทอร์เน็ต ขั้นตอนการทำงานหลักๆ ประกอบด้วย 3 ขั้นตอน คือ เสิร์ชเอนจิ้น(Search Engines) 1. ค้นหา (Crawling) 2. จัดทำดัชนี (Indexing) 3. ให้บริการค้นคืน (Retrieval)

  4. 1. Free text Search Engines 2. Index or Directory Search Engines 3. Multi or Meta Search Engines 4. Natural language Search Engines 5. Resource or Site Specific Search Engines ประเภทของ Search Engines

  5. มีเกณฑ์ในการพิจารณดังนี้มีเกณฑ์ในการพิจารณดังนี้ 1. ความทันสมัยของฐานข้อมูล (Currency) 2. คุณลักษณะด้านการติดต่อกับผู้ใช้ในการค้นข้อมูล (Search Interface) 3. คุณลักษณะด้านการค้นหา (Search Features) 4. คุณลักษณะด้านการแสดงผลการค้น (Results List Display Features) 5. คุณลักษณะพิเศษอื่นๆ (Other Features of Note) การเปรียบเทียบ Search Engines

  6. การค้นหาข้ามฐานข้อมูลการค้นหาข้ามฐานข้อมูล

  7. แบ่งตามจุดมุ่งหมายในการจัดทำ สามารถแบ่งได้ดังนี้ 1. ฐานข้อมูลต้นแหล่ง (Source Database) จะให้ข้อมูลฉบับเต็ม(Full Text) แก่ผู้ใช้ ฐานข้อมูลประเภทนี้ได้แก่ ประเภทของฐานข้อมูล

  8. 1. ฐานข้อมูลต้นแหล่ง (Source Database) 1.1 ฐานข้อมูลข้อเท็จจริง(Factual Database) จะมีข้อมูลที่ไม่ใช่ตัวเลขที่ใช้ในการคำนวณหรือนำไปใช้การคิดวิเคราะห์ เช่น นามานุกรมของหน่วยงานโครงการวิจัยเป็นต้น 1.2 ฐานข้อมูลเนื้อหาเต็ม (Full-Text Database) จะให้เนื้อหาทั้งหมดของเอกสาร เช่น บทความวารสารฉบับเต็ม รายงานการวิจัยฉบับเต็ม เป็นต้น 1.3 ฐานข้อมูลตัวเลข (Numeric Database) ให้ข้อมูลสถิติต่างๆ เช่น สถิติการค้าการเงิน ราคาหุ้น ประเภทของฐานข้อมูล

  9. 2. ฐานข้อมูลอ้างอิง (Reference Database) เป็นฐานข้อมูลที่ไม่มีเนื้อหาฉบับเต็ม(full-text) แต่จะชี้แนะไปยังแหล่งที่สามารถให้ข้อมูลที่ต้องการได้ ฐานข้อมูลประเภทนี้ได้แก่ ฐานข้อมูลบรรณานุกรรม(Bibliographic Database) ประเภทของฐานข้อมูล

  10. ทำไมต้องค้นหาข้ามฐานข้อมูล ?

  11. ปัจจุบันฐานข้อมูลมีเป็นจำนวนมากปัจจุบันฐานข้อมูลมีเป็นจำนวนมาก

  12. ปัญหาจากการกระจายตัวของฐานข้อมูล ทำให้เกิดปัญหาต่างๆ ดังนี้ - ต้องจดจำที่อยู่ของฐานข้อมูล เช่น URL นอกจากนี้ต้องจดจำประเภทของฐานข้อมูลเหล่านั้นด้วย - ต้องใช้ระยะเวลานานสำหรับการค้นหาในแต่ละฐานข้อมูล - ต้องเรียนรู้การใช้งานส่วนติดต่อผู้ใช้ (User Interface:UI) ของแต่ฐานข้อมูล เนื่องจากฐานข้อมูลแต่ละประเภทมีส่วนหน้าจอสำหรับติดต่อผู้ใช้ ที่แตกต่างกัน ทำให้ผู้ใช้ต้องเรียนรู้การใช้งานของแต่ละฐานข้อมูล ปัญหาที่พบจากการเพิ่มจำนวนของฐานข้อมูล

  13. ปัญหาที่พบจากการเพิ่มจำนวนของฐานข้อมูลปัญหาที่พบจากการเพิ่มจำนวนของฐานข้อมูล

  14. สามารถแก้ปัญหาด้วยวิธีการทำงานแบบปฎิบัติร่วมกัน (Interoperability) เพื่อให้ ระบบที่มีความแตกต่างกันทั้งในด้านของฮาร์ดแวร์ (Hardware) ซอฟต์แวร์ประยุกต์(Application Software) และระบบจัดการฐานข้อมูล (Database Management System:DBMS ) สามาถแลกเปลี่ยนข้อมูลหรือติดต่อสื่อสารกันได้ วิธีการแก้ปัญหา

  15. การสื่อสารเพื่อการปฏิบัติร่วมกันใช้หลักการสื่อสาร คือ 1. ร้องขอ (Request)ทำการร้องขอเพื่อให้ระบบเป้าหมายปฏิบัตตามตามที่ร้องขอ 2. ตอบกลับ (Response)เมื่อระบบเป้าหมายปฏิบัตตามที่ร้อง จะตอบกลับเป็นผลลัพธ์ตามที่ร้องขอมา หลักการสื่อสารข้อมูล

  16. ฐานข้อมูล A ฐานข้อมูล B ขั้นตอนการสื่อสารเพื่อร้องขอ

  17. ฐานข้อมูล A ฐานข้อมูล B ขั้นตอนการตรวจสอบการร้องขอ

  18. ฐานข้อมูล A ฐานข้อมูล B ขั้นตอนการปฎิบัติตามที่ร้องขอ ปฏิบัติตาม ที่ร้องขอ

  19. ฐานข้อมูล A ฐานข้อมูล B ขั้นตอนการตอบกลับผลลัพธ์ ข้อมูล

  20. การทำงานแบบปฎิบัติร่วมกันเพื่อให้สามาถสืบค้นข้อมูลระหว่างระบบที่มีความแตกต่างกันสามารถกระทำได้ 2 วิธี คือ 1. Meta search(Federated search) 2. Harvesting and Indexing *โดยขั้นตอนการทำงานทั้ง 2 วิธีจะถูกกำหนดโดยโปรโตคอล (Protocol) การทำงานแบบปฎิบัติร่วมกัน (Interoperability)

  21. คือ การสืบค้นผ่านหน้าจอสืบค้นเพียงหน้าจอเดียวที่มีความสามารถสืบค้นข้ามไปยังทุกๆ ฐานข้อมูลเป้าหมายในเวลาเดียวกัน ผลลัพธ์จากการสืบค้นจากทุกๆ แหล่งข้อมูล จะเรียง ลำดับตามที่ต้องการ ถือว่าเป็นเทคนิคการค้นหาที่อำนวยความสะดวกและมีประสิทธิภาพให้แก่ผู้สืบค้น Meta search(Federated search)

  22. Meta search(Federated search)

  23. ข้อดี ผลลัพธ์จากการสืบค้นจากทุกๆ แหล่งข้อมูล จะเรียง ลำดับตามที่ต้องการ ถือว่าเป็นเทคนิคการค้นหาที่อำนวยความสะดวกและมีประสิทธิภาพให้แก่ผู้สืบค้น Meta search(Federated search)

  24. ข้อเสีย - ความล่าช้า ซึ่งขึ้นอยู่กับหลายปัจจัย เช่น เมื่อส่งคำค้นจากระบบหนึ่งไปยังอีกระบบหนึ่งต้องอาศัยเวลาในการเปลี่ยนคำค้นให้อยู่ในรูปที่ระบบฐานข้อมูลนั้นๆ เข้าใจได้ และระยะเวลาในการตอบกลับข้อมูลจากการค้นหาขึ้นอยู่กับฐานข้อมูลภายนอก - ข้อจำกัดในด้านจำนวนของฐานข้อมูล เนื่องจากหากมีฐานข้อมูลเป็นจำนวนมากกระจายตัวกันอยู่ จะทำให้การค้นหาใช้เวลานาน - การพัฒนาทำได้ยาก มีความซับซ้อน Meta search(Federated search)

  25. การทำงานให้สามารถค้นหาแบบ Meta Search ได้ต้องอาศัยการสื่อสารโดยใช้โปรโตคอล ซึ่งโปรโตคอลที่ใช้ค้นหาแบบ Meta Search ได้แก่ โปรโตคอล Z39.50 SRU(Search/Retrieve via URL)และอื่นๆ Meta search(Federated search)

  26. Z39.50 หรือ ISO23950 เป็นกฏกติกาที่กำหนดสำหรับการสืบค้นข้อมูลจากคลังข้อมูลหรือฐานข้อมูลที่มีหลากหลายในการให้บริการ มีชื่อเต็มว่า ANSI 39.50-1995, Information Retrieval Application Service Definition and Protocol Specification รายละเอียดเพิ่มเติมสามารถติดตามได้จาก http://www.loc.gov/z39.50/agency/ โปรโตคอล Z39.50

  27. Z39.50 สามารถอำนวยความสะดวกแก่ผู้ใช้ในการสืบค้นเพียงหนึ่งจอในหนึ่งแหล่งต่อเข้ากับคลังข้อมูลอ้างอิงต่างๆ หลายแห่งพร้อมกัน ผลลัพธ์ที่ได้ยังจะส่งคืนในรูปแบบมาตรฐานเดียวกัน โดยระยะแรกใช้สำหรับข้อมูล Bibliographical ที่อยู่ในรูปแบบของ Machine Readable Cataloging Record (MARC) แต่ยังได้รับการพัฒนาเรื่อยมา จนสามารถใช้กับข้อมูลรูปแบบอื่นได้ โปรโตคอล Z39.50

  28. โปรโตคอล Z39.50 การทำงานของโปรโตคอล Z39.50

  29. ตัวอย่างโปรโตคอล Z39.50

  30. สามารถทดลองสืบค้นได้ที่ http://www.loc.gov/z3950/ โปรโตคอล Z39.50

  31. สามารถทดลองสืบค้นได้ที่ http://iic.oie.go.th:8080/gw/basic/indexeng.jsp โปรโตคอล Z39.50

  32. SRU เป็นโปรโตคอลที่ใช้ผ่าน URL โดยใช้ HTTP GET หรือส่งผ่านข้อมูล HTTP POST (SRU via POST) ซึ่งสามารถหลีกเลี่ยงข้อจำกัดในเรื่องความยาวและชุดของตัวอักขระใน HTTP GET สำหรับผลลัพธ์ในการค้นหาข้อมูล อยู่ในรูปแบบที่เขียนด้วย XML โปรโตคอล SRU(Search/Retrieve via URL)

  33. เป็นวิธีการสื่อสารผ่านโปรโตคอล HTTP (Hyper Text Transfer Protocol) ซึ่งวิธีแบบ GET จะเป็นการส่งข้อมูลผ่านทาง URL HTTP GET

  34. วิธีการนี้สามารถใช้สื่อสารเพื่อปิดบังข้อมูลหรือเพื่อส่งข้อมูลที่มีขนาดยาวมาก เกินกว่าที่วิธีการแบบ GET จะรับได้ HTTP POST

  35. Request http://z3950.loc.gov:7090/voyager?version=1.1&operation=searchRetrieve &query=dinosaur&maximumRecords=1&recordSchema=dc ตัวอย่างการสื่อสารของโปรโตคอล SRU Response <record>  <recordSchema>info:srw/schema/1/dc-v1.1</recordSchema>  <recordPacking>xml</recordPacking>  <recordData>    <srw_dc:dc xmlns:srw_dc="info:srw/schema/1/dc-v1.1">     <dc:title>This is a Sample Record</dc:title>    </srw_dc:dc>  </recordData>  <recordPosition>1</recordPosition>  <extraRecordData>    <rel:score xmlns:rel="info:srw/extensions/2/rel-1.0">      0.965    </rel:rank>   </extraRecordData></record>

  36. การเก็บรวบรวม (Collect) ข้อมูลจากฐานข้อมูลต่างชนิดกันมาไว้ในระบบส่วนกลาง โดยระบบส่วนกลางจะทำหน้าจัดเก็บข้อมูล, จัดทำดรรชนีสำหรับสืบค้น,ให้บริการค้นหาข้อมูล และบริการอื่นๆ ที่เกี่ยวข้องกับข้อมูลที่ได้จาการจัดเก็บ Harvesting and Indexing

  37. Harvesting and Indexing

  38. ข้อดี - มีความรวดเร็วในการสืบค้นข้อมูล เนื่องจากข้อมูลถูกจัดเก็บไว้ในระบบที่ให้บริการสืบค้น - ไม่มีข้อจำกัดของจำนวนฐานข้อมูลภายนอกที่ต้องการค้นหา Harvesting and Indexing

  39. ข้อเสีย - ข้อมูลอาจไม่ถูกปรับปรุงให้ทันสมัย ซึ่งปัจจัยนี้ขึ้นอยู่กับความถี่ของการจัดเก็บข้อมูล - ต้องใช้ฐานข้อมูลขนาดใหญ่ เนื่องจากเป็นการจัดเก็บข้อมูลที่สนใจทั้งหมดมาไว้ที่ส่วนกลาง ดังนั้น จึงจำเป็นต้องจัดเตรียมฐานข้อมูลที่สามารถรองรับข้อมูลที่มีปริมาณมากได้ Harvesting and Indexing

  40. โปรโตคอลที่ใช้ในการดำเนินการแบบ Harvesting and Indexing ได้แก่ โปรโตคอล OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting) Harvesting and Indexing

  41. Open Archive Initiativeเป็นองค์กรความร่วมมือที่จัดตั้งขึ้น เพื่อทำให้การปฎิบัติร่วมกัน (Interoperability) ของห้องสมุดดิจิตอล (Digital Library)หรือคลังข้อมูลดิจิตอล (Digital Repository) เกิดขึ้นได้ โดยได้กำหนดโปรโตคอลในรูปอย่างง่าย (Simple Protocol) มีชื่อเรียกว่า “Protocol for Metadata Harvesting (OAI-PMH)” OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  42. หลักการทำงาน แบ่งการทำงานออกเป็น 2 ส่วนคือ 1. ส่วนจัดเตรียมข้อมูล (Data Provider) ทำหน้าที่จัดเตรียมข้อมูลเมทาดาตา (metadata) ให้สามารถเข้าถึงได้ และอาจอนุญาตให้เข้าถึงทรัพยากร (resource) อื่นๆ ที่เกี่ยวข้อง OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  43. 2. ส่วนจัดเตรียมบริการ (Service Provider) ทำหน้าที่จัดเก็บ (Havest) ข้อมูลจากส่วนจัดเตรียมข้อมูล และนำข้อมูลที่ได้มาจัดเตรียมการให้บริการกับผู้ใช้งาน เช่น การค้นหา (searching), การจัดทำดรรชนี(Indexing) และอื่นๆ OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  44. OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  45. 2. ส่วนจัดเตรียมบริการ (Service Provider) ทำหน้าที่จัดเก็บ (Havest) ข้อมูลจากส่วนจัดเตรียมข้อมูล และนำข้อมูลที่ได้มาจัดเตรียมการให้บริการกับผู้ใช้งาน เช่น การค้นหา (searching), การจัดทำดรรชนี(Indexing) และอื่นๆ OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  46. OAI –PMH ได้กำหนดการร้องขอ (เรียกว่า Verbs)เพื่อร้องขอข้อมูลจากส่วนจัดเตรียมบริการ(Service Provider)ไปยังส่วนจัดเตรียมข้อมูล(Data Provider) ทั้งสิ้น 6 รูปแบบ มีรายละเอียดดังนี้ OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  47. OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  48. 1. GetRecord หมายถึง การให้แสดงระเบียน(record) ข้อมูลเมทาดาตาโดยสามารถระบุ เงื่อนไขได้ เช่น การให้แสดงเอกสารอิเล็กทรอนิกส์ที่ใช้มาตรฐานเมทาดาตา Dublin Core 2. Identify หมายถึง การให้แสดงข้อมูลทั่วไปเกี่ยวกับห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ 3. ListIdentifiers หมายถึง ให้แสดงในส่วน Header ซึ่งระบุค่าตามที่ OAI กำหนด OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  49. 4. ListMetadataFormats หมายถึง ให้แสดงข้อมูลมาตรฐานเมทาดาตาที่ใช้งานในห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ 5. ListRecords หมายถึงการให้แสดงระเบียนข้อมูลเมทาดาตาทั้งหมดที่มีอยู่ในฐานข้อมูลของห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ 6. ListSets หมายถึง การให้แสดงโครงสร้างการจัดเก็บข้อมูลหรือหมวดหมู่ของห้องสมุดดิจิตอลหรือคลังข้อมูลนั้นๆ OAI-PMH (Open Archives Iniative – Protocol for Metadata Harvesting)

  50. ร้องขอ ตัวอย่างการสื่อสารผ่านโปรโตคอล OAI-PMH ตอบกลับ

More Related