1 / 42

ความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศ

ความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศ. อวชิระ หล่อประดิษฐ์. IR คืออะไร ?. การสืบค้นสารสนเทศ.

zanna
Download Presentation

ความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศ อวชิระ หล่อประดิษฐ์

  2. IR คืออะไร?

  3. การสืบค้นสารสนเทศ • Information Retrieval (IR) เป็นศาสตร์ของการค้นหาข้อความ หรือสารสนเทศในเอกสาร หรือการค้นหาตัวเอกสารเอง หรือสิ่งเป้าหมายที่มีจำนวนมากให้ได้มาอย่างรวดเร็ว และที่สำคัญสอดคล้องกับความต้องการในการค้นหา • IR เป็นที่รวมของศาสตร์หลายแขนง เช่น วิทยาการคอมพิวเตอร์ คณิตศาสตร์ สารสนเทศศาสตร์ ห้องสมุดศาสตร์ ภาษาศาสตร์ วิชาทางสถิติเป็นต้น • ตัวอย่างของ IR ได้แก่ ดรรชนีท้ายเล่มของหนังสือ การใช้ Google, Yahoo เป็นต้น

  4. กระบวนการสืบค้นใน IR Documents Query IR Information Retrieved

  5. ขอบเขตของ IR

  6. สิ่งเป้าหมายของ IR • Text retrieval คือ การค้นหาเอกสารที่เขียนขึ้นเป็นข้อความ เป็นตัวอักษรที่เรียงกันเป็นคำ วลี ประโยคอย่างมีกฎเกณฑ์ (syntax) และให้ความหมาย (Semantic) • Speech retrieval คือ การค้นหาในเรื่องของเสียง เป็นได้ทั้งเสียงมนุษย์ เสียงสัตว์ โดยจะต้องอาศัยผลงานด้านการรู้จำเสียง (Speech recognition) เป็นสำคัญ • Image retrieval คือ การค้นหาในเรื่องของภาพ ทั้งรูปแบบและสีสัน โดยจะอาศัยผลงานด้าน (Image processing) และการรู้จำภาพ (Pattern recognition) • Music retrieval คือ การค้นหาเรื่องของเสียงดนตรี และเสียงเพลง หรือเสียงจากเครื่องดนตรี โดยจะอาศัยผลงานด้านการรู้จำเสียง (Speech recognition)

  7. สิ่งเป้าหมายของ IR (ต่อ) • Cross-language retrieval คือ การค้นหาข้ามภาษา กล่าวคืออาจจะกำหนดคำสอบถามภาษาหนึ่ง แต่ให้ผลของการสืบค้นสิ่งเป้าหมายเป็นอีกภาษาหนึ่ง และผลที่ได้จะแปลกลับมาเป็นภาษาแรก โดยจะใช้ผลงานด้าน การแปลภาษา (Machine translation ) • Question-Answering system คือ การถามตอบจากระบบการสืบค้น โดยคำถามจะมีลักษณะเป็น What, When, Where, Who เช่น ใครเป็นจ้าวเหรียญทองในกีฬาโอลิมปิกเมื่อปี 2000

  8. วิวัฒนาการของ IR • 1945 : Vanneval Bush ตีพิมพ์บทความเรื่อง ‘As We May Think’ ใน Atlantic Monthly โดยตั้งชื่อว่า Memexจะกล่าวถึงจินตนาการที่กว้างไกลของอุปกรณ์เทคโนโลยีที่ใช้รวบรวมจัดเก็บเอกสารปริมาณมากๆ • 1950 : Calvin Mooerได้ตั้งชื่อ Information Retrieval • 1950 : รัฐบาลสหรัฐตระหนักถึงความล้าหลังทางวิทยาศาสตร์และเทคโนโลยี จึงทุ่มทุนสนับสนุนการวิจัยด้านนี้อย่างมหาศาล จึงทำให้ IR ได้รับการพัฒนาตามไปด้วย จึงทำให้เกิดผลผลิตมากมายในช่วงนี้ • 1959 : Hans Peter Luhnได้ประดิษฐ์ KWIC (Keyword in context) คือ การนำคำสำคัญจากชื่อเรื่องของบทความหรือเอกสารมาทำเป็นศัพท์ดรรชนี

  9. วิวัฒนาการของ IR (ต่อ) • 1960 : Gerard Salton พัฒนาระบบการสืบค้นชื่อ SMART ที่มหาวิทยาลัย Harvard และต่อมาได้ย้ายไปที่มหาวิทยาลัย Cornell SMART มีการอ้างถึงมาจากคำว่า Salton’s Magic Automatic Retrieval of Text • 1964 : หอสมุดแห่งชาติทางการแพทย์ของสหรัฐอเมริกา พัฒนาระบบ MEDLARS (MEDical Literature Analysis and Retrieval System) เป็นครั้งแรกที่มีการสร้างฐานข้อมูลอิเล็กทรอนิกส์ขนาดใหญ่เพื่อทำการสืบค้นได้ • 1970 : มีการเปิดตัวระบบ Online ของ IR ทางธุรกิจ เช่น MEDLINE ของ NLS, DIALOG ของ Lockheadและ ORBIT ของ SDC • 1970 : Theodor Nelson ได้สานต่อความคิด Memexและกำเนิดชื่อของ Hypertext

  10. วิวัฒนาการของ IR (ต่อ) • 1980 : มีการพัฒนาระบบ IR ทางธุรกิจ ที่สามารถสืบค้นได้ด้วยผู้ใช้เองโดยใช้ PC ต่อเข้ากับโทรศัพท์ด้วย Modem เพื่อเชื่อมเข้าสำนักงานที่ให้บริการ เช่น DIALOG, ORBIT, BRS เป็นต้น • 1990 : มีการเปิดตัวการบริการ Search Engine มากมาย เช่น Yahoo, Lycos, Infoseekเป็นต้น และบางตัวก็ต้องปิดตัวไปเพราะมีการแข่งขันทางธุรกิจอย่างดุเดือด • 1998 : มีการเปิดตัว Google ในวันที่ 7 กันยายน 1998 • 2000 : IR เจริญก้าวหน้าอย่างรวดเร็ว ตามความฝันของ Vannevar Bush แต่ก็ยังไม่เป็นจริงไปทั้งหมด

  11. ห้องสมุดดิจิตอล (Digital Library) • ห้องสมุดดิจิตอล หมายถึง ห้องสมุดที่มีทรัพยากรอยู่ในรูปแบบของดิจิตอล เนื้อหาที่มีรูปแบบดิจิตอลนั้น อาจจะจัดเก็บอยู่ภายในห้องสมุดหรือภายนอกก็ได้ แต่สามารถเข้าถึงได้ด้วยเครือข่ายคอมพิวเตอร์ทั้งต้นทางและปลายทาง • ห้องสมุดดิจิตอลเป็นการรวมศาสตร์ในหลายแขนงวิชาการ คือ สารสนเทศศาสตร์ วิทยาการคอมพิวเตอร์ บรรณารักษ์ศาสตร์ • นอกจากเครือข่ายสื่อสารซึ่งเป็นสิ่งสำคัญแล้ว ระบบการสืบค้นและการจัดเก็บสารสนเทศก็เป็นส่วนประกอบที่สำคัญอีกอันหนึ่ง

  12. มิติต่างๆ สู่ห้องสมุดดิจิตอล Technology Community Content Services

  13. มิติของเทคโนโลยี (Technology) • เทคโนโลยีเป็นปัจจัยสำคัญของความสำเร็จของห้องสมุดดิจิตอล • ต้องมีเครือข่ายสื่อสารคอมพิวเตอร์ความเร็วสูง และเครื่อง PC และ Server จำนวนมาก เพื่อให้เพียงพอต่อการให้บริการ • ต้องมีคลังจัดเก็บข้อมูลขนาดใหญ่ (Mass Storage) ที่ใช้บันทึกข้อมูลในรูปแบบอิเล็กทรอนิกส์ของหนังสือ วารสาร สิ่งพิมพ์ • ในปัจจุบันได้มีเทคโนโลยี Wi-Fi, GPRS และ Plastic Transistor เข้ามาใช้งานเพื่อให้ผู้ใช้งานสามารถเข้าถึงห้องสมุดดิจิตอลได้มากขึ้น

  14. Plastic Transistor E-Books

  15. มิติของเนื้อหา (Content) • หนังสืออิเล็กทรอนิกส์ (E-book) สามารถแสดงได้ทั้งตัวอักษร ภาพ เสียงและภาพเคลื่อนไหว ซึ่งจะทำให้ผู้อ่านเห็นภาพของเรื่องที่อ่านได้ชัดเจนขึ้น • ซึ่งในอดีตจะต้องจินตนาการตามเนื้อหาที่ได้อ่าน • ผู้ใช้ห้องสมุดดิจิตอลจะมุ่งเน้นไปยังผลลัพธ์ของการค้นหา โดยจะต้องถูกต้องและแม่นยำ • ข้อมูลจะเพิ่มขึ้น 2 เท่าในทุกๆ 2 ปี • ข้อมูลที่เก็บในห้องสมุดดิจิตอลจะต้องมีการปรับปรุงข้อมูลให้เป็นปัจจุบัน

  16. มิติของบริการ (Services) • ห้องสมุดดิจิตอลจะให้บริการที่เป็นคนกับคอมพิวเตอร์มากกว่าคนกับคน • เครือข่ายสื่อสารคอมพิวเตอร์ที่เชื่อมโยงทั้งต้นทางและปลายทาง จึงทำให้สามรถบริการได้ 24 ชม. • ห้องสมุดดิจิตอลสามรถเข้าถึงได้ทั้งจากที่บ้านหรือสถานที่อื่นๆ ที่ใดก็ได้ • มีการเชื่อมโยงทางด้านความร่วมมือระหว่างห้องสมุดด้วยกันเพื่อเพิ่มอำนาจการต่อรองกับสำนักพิมพ์

  17. มิติของประชาคม (Community) • ห้องสมุดดิจิตอลทำให้เกิดการเปลี่ยนแปลงของการเรียนรู้ และการทำกิจกรรมของประชาคมในผู้คนที่ได้ใช้ประโยชน์ • มหาวิทยาลัยหลายแห่งได้สร้างเอกสารประกอบการสอน ซึ่งสามารถนำออกมาเผยแพร่ได้ หรือที่เรียกว่า Open Source • บางมหาวิทยาลัยได้จัดหลักสูตรการสอนผ่านเครือข่ายสื่อสารคอมพิวเตอร์ เรียกว่า การสอนทางไกล (Distance Learning) จึงทำให้ห้องสมุดดิจิตอลเป็นเหมือนห้องสมุดที่เก็บเนื้อหาการสอนของรายวิชานั้นๆ

  18. รูปแบบการจัดเก็บ (Format) • Image File • เป็นการจัดเก็บในลักษณะของรูปภาพ คือการถ่ายสำเนาแล้วเก็บลงบนคอมพิวเตอร์ • นามสกุลลงท้ายด้วย .bmp, .pcx, .jpg • แฟ้มมีขนาดใหญ่ ใช้พื้นที่ในการเก็บสูง • Portable Document Format • เป็นการจัดเก็บเอกสารของ Adobe System โดยแฟ้มข้อมูลจะมีขนาดเล็กกว่า Bitmap Image มาก • นามสกุลลงท้ายเป็น .pdf • ในปัจจุบัน PDF ยังสามารถแสดงภาพเคลื่อนไหว และเสียงได้ และสามารถเชื่อมโยงแบบ Hypertext Link ได้ นิยมใช้บน Internet

  19. รูปแบบการจัดเก็บ (Format) • Tex • นำเสนอโดย ศาสตราจารย์ Donald Knuth แห่งมหาวิทยาลัย Stanford • เหมาะกับการแสดงผลในบทความที่มีสมการคณิตศาสตร์ที่ซับซ้อน • สามารถจัดรูปแบบของเอกสารได้อย่างอัตโนมัติ • นามสกุลที่ใช้เป็น .tex

  20. ตัวอย่าง TeX Code

  21. รูปแบบการจัดเก็บ (Format) • Hypertext Markup Language (HTML) • เป็นภาษาที่นิยมนำมาใช้เขียนข้อความบนเว็บ • จะต้องอ่านได้ด้วยเว็บบราวเซอร์ เช่น Internet Explorer, Firefox • นามสกุลที่ใช้จะเป็น .html หรือ .htm

  22. ตัวอย่าง HTML

  23. รูปแบบการจัดเก็บ (Format) • Open Electronic Book Package Format (OPF) • เป็นรูปแบบไฟล์ของ FlipBooks • ใช้ภาษา XML ในการสร้าง • เป็นการสร้างหนังสืออิเล็กโทรสิกส์ที่มีทั้งสารบัญ ดรรชนี บทความ รูปภาพ เสียง • ไฟล์จะมีนามสกุลเป็น .opf • ในการเปิดดูเนื้อหา จำเป็นที่จะต้องใช้โปรแกรมเฉพาะในการเปิด เช่น FlipBooks

  24. ตัวอย่าง OPF

  25. รูปแบบการจัดเก็บ (Format) • Mobipocket • จะต้องมีโปรแกรม Mobipocket Reader เป็นตัวช่วยอ่านไฟล์ .prc • สามารถเพิ่มหน้าว่าง วาดภาพอิสระ ใส่คำอธิบาย ได้ • สนับสนุนการทำงานแสดงผลบนเครื่อง PDA หรือ Smartphone ได้ • ใช้การเขียนโปรแกรมโดยใช้ภาษา XHTML และ JavaScript

  26. ตัวอย่าง Mobipocket

  27. รูปแบบการจัดเก็บ (Format) • Desktop Author • เป็นโปรแกรมสำหรับสร้างเอกสารดิจิตอล • สามารถแสดงภาพ เสียง ภาพเคลื่อนไหว ไฟล์ภาพยนตร์ ไฟล์ Flash และเสียงบรรยาย • ไฟล์ที่ได้จะมีนามสกุลชนิด .exe

  28. ตัวอย่าง Desktop Author

  29. การค้นคืนสารสนเทศออนไลน์การค้นคืนสารสนเทศออนไลน์ • อินเทอร์เน็ต คือ ห้องสมุดขนาดใหญ่นั่นเอง • การค้นหาข้อมูลบนอินเทอร์เน็ตแตกต่างจากค้นหาข้อมูลในห้องสมุดอย่างสิ้นเชิง • ห้องสมุดมีเวลาเปิด-ปิด แต่อินเทอร์เน็ตทำการ 24 ชม. • บนอินเทอร์เน็ตเราสามารถค้นหาข้อมูลได้จากที่บ้าน ที่ทำงาน หรือสถานที่อื่นๆ แต่ห้องสมุดต้องเดินทางไปที่ห้องสมุดเท่านั้น • บนอินเทอร์เน็ตจะมีข้อมูลหลากหลายรูปแบบให้ค้นหาได้ • www.google.com คือ จักรกลค้นหาหรือ Search Engine ที่ได้รับความนิยมเป็นอย่างมาก

  30. ประเภทของการค้นหาบนอินเทอร์เน็ตประเภทของการค้นหาบนอินเทอร์เน็ต • การจัดประเภทการค้นหา จะอ้างอิงจาก Search Engine ได้ดังนี้ • Web Search คือ การเป็นการค้นหาที่ Search Engine เป็นผู้ให้บริการเป็นหลัก นั่นคือการค้นหาเว็บไซท์นั่นเอง • Directory Search คือ การค้นหาตามประเภทของเนื้อเรื่อง เช่น Science Sports Games • Book Search คือ การค้นหาหนังสือ ตามชื่อเรื่อง ชื่อผู้แต่ง หรือตามชื่อสำนักพิมพ์ • Earth Search คือ การค้นหาแผนที่โลก โดยค้นหาจากชื่อเมือง ชื่อประเทศ โดยจะมีลักษณะเป็นการถ่ายภาพจากดาวเทียมมาแสดง • News Search คือ การค้นหาข่าวสารที่เกิดขึ้นทั่วโลกจากแหล่งข่าวต่างๆ

  31. โมเดลของ IR • โมเดล หมายถึง รูปแบบที่แสดงในเชิงตรรกะ เพื่อจำลองสิ่งของในระบบ หรือตัวระบบเอง รวมทั้งจำลองการปฏิบัติการในสิ่งเป้าหมายอย่างมีเหตุและผล • โมเดลของ IR อาจจะเขียนเป็นรูปภาพหรือสัญลักษณ์และมีลายเส้นโยงต่อกันไปมา และที่สำคัญเขียนเป็นสัญลักษณ์ทางคณิตศาสตร์และการคำนวณทางคณิตศาสตร์

  32. โมเดลต้นแบบของ IR • Classical Boolean Model อาศัยทฤษฎี Set Theory เป็นฐานทางคณิตศาสตร์ในการพัฒนาระบบ IR ภายในระบบมีโมเดลของเอกสาร • Vector Space Modelเป็นการปรับปรุงโมเดลแรก ใช้วิธีการของ Matrix Algebra • Probabilistic Relevance Model อาศัยทฤษฎี Probability Theory เป็นฐานทางคณิตศาสตร์ โดยจะแตกต่างกับอันอื่นที่แนวคิดในการใช้ Matching • Directory Model เป็นการจัดหมวดหมู่อย่างเป็นระบบตามลำดับชั้นแบบ Tree • Hypertext Model เป็นรูปแบบที่มีโครงสร้างเป็น Directed Graph ชี้จากข้อความหนึ่งในเอกสาร ชี้ไปอีกข้อความหนึ่งในเอกสารอีกแห่งหนึ่ง

  33. การประเมินผลของ IR • การประเมินผลของ IR เป็นกระบวนการที่ใช้เพื่อวัดสมรรถนะของระบบ คุณภาพของบริการ กระบวนการทำงาน รวมทั้งอาจใช้เพื่อกรเปรียบเทียบระบบต่อระบบ • ตัววัดการประเมินผลที่สำคัญได้แก่ การหาค่า Recall และ Precision • Recallเป็นการวัดความสามารถของระบบในการค้นหาเอกสารที่เกี่ยวพันธ์ • Precisionเป็นการวัดความแม่นยำของระบบวนการค้นหาเอกสารได้ถูกต้อง ค่า Recall = tp / (tp+fn) ค่า Precision = tp / (tp+fp)

  34. ขั้นตอนการประมวลผลของ IR • การทำดรรชนี (Indexing) เป็นการสร้างตัวแทนเอกสาร • การจัดรูปแบบคำสอบถาม (Query Formulation) เป็นการสร้างตัวแทนคำสอบถาม • การเทียบเคียงจับคู่ (Matching) เป็นจับคู่ระหว่างตัวแทนคำสอบถามกับตัวแทนเอกสาร • การเลือก (Selection)รายการผลลัพธ์ที่ตรงประเด็น • การปรับเปลี่ยนคำสอบถามใหม่ (Query Reformulation) เป็นค้นหาในรอบต่อไป

  35. การทำดรรชนี (Indexing) • วัตถุประสงค์ของการทำดรรชนีก็เพื่อทำเป็นตัวแทนเอกสาร โดยจัดเป็นหมวดหมู่อย่างเป็นระบบ Documents Lexical Analysis Stop-word Elimination Stemming Term Selection Thesaurus Construction Indexing Index Term

  36. การจัดรูปแบบคำสอบถาม (Query Formulation) • การเขียนคำสอบถามเพื่อการค้นหาสามารถทำได้หลายรูปแบบ • การใส่คำสำคัญ (Keywords) เป็นการนำคำศัพท์หลายคำมาเรียงต่อกัน • การใส่คำสำคัญนี้เป็นการใช้ Boolean Operators เช่น And, Or, NOT เป็นต้น ในการเชื่อมคำ • ส่วนอีกวิธีหนึ่งจะใช้ Wild Card Character แทนตัวอักษร เช่น Comput*

  37. การเทียบเคียงจับคู่ (Matching) • การ Matching คือการจับคู่ระหว่างคำสอบถามกับเอกสาร โดยใช้ผลของขั้นตอนก่อนหน้านี้ • โดยวิธีการนั้นจะขึ้นอยู่กับโมเดลของ IR • หากเป็น Boolean Model จะใช้การเทียบเคียงเพียง 2 ค่า คือ Match กับ Not match • หากเป็น Vector Model จะใช้ผลที่ได้จากการคำนวณของเวกเตอร์ของคำสอบถามและของเอกสาร ซึ่งเป็นการวัดความใกล้เคียงสอดคล้องของแต่ละคู่ ถ้าค่ามากจะแสดงว่ามีความสอดคล้องสูง • หากเป็น Probabilistic Modelค่าการเทียบเคียงจะได้จากค่าความน่าจะเป็นเปรียบเทียบของคู่คำสอบถามกับเอกสารในความเกี่ยวพันธ์ และไม่เกี่ยวพันธ์ต่อกัน หากแต่การคำนวณจะยุ่งยากกว่า Vector Model

  38. การเลือกรายการผลลัพธ์ (Selection) • การเลือกรายการผลลัพธ์ เป็นการเลือกของผู้ใช้ในผลลัพธ์ที่ปรากฏของเอกสารที่สอดคล้องตรงประเด็น • ผลลัพธ์ที่ได้จากการค้นจะเรียงลำดับตามความสำคัญในกลุ่มหัวข้อต่างๆ หรือกลุ่มประเภทต่างๆ อย่างอัตโนมัติ

  39. การเปลี่ยนคำสอบถามในรอบใหม่ (Query Reformulation) • ผู้ใช้มักประสบปัญหาการตั้งคำสอบถาม บางครั้งก็ได้ผลออกมาเป็นขยะ ทำให้เสียเวลาในการเลือกข้อมูล • การแก้ปัญหาดังกล่าว คือ การปรับเปลี่ยนคำสอบถามใหม่ มี 2 วิธีที่ได้รับความนิยม คือ • Query Expansion คือ การเพิ่มเทอมในคำสอบถามของระบบ IR เพื่อให้การค้นในรอบต่อไปมีผลลัพธ์ที่ดีขึ้น • Relevance Feedback คือ การป้อนความเกี่ยวพันธ์ย้อนกลับ โดยใช้ข้อมูลดังกล่าวไปปรับเปลี่ยนคำสอบถามเก่าให้เป็นคำสอบถามใหม่ของการสืบค้นในแต่ละรอบ ซึ่งจะเป็นแบบอัตโนมัติหรือกึ่งอัตโนมัติก็ได้

  40. การปรับเปลี่ยนคำสอบถามใหม่ (ต่อ) • แหล่งข้อมูลสำหรับการปรับเปลี่ยนคำสอบถามใหม่ มี 3 แหล่ง คือ • Local Analysis เป็นแหล่งข้อมูลที่ได้จากการเอาผลลัพธ์ของเอกสารที่ถูกดึงออกมา • Global Analysis เป็นแหล่งข้อมูลที่ทำการวิเคราะห์มาจากชุดเอกสารรวมทั้งหมด และดึงเทอมที่เป็นคำสัมพันธ์(Thesaurus) มาพิจารณา • Query Reuse เป็นการนำคำสอบถามเดิมมาจากแหล่งฐานข้อมูล Query Base

  41. Query Reformation ในระบบ IR Document Corpus Thesaurus Retrieved Documents q0 IR System q Local Analysis Query Reformulation Global Analysis Query Reuse Query Base

  42. Questions & Answers

More Related