450 likes | 961 Views
ความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศ. อวชิระ หล่อประดิษฐ์. IR คืออะไร ?. การสืบค้นสารสนเทศ.
E N D
ความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศความรู้ทั่วไปเกี่ยวกับระบบการจัดเก็บและการค้นคืนสารสนเทศ อวชิระ หล่อประดิษฐ์
การสืบค้นสารสนเทศ • Information Retrieval (IR) เป็นศาสตร์ของการค้นหาข้อความ หรือสารสนเทศในเอกสาร หรือการค้นหาตัวเอกสารเอง หรือสิ่งเป้าหมายที่มีจำนวนมากให้ได้มาอย่างรวดเร็ว และที่สำคัญสอดคล้องกับความต้องการในการค้นหา • IR เป็นที่รวมของศาสตร์หลายแขนง เช่น วิทยาการคอมพิวเตอร์ คณิตศาสตร์ สารสนเทศศาสตร์ ห้องสมุดศาสตร์ ภาษาศาสตร์ วิชาทางสถิติเป็นต้น • ตัวอย่างของ IR ได้แก่ ดรรชนีท้ายเล่มของหนังสือ การใช้ Google, Yahoo เป็นต้น
กระบวนการสืบค้นใน IR Documents Query IR Information Retrieved
สิ่งเป้าหมายของ IR • Text retrieval คือ การค้นหาเอกสารที่เขียนขึ้นเป็นข้อความ เป็นตัวอักษรที่เรียงกันเป็นคำ วลี ประโยคอย่างมีกฎเกณฑ์ (syntax) และให้ความหมาย (Semantic) • Speech retrieval คือ การค้นหาในเรื่องของเสียง เป็นได้ทั้งเสียงมนุษย์ เสียงสัตว์ โดยจะต้องอาศัยผลงานด้านการรู้จำเสียง (Speech recognition) เป็นสำคัญ • Image retrieval คือ การค้นหาในเรื่องของภาพ ทั้งรูปแบบและสีสัน โดยจะอาศัยผลงานด้าน (Image processing) และการรู้จำภาพ (Pattern recognition) • Music retrieval คือ การค้นหาเรื่องของเสียงดนตรี และเสียงเพลง หรือเสียงจากเครื่องดนตรี โดยจะอาศัยผลงานด้านการรู้จำเสียง (Speech recognition)
สิ่งเป้าหมายของ IR (ต่อ) • Cross-language retrieval คือ การค้นหาข้ามภาษา กล่าวคืออาจจะกำหนดคำสอบถามภาษาหนึ่ง แต่ให้ผลของการสืบค้นสิ่งเป้าหมายเป็นอีกภาษาหนึ่ง และผลที่ได้จะแปลกลับมาเป็นภาษาแรก โดยจะใช้ผลงานด้าน การแปลภาษา (Machine translation ) • Question-Answering system คือ การถามตอบจากระบบการสืบค้น โดยคำถามจะมีลักษณะเป็น What, When, Where, Who เช่น ใครเป็นจ้าวเหรียญทองในกีฬาโอลิมปิกเมื่อปี 2000
วิวัฒนาการของ IR • 1945 : Vanneval Bush ตีพิมพ์บทความเรื่อง ‘As We May Think’ ใน Atlantic Monthly โดยตั้งชื่อว่า Memexจะกล่าวถึงจินตนาการที่กว้างไกลของอุปกรณ์เทคโนโลยีที่ใช้รวบรวมจัดเก็บเอกสารปริมาณมากๆ • 1950 : Calvin Mooerได้ตั้งชื่อ Information Retrieval • 1950 : รัฐบาลสหรัฐตระหนักถึงความล้าหลังทางวิทยาศาสตร์และเทคโนโลยี จึงทุ่มทุนสนับสนุนการวิจัยด้านนี้อย่างมหาศาล จึงทำให้ IR ได้รับการพัฒนาตามไปด้วย จึงทำให้เกิดผลผลิตมากมายในช่วงนี้ • 1959 : Hans Peter Luhnได้ประดิษฐ์ KWIC (Keyword in context) คือ การนำคำสำคัญจากชื่อเรื่องของบทความหรือเอกสารมาทำเป็นศัพท์ดรรชนี
วิวัฒนาการของ IR (ต่อ) • 1960 : Gerard Salton พัฒนาระบบการสืบค้นชื่อ SMART ที่มหาวิทยาลัย Harvard และต่อมาได้ย้ายไปที่มหาวิทยาลัย Cornell SMART มีการอ้างถึงมาจากคำว่า Salton’s Magic Automatic Retrieval of Text • 1964 : หอสมุดแห่งชาติทางการแพทย์ของสหรัฐอเมริกา พัฒนาระบบ MEDLARS (MEDical Literature Analysis and Retrieval System) เป็นครั้งแรกที่มีการสร้างฐานข้อมูลอิเล็กทรอนิกส์ขนาดใหญ่เพื่อทำการสืบค้นได้ • 1970 : มีการเปิดตัวระบบ Online ของ IR ทางธุรกิจ เช่น MEDLINE ของ NLS, DIALOG ของ Lockheadและ ORBIT ของ SDC • 1970 : Theodor Nelson ได้สานต่อความคิด Memexและกำเนิดชื่อของ Hypertext
วิวัฒนาการของ IR (ต่อ) • 1980 : มีการพัฒนาระบบ IR ทางธุรกิจ ที่สามารถสืบค้นได้ด้วยผู้ใช้เองโดยใช้ PC ต่อเข้ากับโทรศัพท์ด้วย Modem เพื่อเชื่อมเข้าสำนักงานที่ให้บริการ เช่น DIALOG, ORBIT, BRS เป็นต้น • 1990 : มีการเปิดตัวการบริการ Search Engine มากมาย เช่น Yahoo, Lycos, Infoseekเป็นต้น และบางตัวก็ต้องปิดตัวไปเพราะมีการแข่งขันทางธุรกิจอย่างดุเดือด • 1998 : มีการเปิดตัว Google ในวันที่ 7 กันยายน 1998 • 2000 : IR เจริญก้าวหน้าอย่างรวดเร็ว ตามความฝันของ Vannevar Bush แต่ก็ยังไม่เป็นจริงไปทั้งหมด
ห้องสมุดดิจิตอล (Digital Library) • ห้องสมุดดิจิตอล หมายถึง ห้องสมุดที่มีทรัพยากรอยู่ในรูปแบบของดิจิตอล เนื้อหาที่มีรูปแบบดิจิตอลนั้น อาจจะจัดเก็บอยู่ภายในห้องสมุดหรือภายนอกก็ได้ แต่สามารถเข้าถึงได้ด้วยเครือข่ายคอมพิวเตอร์ทั้งต้นทางและปลายทาง • ห้องสมุดดิจิตอลเป็นการรวมศาสตร์ในหลายแขนงวิชาการ คือ สารสนเทศศาสตร์ วิทยาการคอมพิวเตอร์ บรรณารักษ์ศาสตร์ • นอกจากเครือข่ายสื่อสารซึ่งเป็นสิ่งสำคัญแล้ว ระบบการสืบค้นและการจัดเก็บสารสนเทศก็เป็นส่วนประกอบที่สำคัญอีกอันหนึ่ง
มิติต่างๆ สู่ห้องสมุดดิจิตอล Technology Community Content Services
มิติของเทคโนโลยี (Technology) • เทคโนโลยีเป็นปัจจัยสำคัญของความสำเร็จของห้องสมุดดิจิตอล • ต้องมีเครือข่ายสื่อสารคอมพิวเตอร์ความเร็วสูง และเครื่อง PC และ Server จำนวนมาก เพื่อให้เพียงพอต่อการให้บริการ • ต้องมีคลังจัดเก็บข้อมูลขนาดใหญ่ (Mass Storage) ที่ใช้บันทึกข้อมูลในรูปแบบอิเล็กทรอนิกส์ของหนังสือ วารสาร สิ่งพิมพ์ • ในปัจจุบันได้มีเทคโนโลยี Wi-Fi, GPRS และ Plastic Transistor เข้ามาใช้งานเพื่อให้ผู้ใช้งานสามารถเข้าถึงห้องสมุดดิจิตอลได้มากขึ้น
มิติของเนื้อหา (Content) • หนังสืออิเล็กทรอนิกส์ (E-book) สามารถแสดงได้ทั้งตัวอักษร ภาพ เสียงและภาพเคลื่อนไหว ซึ่งจะทำให้ผู้อ่านเห็นภาพของเรื่องที่อ่านได้ชัดเจนขึ้น • ซึ่งในอดีตจะต้องจินตนาการตามเนื้อหาที่ได้อ่าน • ผู้ใช้ห้องสมุดดิจิตอลจะมุ่งเน้นไปยังผลลัพธ์ของการค้นหา โดยจะต้องถูกต้องและแม่นยำ • ข้อมูลจะเพิ่มขึ้น 2 เท่าในทุกๆ 2 ปี • ข้อมูลที่เก็บในห้องสมุดดิจิตอลจะต้องมีการปรับปรุงข้อมูลให้เป็นปัจจุบัน
มิติของบริการ (Services) • ห้องสมุดดิจิตอลจะให้บริการที่เป็นคนกับคอมพิวเตอร์มากกว่าคนกับคน • เครือข่ายสื่อสารคอมพิวเตอร์ที่เชื่อมโยงทั้งต้นทางและปลายทาง จึงทำให้สามรถบริการได้ 24 ชม. • ห้องสมุดดิจิตอลสามรถเข้าถึงได้ทั้งจากที่บ้านหรือสถานที่อื่นๆ ที่ใดก็ได้ • มีการเชื่อมโยงทางด้านความร่วมมือระหว่างห้องสมุดด้วยกันเพื่อเพิ่มอำนาจการต่อรองกับสำนักพิมพ์
มิติของประชาคม (Community) • ห้องสมุดดิจิตอลทำให้เกิดการเปลี่ยนแปลงของการเรียนรู้ และการทำกิจกรรมของประชาคมในผู้คนที่ได้ใช้ประโยชน์ • มหาวิทยาลัยหลายแห่งได้สร้างเอกสารประกอบการสอน ซึ่งสามารถนำออกมาเผยแพร่ได้ หรือที่เรียกว่า Open Source • บางมหาวิทยาลัยได้จัดหลักสูตรการสอนผ่านเครือข่ายสื่อสารคอมพิวเตอร์ เรียกว่า การสอนทางไกล (Distance Learning) จึงทำให้ห้องสมุดดิจิตอลเป็นเหมือนห้องสมุดที่เก็บเนื้อหาการสอนของรายวิชานั้นๆ
รูปแบบการจัดเก็บ (Format) • Image File • เป็นการจัดเก็บในลักษณะของรูปภาพ คือการถ่ายสำเนาแล้วเก็บลงบนคอมพิวเตอร์ • นามสกุลลงท้ายด้วย .bmp, .pcx, .jpg • แฟ้มมีขนาดใหญ่ ใช้พื้นที่ในการเก็บสูง • Portable Document Format • เป็นการจัดเก็บเอกสารของ Adobe System โดยแฟ้มข้อมูลจะมีขนาดเล็กกว่า Bitmap Image มาก • นามสกุลลงท้ายเป็น .pdf • ในปัจจุบัน PDF ยังสามารถแสดงภาพเคลื่อนไหว และเสียงได้ และสามารถเชื่อมโยงแบบ Hypertext Link ได้ นิยมใช้บน Internet
รูปแบบการจัดเก็บ (Format) • Tex • นำเสนอโดย ศาสตราจารย์ Donald Knuth แห่งมหาวิทยาลัย Stanford • เหมาะกับการแสดงผลในบทความที่มีสมการคณิตศาสตร์ที่ซับซ้อน • สามารถจัดรูปแบบของเอกสารได้อย่างอัตโนมัติ • นามสกุลที่ใช้เป็น .tex
รูปแบบการจัดเก็บ (Format) • Hypertext Markup Language (HTML) • เป็นภาษาที่นิยมนำมาใช้เขียนข้อความบนเว็บ • จะต้องอ่านได้ด้วยเว็บบราวเซอร์ เช่น Internet Explorer, Firefox • นามสกุลที่ใช้จะเป็น .html หรือ .htm
รูปแบบการจัดเก็บ (Format) • Open Electronic Book Package Format (OPF) • เป็นรูปแบบไฟล์ของ FlipBooks • ใช้ภาษา XML ในการสร้าง • เป็นการสร้างหนังสืออิเล็กโทรสิกส์ที่มีทั้งสารบัญ ดรรชนี บทความ รูปภาพ เสียง • ไฟล์จะมีนามสกุลเป็น .opf • ในการเปิดดูเนื้อหา จำเป็นที่จะต้องใช้โปรแกรมเฉพาะในการเปิด เช่น FlipBooks
รูปแบบการจัดเก็บ (Format) • Mobipocket • จะต้องมีโปรแกรม Mobipocket Reader เป็นตัวช่วยอ่านไฟล์ .prc • สามารถเพิ่มหน้าว่าง วาดภาพอิสระ ใส่คำอธิบาย ได้ • สนับสนุนการทำงานแสดงผลบนเครื่อง PDA หรือ Smartphone ได้ • ใช้การเขียนโปรแกรมโดยใช้ภาษา XHTML และ JavaScript
รูปแบบการจัดเก็บ (Format) • Desktop Author • เป็นโปรแกรมสำหรับสร้างเอกสารดิจิตอล • สามารถแสดงภาพ เสียง ภาพเคลื่อนไหว ไฟล์ภาพยนตร์ ไฟล์ Flash และเสียงบรรยาย • ไฟล์ที่ได้จะมีนามสกุลชนิด .exe
การค้นคืนสารสนเทศออนไลน์การค้นคืนสารสนเทศออนไลน์ • อินเทอร์เน็ต คือ ห้องสมุดขนาดใหญ่นั่นเอง • การค้นหาข้อมูลบนอินเทอร์เน็ตแตกต่างจากค้นหาข้อมูลในห้องสมุดอย่างสิ้นเชิง • ห้องสมุดมีเวลาเปิด-ปิด แต่อินเทอร์เน็ตทำการ 24 ชม. • บนอินเทอร์เน็ตเราสามารถค้นหาข้อมูลได้จากที่บ้าน ที่ทำงาน หรือสถานที่อื่นๆ แต่ห้องสมุดต้องเดินทางไปที่ห้องสมุดเท่านั้น • บนอินเทอร์เน็ตจะมีข้อมูลหลากหลายรูปแบบให้ค้นหาได้ • www.google.com คือ จักรกลค้นหาหรือ Search Engine ที่ได้รับความนิยมเป็นอย่างมาก
ประเภทของการค้นหาบนอินเทอร์เน็ตประเภทของการค้นหาบนอินเทอร์เน็ต • การจัดประเภทการค้นหา จะอ้างอิงจาก Search Engine ได้ดังนี้ • Web Search คือ การเป็นการค้นหาที่ Search Engine เป็นผู้ให้บริการเป็นหลัก นั่นคือการค้นหาเว็บไซท์นั่นเอง • Directory Search คือ การค้นหาตามประเภทของเนื้อเรื่อง เช่น Science Sports Games • Book Search คือ การค้นหาหนังสือ ตามชื่อเรื่อง ชื่อผู้แต่ง หรือตามชื่อสำนักพิมพ์ • Earth Search คือ การค้นหาแผนที่โลก โดยค้นหาจากชื่อเมือง ชื่อประเทศ โดยจะมีลักษณะเป็นการถ่ายภาพจากดาวเทียมมาแสดง • News Search คือ การค้นหาข่าวสารที่เกิดขึ้นทั่วโลกจากแหล่งข่าวต่างๆ
โมเดลของ IR • โมเดล หมายถึง รูปแบบที่แสดงในเชิงตรรกะ เพื่อจำลองสิ่งของในระบบ หรือตัวระบบเอง รวมทั้งจำลองการปฏิบัติการในสิ่งเป้าหมายอย่างมีเหตุและผล • โมเดลของ IR อาจจะเขียนเป็นรูปภาพหรือสัญลักษณ์และมีลายเส้นโยงต่อกันไปมา และที่สำคัญเขียนเป็นสัญลักษณ์ทางคณิตศาสตร์และการคำนวณทางคณิตศาสตร์
โมเดลต้นแบบของ IR • Classical Boolean Model อาศัยทฤษฎี Set Theory เป็นฐานทางคณิตศาสตร์ในการพัฒนาระบบ IR ภายในระบบมีโมเดลของเอกสาร • Vector Space Modelเป็นการปรับปรุงโมเดลแรก ใช้วิธีการของ Matrix Algebra • Probabilistic Relevance Model อาศัยทฤษฎี Probability Theory เป็นฐานทางคณิตศาสตร์ โดยจะแตกต่างกับอันอื่นที่แนวคิดในการใช้ Matching • Directory Model เป็นการจัดหมวดหมู่อย่างเป็นระบบตามลำดับชั้นแบบ Tree • Hypertext Model เป็นรูปแบบที่มีโครงสร้างเป็น Directed Graph ชี้จากข้อความหนึ่งในเอกสาร ชี้ไปอีกข้อความหนึ่งในเอกสารอีกแห่งหนึ่ง
การประเมินผลของ IR • การประเมินผลของ IR เป็นกระบวนการที่ใช้เพื่อวัดสมรรถนะของระบบ คุณภาพของบริการ กระบวนการทำงาน รวมทั้งอาจใช้เพื่อกรเปรียบเทียบระบบต่อระบบ • ตัววัดการประเมินผลที่สำคัญได้แก่ การหาค่า Recall และ Precision • Recallเป็นการวัดความสามารถของระบบในการค้นหาเอกสารที่เกี่ยวพันธ์ • Precisionเป็นการวัดความแม่นยำของระบบวนการค้นหาเอกสารได้ถูกต้อง ค่า Recall = tp / (tp+fn) ค่า Precision = tp / (tp+fp)
ขั้นตอนการประมวลผลของ IR • การทำดรรชนี (Indexing) เป็นการสร้างตัวแทนเอกสาร • การจัดรูปแบบคำสอบถาม (Query Formulation) เป็นการสร้างตัวแทนคำสอบถาม • การเทียบเคียงจับคู่ (Matching) เป็นจับคู่ระหว่างตัวแทนคำสอบถามกับตัวแทนเอกสาร • การเลือก (Selection)รายการผลลัพธ์ที่ตรงประเด็น • การปรับเปลี่ยนคำสอบถามใหม่ (Query Reformulation) เป็นค้นหาในรอบต่อไป
การทำดรรชนี (Indexing) • วัตถุประสงค์ของการทำดรรชนีก็เพื่อทำเป็นตัวแทนเอกสาร โดยจัดเป็นหมวดหมู่อย่างเป็นระบบ Documents Lexical Analysis Stop-word Elimination Stemming Term Selection Thesaurus Construction Indexing Index Term
การจัดรูปแบบคำสอบถาม (Query Formulation) • การเขียนคำสอบถามเพื่อการค้นหาสามารถทำได้หลายรูปแบบ • การใส่คำสำคัญ (Keywords) เป็นการนำคำศัพท์หลายคำมาเรียงต่อกัน • การใส่คำสำคัญนี้เป็นการใช้ Boolean Operators เช่น And, Or, NOT เป็นต้น ในการเชื่อมคำ • ส่วนอีกวิธีหนึ่งจะใช้ Wild Card Character แทนตัวอักษร เช่น Comput*
การเทียบเคียงจับคู่ (Matching) • การ Matching คือการจับคู่ระหว่างคำสอบถามกับเอกสาร โดยใช้ผลของขั้นตอนก่อนหน้านี้ • โดยวิธีการนั้นจะขึ้นอยู่กับโมเดลของ IR • หากเป็น Boolean Model จะใช้การเทียบเคียงเพียง 2 ค่า คือ Match กับ Not match • หากเป็น Vector Model จะใช้ผลที่ได้จากการคำนวณของเวกเตอร์ของคำสอบถามและของเอกสาร ซึ่งเป็นการวัดความใกล้เคียงสอดคล้องของแต่ละคู่ ถ้าค่ามากจะแสดงว่ามีความสอดคล้องสูง • หากเป็น Probabilistic Modelค่าการเทียบเคียงจะได้จากค่าความน่าจะเป็นเปรียบเทียบของคู่คำสอบถามกับเอกสารในความเกี่ยวพันธ์ และไม่เกี่ยวพันธ์ต่อกัน หากแต่การคำนวณจะยุ่งยากกว่า Vector Model
การเลือกรายการผลลัพธ์ (Selection) • การเลือกรายการผลลัพธ์ เป็นการเลือกของผู้ใช้ในผลลัพธ์ที่ปรากฏของเอกสารที่สอดคล้องตรงประเด็น • ผลลัพธ์ที่ได้จากการค้นจะเรียงลำดับตามความสำคัญในกลุ่มหัวข้อต่างๆ หรือกลุ่มประเภทต่างๆ อย่างอัตโนมัติ
การเปลี่ยนคำสอบถามในรอบใหม่ (Query Reformulation) • ผู้ใช้มักประสบปัญหาการตั้งคำสอบถาม บางครั้งก็ได้ผลออกมาเป็นขยะ ทำให้เสียเวลาในการเลือกข้อมูล • การแก้ปัญหาดังกล่าว คือ การปรับเปลี่ยนคำสอบถามใหม่ มี 2 วิธีที่ได้รับความนิยม คือ • Query Expansion คือ การเพิ่มเทอมในคำสอบถามของระบบ IR เพื่อให้การค้นในรอบต่อไปมีผลลัพธ์ที่ดีขึ้น • Relevance Feedback คือ การป้อนความเกี่ยวพันธ์ย้อนกลับ โดยใช้ข้อมูลดังกล่าวไปปรับเปลี่ยนคำสอบถามเก่าให้เป็นคำสอบถามใหม่ของการสืบค้นในแต่ละรอบ ซึ่งจะเป็นแบบอัตโนมัติหรือกึ่งอัตโนมัติก็ได้
การปรับเปลี่ยนคำสอบถามใหม่ (ต่อ) • แหล่งข้อมูลสำหรับการปรับเปลี่ยนคำสอบถามใหม่ มี 3 แหล่ง คือ • Local Analysis เป็นแหล่งข้อมูลที่ได้จากการเอาผลลัพธ์ของเอกสารที่ถูกดึงออกมา • Global Analysis เป็นแหล่งข้อมูลที่ทำการวิเคราะห์มาจากชุดเอกสารรวมทั้งหมด และดึงเทอมที่เป็นคำสัมพันธ์(Thesaurus) มาพิจารณา • Query Reuse เป็นการนำคำสอบถามเดิมมาจากแหล่งฐานข้อมูล Query Base
Query Reformation ในระบบ IR Document Corpus Thesaurus Retrieved Documents q0 IR System q Local Analysis Query Reformulation Global Analysis Query Reuse Query Base