slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
การจัดทำดรรชนี PowerPoint Presentation
Download Presentation
การจัดทำดรรชนี

Loading in 2 Seconds...

play fullscreen
1 / 61

การจัดทำดรรชนี - PowerPoint PPT Presentation


  • 257 Views
  • Uploaded on

อ . วชิระ หล่อประดิษฐ์. การจัดทำดรรชนี. ขั้นตอนการประมวลผลของ IR. การทำดรรชนี (Indexing) เป็นการสร้างตัวแทนเอกสาร การจัดรูปแบบคำสอบถาม (Query Formulation) เป็นการสร้างตัวแทนคำสอบถาม การเทียบเคียงจับคู่ (Matching) เป็นจับคู่ระหว่างตัวแทนคำสอบถามกับตัวแทนเอกสาร

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'การจัดทำดรรชนี' - helen-pierce


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2
ขั้นตอนการประมวลผลของ IR
  • การทำดรรชนี (Indexing) เป็นการสร้างตัวแทนเอกสาร
  • การจัดรูปแบบคำสอบถาม (Query Formulation) เป็นการสร้างตัวแทนคำสอบถาม
  • การเทียบเคียงจับคู่ (Matching) เป็นจับคู่ระหว่างตัวแทนคำสอบถามกับตัวแทนเอกสาร
  • การเลือก (Selection)รายการผลลัพธ์ที่ตรงประเด็น
  • การปรับเปลี่ยนคำสอบถามใหม่ (Query Reformulation) เป็นค้นหาในรอบต่อไป
slide3
นักทำดรรชนี
  • นักทำดรรชนีมีหน้าที่ในการวิเคราะห์เอกสารและกำหนดรายการคำศัพท์ดรรชนี บทพื้นฐานความรู้เกี่ยวกับเนื้อหาของเอกสาร
  • และนักทำดรรชนียังมีหน้าที่ในการวิจารณ์หนังสือดรรชนี หรือดรรชนีในรูปแบบอื่นๆ รวมทั้งการฝึกอบรมเกี่ยวกับการสร้างดรรชนีอีกด้วย
  • นักทำดรรชนีจะใช้เวลาประมาณกึ่งหนึ่งของเวลางานในการจัดทำดรรชนี
  • นักทำดรรชนีเป็นผู้ที่ทีภูมิหลังทางการศึกษาและประสบการณ์แตกต่างกัน
slide4
คุณสมบัติของนักทำดรรชนีคุณสมบัติของนักทำดรรชนี
  • ต้องมีความรู้ความเข้าใจในองค์ความรู้แขนงที่จะทำดรรชนีและความรู้ที่เกี่ยวข้องสัมพันธ์กัน เช่น การทำดรรชนีเกี่ยวกับคอมพิวเตอร์ผู้จัดทำจะต้องเข้าใจคำศัพท์ด้านคอมพิวเตอร์ที่ชัดเจน
  • ต้องมีความรู้ ความชำนาญเกี่ยวกับการจัดทำดรรชนี
  • ต้องมีความรู้ความเข้าใจเกี่ยวกับผู้ใช้ ว่ามีความต้องการในการค้นหาเอกสารต่างๆ อย่างไรให้ง่ายที่สุด
slide5
ความหมายของการทำดรรชนีความหมายของการทำดรรชนี
  • ดรรชนี(Index) เป็นเครื่องมือ หรือ หน้าที่เครื่องช่วยค้น หรือเครื่องมือชี้ไปสู่ข้อมูลและแหล่งข้อมูลที่ผู้ใช้ประสงค์
  • ดรรชนี คือ กลไกเชิงภาษาประเภทหนึ่ง มีฐานะเป็นตัวแทนสาระของเอกสารและมีบทบาทในการเป็นเครื่องมือช่วยค้นหรือแนะผู้ใช้ไปสู่เอกสารหรือข้อมูลที่ตรงกับความต้องการ
  • การทำดรรชนี (Indexing) คือ กระบวนการการสร้างตัวแทนสาระของเอกสาร โดยมีนักทำดรรชนี (Indexer) เป็นผู้วิเคราะห์เอกสารและระบุตำแหน่ง โดยผลลัพธ์ที่ได้คือ รายการดรรชนี (Index entry) หรือคำค้น (Index term)
slide6
ความสำคัญของการทำดรรชนีความสำคัญของการทำดรรชนี
  • การทำดรรชนีเป็นการสร้างความเป็นไปได้ในการเข้าถึงข้อมูล
  • ระบบดรรชนีที่มีคุณภาพนับเป็นปัจจัยสำคัญที่ช่วยประหยัดเวลาและลดค่าใช้จ่ายในการแสวงหาสารสนเทศ
  • การจัดทำดรรชนีเป็นกระบวนการทางปัญญาที่มีผลในการเพิ่มมูลค่าให้กับเอกสารข้อมูลต่าง
slide7
วัตถุประสงค์ของการจัดทำดรรชนีวัตถุประสงค์ของการจัดทำดรรชนี
  • เพื่อสร้างตัวแทนสาระของเอกสารให้อยู่ในรูปที่เหมาะสมต่อการบันทึกไว้ในฐานข้อมูล
  • ฐานข้อมูลในการจัดเก็บมีได้หลายรูปแบบ เช่น หนังสือ บัตรรายการที่จัดเรียงในตู้ หรือฐานข้อมูลคอมพิวเตอร์ เป็นต้น
  • เพื่อที่จะช่วยให้ผู้ใช้ประหยัดเวลาและแรงงานในการเข้าถึงข้อมูลที่ตรงกับความต้องการ
slide8
ตัวอย่างดรรชนีท้ายเล่มตัวอย่างดรรชนีท้ายเล่ม
slide9
ขอบเขตของดรรชนีและการจัดทำดรรชนีขอบเขตของดรรชนีและการจัดทำดรรชนี
  • อินเทอร์เน็ตเป็นดรรชนีที่มีขอบเขตกว้างขวางที่สุด
  • ดรรชนีท้ายเล่มหนังสือ ถือว่าเป็นดรรชนีที่แคบที่สุด เพราะเข้าถึงข้อมูลได้เฉพาะเล่มนั้นๆ เท่านั้น
  • ดรรชนีจะทำหน้าที่สมบูรณ์ก็ต่อเมื่อ มีข้อมูลเพื่อการเข้าถึงลักษณะทางกายภาพ (Physical access) เช่น ข้อมูลเกี่ยวกับสถานที่พิมพ์ ใครเป็นผู้วิจัย เป็นต้น
  • ภาษาบรรณานุกรม(Bibliographic language) คือ การอธิบายรายละเอียดต่างๆ เกี่ยวกับหนังสือ หรือเอกสารนั้น
slide10
บทบาทของการจัดทำดรรชนีบทบาทของการจัดทำดรรชนี

เอกสารที่จะทำดรรชนี

ปัญหาจากผู้ใช้

กฎเกณฑ์ของระบบ

วิเคราะห์เนื้อหาของเอกสาร

วิเคราะห์/ตีความคำถาม

คลังศัพท์

จัดทำรายการดรรชนี

แปลงเป็นคำแทนสาระของคำถาม

ปรับ/แก้ไข

ปรับ/แก้ไข

ฐานข้อมูล

กลไกเปรียบเทียบ

แฟ้มคำถาม

รายการที่ค้นได้

ไม่พึงพอใจ

ไม่พึงพอใจ

ตรวจสอบ/ประเมิน

พอใจ

ยุติ

slide11
บทบาทของการจัดทำดรรชนีบทบาทของการจัดทำดรรชนี
  • เอกสารทุกชนิด ก่อนที่จะได้รับการจัดสรรเข้าระบบ จะต้องผ่านกระบวนการจัดทำดรรชนีก่อน
  • โดยเอกสารใหม่ก่อนนำเข้าสู่ตำแหน่งที่วางเอกสาร จะต้องมีสร้างคำแทนสาระ หรือศัพท์ดรรชนีที่เกิดจากการวิเคราะห์เอกสารก่อน
  • ในกรณีระบบได้รับคำถามจากผู้ใช้ ระบบจะเปลี่ยนคำถามให้เป็นคำแทนสาระของคำถาม
  • เมื่อได้คำแทนสาระของเอกสาร จะมีการนำคำแทนสาระและศัพท์ดรรชนีมาเปรียบเทียบกัน
  • ถ้าหากเหมือนกันระบบจะนำเอกสารนั้นออกมา
slide12
ประเภทของดรรชนี
  • การจำแนกดรรชนี สามารถทำได้หลายวิธี โดยจะดูจากแนวคิดของผู้จัดทำว่าจะจำแนกในลักษณะใด ในการวิเคราะห์แยกแยะ
  • ในที่นี้จำแนกเป็น 2 ประเภท
    • ดรรชนีจำแนกตามวิธีการในการจัดทำ
    • ดรรชนีที่จำแนกตามเงื่อนไขเวลาในการเชื่อมแนวคิด
slide13
ดรรชนีที่จำแนกตามวิธีการในการจัดทำดรรชนีที่จำแนกตามวิธีการในการจัดทำ
  • ใช้วิธีในการพิจารณาวิธีในการจัดทำดรรชนี
  • แบ่งได้เป็น 2 ประเภท คือ
    • ดรรชนีที่จัดทำโดยวิธีการนำเอาคำในเอกสารมาเป็นศัพท์ดรรชนี โดยใช้วิธีในการดึงคำจากเอกสารมาทำเป็นศัพท์ดรรชนี
    • ดรรชนีที่จัดทำขึ้นโดยวิธีการกำหนดคำขึ้นแทนเนื้อหาของเอกสาร ทำการคิดคำขึ้นแทนเอกสารนั้นๆ
slide14
ดรรชนีที่จัดทำโดยการนำเอาคำในเอกสารมาเป็นศัพท์ดรรชนีดรรชนีที่จัดทำโดยการนำเอาคำในเอกสารมาเป็นศัพท์ดรรชนี
  • เป็นการนำเอาคำจากเอกสารมาสร้างเป็นศัพท์ดรรชนี
  • โดยมีเนื้อหาครอบคลุมดังต่อไปนี้
    • ดรรชนีผู้แต่ง (Author index)เป็นดรรชนีที่เป็นชื่อผู้แต่ง มาจัดเรียงตามตัวอักษร
slide15
ดรรชนีที่จัดทำโดยการนำเอาคำในเอกสารมาเป็นศัพท์ดรรชนีดรรชนีที่จัดทำโดยการนำเอาคำในเอกสารมาเป็นศัพท์ดรรชนี
  • ดรรชนีชื่อเรื่อง (Title index) เป็นดัชนีที่แสดงชื่อเรื่องเป็นหลัก จัดเรียงตามตัวอักษร
  • ดรรชนีคำในบริบท (Keyword in context index) ใช้คำสำคัญจากชื่อเรื่องของเอกสารมาเป็นศัพท์ดรรชนี
slide16
ดรรชนีที่จัดทำโดยการนำเอาคำในเอกสารมาเป็นศัพท์ดรรชนีดรรชนีที่จัดทำโดยการนำเอาคำในเอกสารมาเป็นศัพท์ดรรชนี
  • ดรรชนีเรื่อง (Subject index) การนำคำที่ปรากฏในเนื้อเรื่องออกมาเป็นคำศัพท์ดรรชนี
slide17
ดรรชนีที่จัดทำขึ้นโดยวิธีการกำหนดคำขึ้นแทนเนื้อหาของเอกสารดรรชนีที่จัดทำขึ้นโดยวิธีการกำหนดคำขึ้นแทนเนื้อหาของเอกสาร
  • เป็นการกำหนดคำแทนแนวคิดที่ปรากฏในเอกสาร
  • คำที่นำมาใช้อาจมีในเอกสารหรือเป็นคำที่อยู่นอกเหนือจากเอกสารนั้นก็ได้
  • นักทำดรรชนีจะทำการวิเคราะห์เนื้อหาของเอกสาร แล้วนำเอาคำศัพท์ในคลังศัพท์มาใช้แทนเนื้อหา
  • เช่น บัญชีหัวเรื่อง
slide18
ดรรชนีที่จำแนกตามเงื่อนไขเวลาในการเชื่อมแนวคิดดรรชนีที่จำแนกตามเงื่อนไขเวลาในการเชื่อมแนวคิด
  • พิจารณาจากเงื่อนไขเวลาในการเชื่อมคำหรือแนวความคิดในการค้นคืนเป็นหลัก
  • แบ่งได้เป็น 2 ประเภท คือ
    • ดรรชนีที่มีการเชื่อมแนวคิดไว้ก่อนการค้น(Pre-coordinate index) คือ การกำหนดคำแทนสาระของเอกสารของแต่ละรายการด้วยวิธีการเชื่อมคำศัพท์ให้ตรงกับเนื้อหา
    • ดรรชนีที่เอื้อต่อการเชื่อมแนวคิดขณะค้น (Post-coordinate index) คือ การกำหนดให้คำแทนสาระของเอกสารแยกออกมาเป็นคำ และใช้คำเชื่อมในการค้นหา
slide19
ดรรชนีที่มีการเชื่อมแนวคิดไว้ก่อนการค้นดรรชนีที่มีการเชื่อมแนวคิดไว้ก่อนการค้น
  • ใช้วิธีการเชื่อมแนวคิดไว้ก่อนการค้นที่เห็นเป็นรูปธรรมชัดเจน
  • การกำหนดคำแทนสาระของเอกสารของแต่ละรายการด้วยวิธีการเชื่อมคำศัพท์ให้ตรงกับเนื้อหา
  • ในการค้น ผู้ค้นจะต้องค้นตามสูตรจึงจะพบเอกสารนั้น
  • เช่น ระบบแคตาล็อก คือ นำรายการทรัพยากรสารสนเทศไว้ในรูปบัตรหรือรูปเล่นหนังสือเพื่อช่วยในการค้นหา

ศาสนากับวิทยาศาสตร์

มลพิษทางเสียง-เครื่องบิน

ไทย-ประวัติศาสตร์-กรุงรัตนโกสินทร์,2475

slide20
ดรรชนีที่เอื้อต่อการเชื่อมแนวคิดขณะค้นดรรชนีที่เอื้อต่อการเชื่อมแนวคิดขณะค้น
  • ใช้การปล่อยคำแสดงแนวคิดของเอกสารให้เป็นอิสระจากกัน
  • ใช้คำเชื่อมในการเชื่อมคำเหล่านั้นในขณะค้น เช่น and, or, not
  • ศัพท์ดรรชนีที่ใช้อาจจะเป็นคำมูล เช่น นก มาลัย หรือเป็นคำประสมก็ได้เช่น ป่าชุมชน ศัลยกรรมพลาสติก ก็ได้
  • ระบบนี้มักมีความยืดหยุ่นมากกว่าแบบแรก

มลพิษทางเสียง

เครื่องบิน

แล้วเชื่อมโดย or ในขณะค้น

slide21
แบบฝึกหัดระหว่างเรียนแบบฝึกหัดระหว่างเรียน
  • ให้ทำการตอบคำถามต่อไปนี้

ใบงานที่ 4

slide22
การจัดทำดรรชนีโดยอาศัยคอมพิวเตอร์การจัดทำดรรชนีโดยอาศัยคอมพิวเตอร์
  • ในยุคเริ่มแรกการสร้างดรรชนี มักทำด้วยมนุษย์โดยใช้กระบวนการต่างๆ
  • เนื่องจากสารสนเทศมีปริมาณมากขึ้นเรื่อยๆ การทำดรรชนีด้วยมนุษย์จึงทำได้ยาก
  • ในระยะเริ่มแรกใช้คอมพิวเตอร์ในช่วยในงานเสมียนเท่านั้น เช่น การพิมพ์รายการดรรชนี
  • เมื่อเทคโนโลยีมีการพัฒนาให้มีประสิทธิภาพสูงขึ้น จึงได้มีการคิดค้นระบบดรรชนีอัตโนมัติขึ้น
slide23
การปรับเปลี่ยนกระบวนการในการสร้างดรรชนีด้วยคอมพิวเตอร์การปรับเปลี่ยนกระบวนการในการสร้างดรรชนีด้วยคอมพิวเตอร์
  • การปรับเปลี่ยนกระบวนการด้านภาษาดรรชนี คือมีการปรับเปลี่ยนกระบวนการจากการเชื่อมแนวคิดก่อนการค้นมาเป็นการเชื่อมแนวคิดขณะค้น
  • การปรับเปลี่ยนกระบวนการด้านบทบาทหน้าที่ ได้มีการปรับเปลี่ยนกระบวนการจากรูปแบบการค้นที่สร้างโดยนักทำดรรชนีมาเป็นผู้ใช้เริ่มตีความคำถามได้ด้วยตัวเอง
  • การปรับเปลี่ยนกระบวนการด้านเทคโนโลยีคอมพิวเตอร์ ปรับเปลี่ยนจากแนวคิดที่ยึดติดกับปัญญาของมนุษย์มาเป็น การยอมรับของกระบวนการต่างๆ จากคอมพิวเตอร์
slide24
ขั้นตอนในการใช้คอมพิวเตอร์ในการสร้างดรรชนีขั้นตอนในการใช้คอมพิวเตอร์ในการสร้างดรรชนี
  • ขั้นตอนที่ 1 มนุษย์พิจารณารูปแบบของการสร้างดรรชนี แล้วกำหนดขอบเขตให้คอมพิวเตอร์รู้จัก เช่น เอาหัวเรื่องมาสร้าง ก็กำหนดหัวเรื่องให้คอมพิวเตอร์รู้จัก
  • ขั้นตอนที่ 2 บันทึกเอกสารในรูปที่คอมพิวเตอร์เข้าใจ แล้วจะเป็นกระบวนการทำงานของคอมพิวเตอร์ตามคำสั่ง เพื่อให้ได้มาซึ่งดรรชนีที่ต้องการ
  • ขั้นตอนที่ 3ตรวจสอบ แก้ไข และประเมินผลระบบ
slide25
ดรรชนีที่สร้างโดยคอมพิวเตอร์ดรรชนีที่สร้างโดยคอมพิวเตอร์
  • ดรรชนีที่สร้างโดยการนำคำในบริบทมาเป็นศัพท์ดรรชนี วิธีการคือ ให้คอมพิวเตอร์อ่าน แล้วข้ามคำที่ไม่สำคัญออกไป หรืออาจจะใช้วิธีการคำนวณความถี่ของคำที่ปรากฏในเอกสาร หรืออาจจะใช้พจนานุกรมในการเปรียบเทียบก็ได้
  • ดรรชนีที่สร้างโดยการกำหนดคำขึ้นแทนสาระของเอกสาร เป็นการใช้วิธีการในการพัฒนาเทคโนโลยีคอมพิวเตอร์ให้สามารถวิเคราะห์เนื้อหาและกำหนดค่าแทนสาระของเอกสาร
indexing
การจัดทำดรรชนี (Indexing)

Documents

Lexical Analysis

Stop-word Elimination

Stemming

Term Selection

Thesaurus Construction

Indexing

Index Term

slide27
การประมวลผลข้อความ
  • การประมวลผลข้อความ หมายถึง การปฏิบัติตามกรรมวิธี เพื่อนำผลที่ได้มาสร้างดรรชนี (Indexing) อันจะทำให้การค้นหา (Searching) ในขั้นตอนต่อไปเป็นไปอย่างรวดเร็ว
  • โดยมีขั้นตอนหลัก ต่อไปนี้
    • การวิเคราะห์คำ (Lexical Analysis)
    • การขจัดคำโหล (Stop-words)
    • การหารากศัพท์ของคำ (Stemming)
    • การเลือกเทอมเพื่อสร้างดรรชนี (Term Selection)
    • การสร้างคำศัพท์สัมพันธ์ (Thesaurus Construction)
lexical analysis
การวิเคราะห์คำ (Lexical Analysis)
  • เป็นการนำประโยคยาวๆ มาตัดออกเป็นคำศัพท์ย่อยๆ
  • ในภาษาอังกฤษมักจะตัดด้วย ช่องว่าง หรือ . , ; ? ! / เป็นต้น
  • ในภาษาไทยให้ใช้วิธีการแยก ดังนี้
    • พยัญชนะ + สระ เช่น ปี กา ไป
    • พยัญชนะ + สระ + พยัญชนะปิดท้าย (น ร ล ด ต ธ ท ก ค ง บ ม ป) เช่น ปาก กาว สาว ไกล
    • พยัญชนะ + พยัญชนะ (น ร ล ด ต ธ ท ก ค ง บ ม ป) เช่น กก กบ กด
    • พยัญชนะ + สระ + สระ เช่น เรา เสา
slide29
ตัวอย่างการวิเคราะห์คำตัวอย่างการวิเคราะห์คำ
  • Ex. “I am a student of RMUTLL.”
  • การตัดคำ
    • นับทีละ 1 ตัวอักษร จะได้คำดังนี้
      • I
      • am
      • a
      • student
      • of
      • RMUTLL
slide30
แบบฝึกหัด
  • “Pease porridge hot, pease porridge cold.”
  • “Pease porridge in the pot”
  • “ฉันเป็นนักศึกษาของมหาวิทยาลัยเทคโนโลยีราชมงคลลำปาง”
  • “พวกเราเรียนวิชาการค้นคืนสารสนเทศ”
  • “ฉันเป็นนักศึกษาของมหาวิทยาลัยเทคโนโลยีราชมงคลลำปางและพวกเราเรียนวิชาการค้นคืนสารสนเทศ”
stop words elimination
การขจัดคำโหล (Stop-words Elimination)
  • คำที่พบบ่อยมากในข้อความ เช่น a, an, the, and, about, for เป็นต้น
  • คำในภาษาไทย เช่น เป็น อยู่ คือ หรือ และ ดังนั้น ฯลฯ
  • เนื่องจากคำเหล่านี้มีจำนวนมาก จึงไม่จำเป็นที่จะต้องนำมาสร้างดรรชนี
stemming
การหารากศัพท์ (Stemming)
  • คือการนำคำศัพท์มาหาศัพท์หลัก หรือต้นตอของคำศัพท์
  • มักปรากฏในข้อความภาษาอังกฤษ เช่น Loads, Loading, Loaded, Loader
  • จากคำตัวอย่าง มาจากคำว่า Load
  • มักไม่ปรากฏในภาษาไทย
  • ในการแยกให้ใช้กฎตามหลักภาษาต่างๆ เช่น –icalให้เปลี่ยนเป็น –icดังตัวอย่าง musical -> music
term selection
การเลือกเทอมเพื่อสร้างดรรชนี (Term Selection)
  • ในอดีตจำเป็นต้องมีผู้เชี่ยวชาญในการเลือกคำศัพท์
  • แต่ในปัจจุบันมีระบบคอมพิวเตอร์เข้ามาช่วย ซึ่งวิธีที่ดีที่สุดคือ การเลือกเฉพาะคำศัพท์ (Noun)
  • โดยใช้วิธีการ แยกคำสรรพนาม กริยา คุณศัพท์ คำวิเศษณ์ ออกมาก่อนอย่างชัดเจน และทำการค้นเอาเฉาพะคำที่ไม่ได้กำหนดไว้ออกมา
  • เช่น ฉันเป็นนักศึกษาเหมือนกับเขาซึ่งเรียนที่มหาวิทยาลัยเดียวกัน จะได้เป็น นักศึกษา มหาวิทยาลัย
thesaurus construction
การสร้างคำศัพท์สัมพันธ์ (Thesaurus Construction)
  • หมายถึง การสร้างฐานข้อมูลคำศัพท์ที่มีความหมายใกล้เคียง หรือเหมือนกัน
  • หากบริหารจัดการระบบ Thesaurus ได้ดี จะสามารถทำให้ระบบ IR ช่วยในการตั้งคำสอบถามใหม่ หากผลลัพธ์ที่ได้ไม่เป็นที่น่าพอใจ
  • องค์ประกอบของ Thesaurus
    • คำศัพท์หลักของชุด
    • คำที่มีความหมายพ้องกับคำศัพท์หลัก (UF)
    • ข้อความอธิบายคำศัพท์หลัก (SN)
    • คำที่มีความสัมพันธ์กับคำหลัก ประกอบด้วย
      • คำที่เป็นคำต้นสกุลของคำหลัก (TT)
      • คำที่มีความหมายกว้างกว่าคำหลัก (BT)
      • คำที่มีความหมายแคบกว่าคำหลัก (NT)
      • คำที่มีเกี่ยวข้องกับคำหลัก (RT)
thesaurus
ตัวอย่าง Thesaurus

ข้อความอธิบายคำศัพท์หลัก

  • EMPLOYEE
  • SN Persons identified as working for another, but where the nature of the occupation, business, or industry is not known
  • UF PERSONEL

STAFF

WORKERS

  • BT PEOPLE
  • NT HOTEL EMPLOYEES

RAILROAD EMPLOYEES

คำที่มีความหมายพ้องกับศัพท์หลัก

คำที่มีความหมายกว้างกว่าคำหลัก

คำที่มีความหมายแคบกว่าคำหลัก

slide37
การค้นหาในเอกสาร
  • มีวิธีการค้นหาอยู่ 2 วิธีหลัก
    • วิธีการกวาดหา (Scan)คือ การกวาดหาคำศัพท์ที่ต้องการในเอกสารทั้งหมด
    • การสร้างดรรชนีในการค้นหา(Index) คือ การหาคำแทนเนื้อหาของเอกสารนั้น
indexing1
การสร้างดรรชนีคำศัพท์ (Indexing)
  • วิธีการใช้แฟ้มผกผัน (inverted Files) เป็นการกวาดคำศัพท์ทั้งหมดในเอกสาร แล้วนำคำศัพท์มาสร้างเป็นพจนานุกรม และแฟ้มข้อมูลตำแหน่ง
  • การใช้ Suffix Trees และ Suffix Arrays เป็นมองเอกสารทั้งหมดเป็นตัวอักขระ และพิจารณาคำศัพท์ดรรชนีจากส่วนท้ายของ Suffix
  • การใช้แฟ้มข้อมูลลายเซ็น (Signature Files) เป็นการกำหนดรหัสเฉพาะในคำศัพท์ที่ประกอบขึ้นเป็นเอกสาร เรียกรหัสว่าลายเซ็น
slide39
การสร้างแฟ้มข้อมูลผกผันการสร้างแฟ้มข้อมูลผกผัน
  • ส่วนของพจนานุกรม (Dictionary)ประกอบด้วยคำศัพท์ต่างๆ ไม่ซ้ำกัน โดยมีการจัดเรียงลำดับหรือไม่เรียงก็ได้
  • ส่วนของตำแหน่ง (Address) บ่งบอกตำแหน่งของศัพท์ที่ปรากฏในเอกสาร โดยจะเป็นไปตามระบบการจัดเก็บเนื้อหา
  • ส่วนของเนื้อหา (Text)เป็นข้อมูลของเอกสารที่ต้องการจัดเก็บ
slide40
การสร้างแฟ้มข้อมูลผกผันการสร้างแฟ้มข้อมูลผกผัน
  • ต้องมีการกำหนดคำศัพท์ดรรชนี เพื่อกำหนดตำแหน่งในเอกสาร
  • โดยมีการอ้างอิงดังรูป

Dictionary

Address

Text

slide41
การสร้างแฟ้มข้อมูลผกผันการสร้างแฟ้มข้อมูลผกผัน
  • Memory-based Inversion เป็นการสร้าง Dictionary โดยการเก็บตำแหน่งของศัพท์ที่ปรากฏในเอกสารลงไปทันที
  • Sort-based Inversion เป็นการสร้างตำแหน่งแล้วเก็บบน Harddiskแล้วนำข้อมูลนั้นมาจัดเรียงในหน่วยความจำหลักแล้วเก็บลง Harddiskใหม่อีกครั้ง
memory based inversion algorithm
Memory-based Inversion Algorithm
  • /*initialization*/
    • Create an empty dictionary structure
  • /*collection of term appearances*/

For each in the collection

    • Read parsing it into index terms
    • For each index term
      • Let be the frequency in of term
      • Search for
      • If is not in ,insert it
      • Append a node storing to the list corresponding to term
  • /*output of inverted file*/

For each term

    • Start a new inverted file entry
    • For each in the corresponding to , append to this inverted file entry
    • Append this inverted file entry to the inverted file
sort based inversion algorithm
Sort-based Inversion Algorithm
  • /*initialization*/
    • Create an empty dictionary structure
    • Create an empty temporary file on disk
  • /*process text and write temporary file*/

For each document in the collection

    • Read parsing it into index terms
    • For each index term
      • Let be the frequency in of term
      • Search for
      • If is not in ,insert it
      • Write record to the temporary file
sort based inversion algorithm1
Sort-based Inversion Algorithm
  • /*internal sorting to make runs*/

Let be the number of records that can be held in memory

    • Read records from the temporary file
    • Sort into nondecreasing order, and for equal values of , nondecreasing order
    • Write the sorted run back to the temporary file
    • Repeat until there are no more runs to be sorted
  • /*output inverted file*/

For each term

    • Start a new inverted file entry
    • Read all from the temporary file and form the inverted file entry for term
    • Append this inverted file to the inverted file
slide47
แบบฝึกหัดระหว่างเรียนแบบฝึกหัดระหว่างเรียน
  • ให้ทำการสร้าง index อย่างง่าย จากข้อความด้านล่าง โดยไม่ต้องสนใจคำต่อไปนี้ “and, are, all, kind, of, in, is”
  • ให้นำกระบวนการคิดที่ได้เขียน Flowchart
work at home homework
Work at home! (homework)
  • ให้นำโจทย์ปัญหาแบบฝึกหัดระหว่างเรียน ไปเขียนโปรแกรม เพื่อทำการสร้างดรรชนี แบบแฟ้มข้อมูลผกผัน ทั้ง
    • แบบ Memory-base inversion
    • แบบ Sort-based inversion
  • นำมาส่งในชั่วโมงสัปดาห์ต่อไป
suffix trees suffix arrays
การใช้ Suffix Trees และ Suffix Arrays
  • เป็นการมองเอกสารทั้งฉบับว่าเป็นกลุ่มของตัวอักขระเรียงต่อกันยาวอย่างไม่จำกัด
  • โดยมองตัวอักษรว่าเป็นทุกตัวสามารถรวมกันเป็นคำ 1 คำ
  • เช่น มีตัวอักษรทั้งหมด 13 ตัวอักษร จะได้ คำทั้งหมด 13 คำ

String S = my university

S[1] = my university S[8] = ersity

S[2] = y university S[9] = rsity

S[3] = universityS[10] = sity

S[4] = university S[11] = ity

S[5] = niversity S[12] = ty

S[6] = iversity S[13] = y

S[7] = versity

suffix trees
Suffix Trees
  • เป็นการนำตัวอักษรทุกตัวอักษรมาเรียงต่อกัน
  • แล้วนำตัวอักษรตัวแรกของคำออกทีละ 1 ตัวอักษร
  • แล้วนำคำที่ได้ในแต่ละรอบ เก็บบันทึกลงฐานข้อมูล
  • ตัวอย่างเช่น

S = mississippiจะได้ Suffix Tree เป็น

S[1] = mississippi S[8] = ippi

S[2] = ississippi S[9] = ppi

S[3] = ssissippi S[10] = pi

S[4] = sissippi S[11] = i

S[5] = issippi

S[6] = ssippi

S[7] = sippi

slide51
แบบฝึกหัดระหว่างเรียนแบบฝึกหัดระหว่างเรียน
  • ให้ทำการสร้างดรรชนี โดยใช้วิธี Suffix Tree
suffix tree algorithm
Suffix Tree Algorithm
  • n = length of string; i = 0; s = string; Temp = “ ”; count = 0;
  • Insert String to database
  • If count < n do
    • If i < n do
      • Temp = Temp + s[i]
      • i = i + 1
    • Insert Temp to database
    • count = count + 1
    • i = count
  • End.
suffix arrays
Suffix Arrays
  • เป็นการนำตัวอักษรทุกตัวอักษรมาเรียงต่อกัน
  • แล้วนำตัวอักษรตัวแรกของคำออกทีละ 1 ตัวอักษร
  • แล้วนำคำที่ได้ในแต่ละรอบมาทำการจัดเรียงในรูปแบบต่างๆ จากน้อยไปมาก
  • แล้วนำคำที่ได้เก็บบันทึกลงฐานข้อมูล
  • ต้องมีค่า “ว่าง” เป็นตัวกำหนดการสิ้นสุดคำเสมอ
  • ตัวอย่างเช่น

S = mississippiจะได้ Suffix Arrays เป็น

slide54
แบบฝึกหัดระหว่างเรียนแบบฝึกหัดระหว่างเรียน
  • ให้ทำการสร้างดรรชนี โดยใช้วิธี Suffix Arrays
suffix arrays1
Suffix Arrays
  • n = length of string; i = 0; s = string; Temp = “ ”; count = 0;
  • Insert String to database
  • If count < n do
    • If i <= n do
      • Select s[i] from database [D]
      • Temp = Temp + s[i]
      • i = i + 1
    • Insert Temp to database [S]
    • count = count + 1
    • i = count
  • Sort database [S]
  • End.
signature file
แฟ้มข้อมูลลายเซ็น (Signature File)
  • เกิดจากแนวคิดที่ว่า คำศัพท์ที่ประกอบกันเป็นเอกสาร จะมีรหัสเฉพาะของแต่ละคำ
  • ในการค้นหา จำเป็นที่จะต้องแปลงคำค้น ให้เป็นรหัสเฉพาะของคำนั้นๆ ก่อน
  • แล้วทำการตรวจสอบรหัสเฉพาะของคำค้น กับรหัสเฉพาะของเอกสารแต่ละอัน
  • การกำหนดลายเซ็นสามารถทำได้ด้วยการทำ Hashing
  • เริ่มจากการนำคำศัพท์แต่ละคำมาทำ Hashing แล้วนำ Hashing String มารวมกัน
slide58
ตัวอย่างแฟ้มข้อมูลลายเซ็นตัวอย่างแฟ้มข้อมูลลายเซ็น

จำนวนคำศัพท์ที่ได้ = w!/s!(w-s)!

w=ความยาวของลายเซ็น

s=จำนวน bits ของลายเซ็น

slide59
จงหาแฟ้มข้อมูลลายเซ็นของคำต่อไปนี้จงหาแฟ้มข้อมูลลายเซ็นของคำต่อไปนี้

จำนวนคำศัพท์ที่ได้ = w!/s!(w-s)!

w=ความยาวของลายเซ็น

s=จำนวน bits ของลายเซ็น

slide60
กิจกรรมระหว่างเรียน
  • ให้ทำการสืบค้นข้อมูลเรื่อง Hash functions โดยศึกษาตามหัวข้อต่อไปนี้
    • แบบอาศัยการหาร (Modulo)
    • แบบพับ (Folding)
    • แบบวิเคราะห์ตำแหน่งตัวเลข (Digit Analysis)