Chapter
Download
1 / 18

Chapter 3 Modeling (การ สร้าง โมเดล) - PowerPoint PPT Presentation


  • 58 Views
  • Uploaded on

Chapter 3 Modeling (การ สร้าง โมเดล). บทนำ. โมเดล หมายถึง รูปแบบในเชิงตรรกะ ( Logical View) เพื่อจำลองสิ่งของในระบบหรือตัวระบบการปฏิบัติการทั้งหมดมีทั้งรูปภาพสัญลักษณ์ ลายเส้น หรือทั้งสัญญาลักษณ์ ทางคณิตศาสตร์

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Chapter 3 Modeling (การ สร้าง โมเดล)' - hilel-carter


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Chapter 3

Modeling

(การสร้างโมเดล)


บทนำ

โมเดล หมายถึง รูปแบบในเชิงตรรกะ (Logical View)เพื่อจำลองสิ่งของในระบบหรือตัวระบบการปฏิบัติการทั้งหมดมีทั้งรูปภาพสัญลักษณ์ ลายเส้นหรือทั้งสัญญาลักษณ์ทางคณิตศาสตร์

ซึ่งโมเดลระบบการสืบค้นมีรูปแบบเฉพาะที่จำลอง เช่น ตัวเอกสาร คลังเอกสาร ข้อสารสนเทศที่ผู้ใช้องการหรือคำสอบถาม รวมทางการเทียบเคียง matching


โมเดล IR ทางคณิตศาสตร์

รูปแบบทางคณิตศาสตร์ของระบบ IR ได้แก่ 4อย่างดังนี้

D เป็นเซตของเอกสารที่แทนด้วยรูปแบบต่างๆ

Q เป็นเซตของสารสนเทศที่ต้องการของผู้ใช้

F เป็นโครงสร้างของการจำลองตัวเอกสาร คำสอบถามและความสัมพันธ์ระหว่างกัน

R(qi , dj) เป็นฟังก์ชั่นในการจัดอันดับ(ranking function)ของเอกสาร


ประเภทของโมเดล

โมเดลของ IR แบ่งตามทฤษฏีทางคณิตศาสตร์

1.Set Theory จะมีโมเดลของเอกสาร ประกอบด้วยเทอมต่างๆที่อยู่ภายในและมีดรรชนีของเทอม และเมื่อกำหนดคำสอบถามจะได้ผลลัพธ์ที่ออกมา match และ ไม่matchเท่านั้นจึงเป็นลักษณะของ Boolean Operations

2.Matrix Algebra โมเดลของเอกสารจะอยู่ในรูป term-Document Matrix มีการสร้างดรรชนี ในการสืบค้นค่าน้ำหนักจะขึ้นอยู่กับ ความถี่ของเทอมที่ปรากฏในเอกสารและอัตราส่วนระหว่างจำนวนเอกสารทั้งหมดกับเอกาสารที่เทอมนั้นปรากฏ

3.Probability Theory โมเดลนี้จะเป็นหาร matching ระหว่างความน่าจะเป็นที่เอกสารจะเกี่ยวพันธ์กับคำสอบถาม และความน่าจะเป็นที่เอกสารจะไม่เกี่ยวพันธ์กับคำสอบถามรายละเอียด ซับซ้อนจึงไม่เป็นที่นิยม


โมเดลการสืบค้น

ซึ่งในโมเดลดังกล่าวได้พัฒนาจากโมเดลในส่วนแรก แต่ก็ยังอยู่ในขอบเขตหรืออ้างอิงโมเดลทางคณิตศาสตร์อยู่อันได้แก่

1.Classic Boolean Model

1.1Extended Boolean Model

1.2Fuzzy Set Model

2.Vector Space Model

2.1Generalized Vector Space Model

2.2Topic-based Vector Space Model

2.3Latent Semantic Indexing Model

2.4Neural Network Model

3.Probabilistic Relevance Model

3.1Interface Network Model

3.2Belief Network Model


โมเดลการสืบค้น Classic Model

1.1Extended Boolean Model

เป็นการพัฒนามาจาก ตัว Classic Boolean Model ที่ทีเพียงแยกว่าข้อมูล 0 กับ 1 มาให้สามารถจัดลำดับผลลัพธ์ตามความสำคัญก่อนหลัง มีค่ากลาง และมีการทำ normalization

http://en.wikipedia.org/wiki/Extended_Boolean_model


โมเดลการสืบค้น Classic Model

ดังนั้นแล้วจึงจะเห็นว่า ExtenedBoolean Model เป็นแบบดั้งเดิมคือ รวม Boolean Model และตัว Vector Space Model เข้าไปด้วยกันและมีการวัด p-norm ด้วยทำให้มีความยุ่งยากและมีขอบเขตการสืบค้นกว้าง


โมเดลการสืบค้น Classic Model

Fuzzy Set Model (FSM)

ในทฤษฎีของ Set ปกติ set มีขอบแหลม ( Sharp Edges ) คือ แต่ละตัวจะอยู่หรือไม่อยู่ใน Set ซึ่งในทฤษฎีของ Fuzzy Set แต่ละตัว ( สมาชิก ) จะมีระดับ สมาชิก ( Membership Grade ) ติดตัวอยู่ตามที่ Set กำหนดซึ่งค่านี้จะแสดงกำลังหรือระดับ ของความเชื่อในสมาชิกของ Set ค่าสมาชิกมักถูกกำหนดเป็นค่าในช่วง 0.0 ถึง 1.0


โมเดลแบบ Vector Space Model

2.1Generalized Vector Space Model

1985 โดยตั้งชื่อว่า Generalized Vector Space Model ซึ่งมีแนวความคิดว่าเทอมจะไม่ได้เป็นอิสระต่อกันแต่จะเกี่ยวพันธ์กันในลักษณ์ใดลักษณ์หนึ่งโดนสังเกตจากปรากฏการ่วมกันในเอกสารเมื่อเป็นเช่นนี้แทนที่จะมองเอกสารประกอบด้วยเทอมต่างๆเราจะมองภาพใหม่ที่มาจากเอกสารต่างๆ

GVSM จะใช้ประโยชน์จากรูปแบบของปรากฏของเทอมมาทำการเปรียบเทียบความเหมือนหรือความแตกต่างของคำสอบถามกับชุดเอกสารในการสืบค้นข้อมูล และใช้หลักเดียวกับ VSM คือกาคำนวณหาค่าที่สอดคล้องของคำสอบถามกับเอกสารแต่ ในอันใหม่นี้มีวิธีการกำหนดเกณฑ์ขั้นต่ำของการวัดเพื่อขจัดเอกสารที่ไม่สอดคล้องออกไป


โมเดลแบบ Vector Space Model

2.2Topic-based Vector Space Model

TVSM ถูกเสนอโดย Becker และ Kuropkaในแนวความคิดที่ TVSM ไม่ถือเอาเอมในเอกสารเป็นอิสระต่อกัน แต่ให้ความยืดหยุ่นในการกำหนดความเหมือนของเทอม(Term Similarty)และในแต่ล่ะแกนใน Vector Space ไม่ได้มาจากเทอมเหมือน VSM แต่ TVSM ให้แต่ละแกนใน Vector Space มาจากชื่อเรื่องพื้นฐานของ ตัวมันเอง


โมเดลแบบ Vector Space Model

2.3Latent Semantic Indexing Model

จากการศึกษาโมเดลที่ผ่านมาพบว่ามีการใช้คำสำคัญในการค้นหา (keyword) ดังนั้นจะพบปัญหาอยู่หลักๆคือ มีเอกสารไม่ตรงประเด็นที่ต้องการค้นหาและมีเอกสารที่ตรงประเด็นแต่เอกสารนั้นไม่ได้อยู่ในดรรชนีจึงออกแบบโมเดลใหม่ๆเพื่อแก้ไขปัญหาดังกล่าว

โดยมีหลักการคือเป็นการโยงเทอมหรือคำศัพท์ที่ปรากฏในเอกสาร มีการสร้าง Concept Model คั่นระหว่างกลางของเทอมและเอกสารรูปแบบจึงเป็นการโยงเทอมไปสู่เรื่อง(topic)และจากเรื่องไปสู่เอกสารซึ่งมีลักษณะที่เด่นคือมีมิติ มากกว่าโมเดลของเดิมดังนั้นดารคำนวณลดลงจากเทอมที่เป็นเวกเตอร์ด้วยมิติสูงๆเป็น topic ที่เป็นเวคเตอร์ด้วยมิติต่ำๆ ซึงมีการยืนยันหลักการดังกล่าวด้วยงานวิจัย ที่บ่งชี้ว่าได้ความเร็วในการค้นหาสูง


โมเดลแบบ Vector Space Model

2.4 Neural Network Model

ในวิชาปัญญาประดิษฐ์ได้มีการพัฒนาโมเดลของสมองมนุษย์เพื่อจะให้คอมพิวเตอร์ทำงานคล้ายมนุษย์ไม่ว่าจะสั่งงาน การประมวลผล การรู้จำ โดยสร้างเป็นเครือข่ายที่ซับซ้อน

เป็นการแทนเครือข่ายเซลล์สมองของมนุษย์ด้วยรูปแบบอย่างง่ายโดยNode ต่างๆในเครือข่ายแทนหน่วยประมวลผลต่างๆและ Edge ต่างเป็นเส้นประสาทแทนส่วนเชื่อมต่อระหว่างเซลล์สมอง และเพื่อเลียนแบบการทำงานของสองและเส้นประสาทจึงมีการกำหนดค่าน้ำหนักให้กับแต่ละ Edge ใน Neural Network โดยแต่ละสถานะของ Node จะถูกกำหนดด้วยการกระตุ้นซึ่งฟังก์ชั่นของสถานะเริ่มต้นและของสัญญาณที่ได้รับเข้ามา NodeA ไปกระตุ้น NodeB เป็นต้น


โมเดลแบบProbabilistic Relevance Model

3.1Interface Network Model

ใช้หลักการของ Bayesian network เพื่อใช้ในการสร้างระบบสืบค้นตัวเครือข่ายอยู่ในรูป Directed Acyclic Graphs(DAG) ซึ่งประกอบด้วย Node และ Edgeต่างๆสำคัญคือทุก Edge จะมีลุกศรชี้โยงจาก Node หนึ่งไปสู่อีก Node หนึ่งและ Nodeต่างๆใช้ตัวแปรสุ่ม (Random Variables) ต่างๆการที่มีลูกศรชี้โยงใน Edge แสดงถึงความสัมพันธ์ที่ตัวแปรหนึ่งมีผลต่อตัวแปรหนึ่ง

มีการนำกฎของ Bayes มาใช้มีการกำหนดค่าความน่าจะเป็นต่างๆทำให้สามารถสร้าง Inference Network ซึ่งครอบคลุมระบบสืบค้นสาระสนเทศรูปแบบต่างๆด้วยการจักอันดับก่อนหลัง (Ranking)ที่เกี่ยวพันธ์ได้อย่างเป็นสาระ มีการกระจายเอกสารแบบ Uniforms เพื่อให้น้ำหนักเท่ากันโดยไม่ลำเอียงน้ำหนักเอกสาร


โมเดลแบบProbabilistic Relevance Model

3.2 Belief Network Model

คิดค้นโดย Ribeiro-Netoและ Muntz ด้วยต้องการใช้ทฤษฏีของbayes ที่เป็น Chain Rule ของ Conditional Probability ในการประยุกต์ชื่อโมเดล จึงมีชื่อเรียกเต็มว่า Bayesian Belief Network Model ในทางวิชาการจะต้องลายกับโมเดลก่อนหน้านี้ แต่ในทาง Topology นั้นมีความแตกต่างกันโดยเฉพาะ BNM นั้นจะแยกชัดเจนในส่วนของคำสอบถาม q และส่วนของเอกสารd ออกจากกันจึงมีผลแตกต่างกัน


โมเดลสำหรับ Browsing

1. Directory Model

เป็นรูปแบบที่จัดเป็นหมวดหมู่อย่างเป็นระบบเป็นขั้นตอน โดยมีชื่อกำกับ ปะเภททั่วไปอยู่บนประเภทเจาะจงอยู่ล่าง เช่น วิชาฟิสิกส์ เคมี ชีวะวิทยา ก็จัดอยู่ในหมวดวิชาวิทยาศาสตร์



โมเดลสำหรับ Browsing

2. Hypertext Model

เป็นรูปแบบที่มีโครงสร้างเป็น Directed Graph จากข้อความหนึ่งในเอกสารชี้ไปยังอีกข้อความหนึ่งอีกแหล่งหนึ่ง กล่าวคือจาก Node หนึ่งบน Graph ชี้ไปยังอีก Node หนึ่งโดยไม่จำเป็นต้องเป็นหมวดหมู่เดียวกันเมื่อเป็นเช่นนี้ Node หนึ่งบน Graph อาจจะชี้ไปยังหลายๆ Node อย่างมีทิศทางได้ และ Node ลูกหนึ่งก็ยังสามารถชี้ต่อยังหลายๆ Nodeลูกของลูกได้


Question/Answer

Thank you


ad