Chapter
This presentation is the property of its rightful owner.
Sponsored Links
1 / 18

Chapter 3 Modeling (การ สร้าง โมเดล) PowerPoint PPT Presentation


  • 43 Views
  • Uploaded on
  • Presentation posted in: General

Chapter 3 Modeling (การ สร้าง โมเดล). บทนำ. โมเดล หมายถึง รูปแบบในเชิงตรรกะ ( Logical View) เพื่อจำลองสิ่งของในระบบหรือตัวระบบการปฏิบัติการทั้งหมดมีทั้งรูปภาพสัญลักษณ์ ลายเส้น หรือทั้งสัญญาลักษณ์ ทางคณิตศาสตร์

Download Presentation

Chapter 3 Modeling (การ สร้าง โมเดล)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Chapter 3 modeling

Chapter 3

Modeling

(การสร้างโมเดล)


Chapter 3 modeling

บทนำ

โมเดล หมายถึง รูปแบบในเชิงตรรกะ (Logical View)เพื่อจำลองสิ่งของในระบบหรือตัวระบบการปฏิบัติการทั้งหมดมีทั้งรูปภาพสัญลักษณ์ ลายเส้นหรือทั้งสัญญาลักษณ์ทางคณิตศาสตร์

ซึ่งโมเดลระบบการสืบค้นมีรูปแบบเฉพาะที่จำลอง เช่น ตัวเอกสาร คลังเอกสาร ข้อสารสนเทศที่ผู้ใช้องการหรือคำสอบถาม รวมทางการเทียบเคียง matching


Chapter 3 modeling

โมเดล IR ทางคณิตศาสตร์

รูปแบบทางคณิตศาสตร์ของระบบ IR ได้แก่ 4อย่างดังนี้

D เป็นเซตของเอกสารที่แทนด้วยรูปแบบต่างๆ

Q เป็นเซตของสารสนเทศที่ต้องการของผู้ใช้

F เป็นโครงสร้างของการจำลองตัวเอกสาร คำสอบถามและความสัมพันธ์ระหว่างกัน

R(qi , dj) เป็นฟังก์ชั่นในการจัดอันดับ(ranking function)ของเอกสาร


Chapter 3 modeling

ประเภทของโมเดล

โมเดลของ IR แบ่งตามทฤษฏีทางคณิตศาสตร์

1.Set Theory จะมีโมเดลของเอกสาร ประกอบด้วยเทอมต่างๆที่อยู่ภายในและมีดรรชนีของเทอม และเมื่อกำหนดคำสอบถามจะได้ผลลัพธ์ที่ออกมา match และ ไม่matchเท่านั้นจึงเป็นลักษณะของ Boolean Operations

2.Matrix Algebra โมเดลของเอกสารจะอยู่ในรูป term-Document Matrix มีการสร้างดรรชนี ในการสืบค้นค่าน้ำหนักจะขึ้นอยู่กับ ความถี่ของเทอมที่ปรากฏในเอกสารและอัตราส่วนระหว่างจำนวนเอกสารทั้งหมดกับเอกาสารที่เทอมนั้นปรากฏ

3.Probability Theory โมเดลนี้จะเป็นหาร matching ระหว่างความน่าจะเป็นที่เอกสารจะเกี่ยวพันธ์กับคำสอบถาม และความน่าจะเป็นที่เอกสารจะไม่เกี่ยวพันธ์กับคำสอบถามรายละเอียด ซับซ้อนจึงไม่เป็นที่นิยม


Chapter 3 modeling

โมเดลการสืบค้น

ซึ่งในโมเดลดังกล่าวได้พัฒนาจากโมเดลในส่วนแรก แต่ก็ยังอยู่ในขอบเขตหรืออ้างอิงโมเดลทางคณิตศาสตร์อยู่อันได้แก่

1.Classic Boolean Model

1.1Extended Boolean Model

1.2Fuzzy Set Model

2.Vector Space Model

2.1Generalized Vector Space Model

2.2Topic-based Vector Space Model

2.3Latent Semantic Indexing Model

2.4Neural Network Model

3.Probabilistic Relevance Model

3.1Interface Network Model

3.2Belief Network Model


Chapter 3 modeling

โมเดลการสืบค้น Classic Model

1.1Extended Boolean Model

เป็นการพัฒนามาจาก ตัว Classic Boolean Model ที่ทีเพียงแยกว่าข้อมูล 0 กับ 1 มาให้สามารถจัดลำดับผลลัพธ์ตามความสำคัญก่อนหลัง มีค่ากลาง และมีการทำ normalization

http://en.wikipedia.org/wiki/Extended_Boolean_model


Chapter 3 modeling

โมเดลการสืบค้น Classic Model

ดังนั้นแล้วจึงจะเห็นว่า ExtenedBoolean Model เป็นแบบดั้งเดิมคือ รวม Boolean Model และตัว Vector Space Model เข้าไปด้วยกันและมีการวัด p-norm ด้วยทำให้มีความยุ่งยากและมีขอบเขตการสืบค้นกว้าง


Chapter 3 modeling

โมเดลการสืบค้น Classic Model

Fuzzy Set Model (FSM)

ในทฤษฎีของ Set ปกติ set มีขอบแหลม ( Sharp Edges ) คือ แต่ละตัวจะอยู่หรือไม่อยู่ใน Set ซึ่งในทฤษฎีของ Fuzzy Set แต่ละตัว ( สมาชิก ) จะมีระดับ สมาชิก ( Membership Grade ) ติดตัวอยู่ตามที่ Set กำหนดซึ่งค่านี้จะแสดงกำลังหรือระดับ ของความเชื่อในสมาชิกของ Set ค่าสมาชิกมักถูกกำหนดเป็นค่าในช่วง 0.0 ถึง 1.0


Chapter 3 modeling

โมเดลแบบ Vector Space Model

2.1Generalized Vector Space Model

1985 โดยตั้งชื่อว่า Generalized Vector Space Model ซึ่งมีแนวความคิดว่าเทอมจะไม่ได้เป็นอิสระต่อกันแต่จะเกี่ยวพันธ์กันในลักษณ์ใดลักษณ์หนึ่งโดนสังเกตจากปรากฏการ่วมกันในเอกสารเมื่อเป็นเช่นนี้แทนที่จะมองเอกสารประกอบด้วยเทอมต่างๆเราจะมองภาพใหม่ที่มาจากเอกสารต่างๆ

GVSM จะใช้ประโยชน์จากรูปแบบของปรากฏของเทอมมาทำการเปรียบเทียบความเหมือนหรือความแตกต่างของคำสอบถามกับชุดเอกสารในการสืบค้นข้อมูล และใช้หลักเดียวกับ VSM คือกาคำนวณหาค่าที่สอดคล้องของคำสอบถามกับเอกสารแต่ ในอันใหม่นี้มีวิธีการกำหนดเกณฑ์ขั้นต่ำของการวัดเพื่อขจัดเอกสารที่ไม่สอดคล้องออกไป


Chapter 3 modeling

โมเดลแบบ Vector Space Model

2.2Topic-based Vector Space Model

TVSM ถูกเสนอโดย Becker และ Kuropkaในแนวความคิดที่ TVSM ไม่ถือเอาเอมในเอกสารเป็นอิสระต่อกัน แต่ให้ความยืดหยุ่นในการกำหนดความเหมือนของเทอม(Term Similarty)และในแต่ล่ะแกนใน Vector Space ไม่ได้มาจากเทอมเหมือน VSM แต่ TVSM ให้แต่ละแกนใน Vector Space มาจากชื่อเรื่องพื้นฐานของ ตัวมันเอง


Chapter 3 modeling

โมเดลแบบ Vector Space Model

2.3Latent Semantic Indexing Model

จากการศึกษาโมเดลที่ผ่านมาพบว่ามีการใช้คำสำคัญในการค้นหา (keyword) ดังนั้นจะพบปัญหาอยู่หลักๆคือ มีเอกสารไม่ตรงประเด็นที่ต้องการค้นหาและมีเอกสารที่ตรงประเด็นแต่เอกสารนั้นไม่ได้อยู่ในดรรชนีจึงออกแบบโมเดลใหม่ๆเพื่อแก้ไขปัญหาดังกล่าว

โดยมีหลักการคือเป็นการโยงเทอมหรือคำศัพท์ที่ปรากฏในเอกสาร มีการสร้าง Concept Model คั่นระหว่างกลางของเทอมและเอกสารรูปแบบจึงเป็นการโยงเทอมไปสู่เรื่อง(topic)และจากเรื่องไปสู่เอกสารซึ่งมีลักษณะที่เด่นคือมีมิติ มากกว่าโมเดลของเดิมดังนั้นดารคำนวณลดลงจากเทอมที่เป็นเวกเตอร์ด้วยมิติสูงๆเป็น topic ที่เป็นเวคเตอร์ด้วยมิติต่ำๆ ซึงมีการยืนยันหลักการดังกล่าวด้วยงานวิจัย ที่บ่งชี้ว่าได้ความเร็วในการค้นหาสูง


Chapter 3 modeling

โมเดลแบบ Vector Space Model

2.4 Neural Network Model

ในวิชาปัญญาประดิษฐ์ได้มีการพัฒนาโมเดลของสมองมนุษย์เพื่อจะให้คอมพิวเตอร์ทำงานคล้ายมนุษย์ไม่ว่าจะสั่งงาน การประมวลผล การรู้จำ โดยสร้างเป็นเครือข่ายที่ซับซ้อน

เป็นการแทนเครือข่ายเซลล์สมองของมนุษย์ด้วยรูปแบบอย่างง่ายโดยNode ต่างๆในเครือข่ายแทนหน่วยประมวลผลต่างๆและ Edge ต่างเป็นเส้นประสาทแทนส่วนเชื่อมต่อระหว่างเซลล์สมอง และเพื่อเลียนแบบการทำงานของสองและเส้นประสาทจึงมีการกำหนดค่าน้ำหนักให้กับแต่ละ Edge ใน Neural Network โดยแต่ละสถานะของ Node จะถูกกำหนดด้วยการกระตุ้นซึ่งฟังก์ชั่นของสถานะเริ่มต้นและของสัญญาณที่ได้รับเข้ามา NodeA ไปกระตุ้น NodeB เป็นต้น


Chapter 3 modeling

โมเดลแบบProbabilistic Relevance Model

3.1Interface Network Model

ใช้หลักการของ Bayesian network เพื่อใช้ในการสร้างระบบสืบค้นตัวเครือข่ายอยู่ในรูป Directed Acyclic Graphs(DAG) ซึ่งประกอบด้วย Node และ Edgeต่างๆสำคัญคือทุก Edge จะมีลุกศรชี้โยงจาก Node หนึ่งไปสู่อีก Node หนึ่งและ Nodeต่างๆใช้ตัวแปรสุ่ม (Random Variables) ต่างๆการที่มีลูกศรชี้โยงใน Edge แสดงถึงความสัมพันธ์ที่ตัวแปรหนึ่งมีผลต่อตัวแปรหนึ่ง

มีการนำกฎของ Bayes มาใช้มีการกำหนดค่าความน่าจะเป็นต่างๆทำให้สามารถสร้าง Inference Network ซึ่งครอบคลุมระบบสืบค้นสาระสนเทศรูปแบบต่างๆด้วยการจักอันดับก่อนหลัง (Ranking)ที่เกี่ยวพันธ์ได้อย่างเป็นสาระ มีการกระจายเอกสารแบบ Uniforms เพื่อให้น้ำหนักเท่ากันโดยไม่ลำเอียงน้ำหนักเอกสาร


Chapter 3 modeling

โมเดลแบบProbabilistic Relevance Model

3.2 Belief Network Model

คิดค้นโดย Ribeiro-Netoและ Muntz ด้วยต้องการใช้ทฤษฏีของbayes ที่เป็น Chain Rule ของ Conditional Probability ในการประยุกต์ชื่อโมเดล จึงมีชื่อเรียกเต็มว่า Bayesian Belief Network Model ในทางวิชาการจะต้องลายกับโมเดลก่อนหน้านี้ แต่ในทาง Topology นั้นมีความแตกต่างกันโดยเฉพาะ BNM นั้นจะแยกชัดเจนในส่วนของคำสอบถาม q และส่วนของเอกสารd ออกจากกันจึงมีผลแตกต่างกัน


Chapter 3 modeling

โมเดลสำหรับ Browsing

1. Directory Model

เป็นรูปแบบที่จัดเป็นหมวดหมู่อย่างเป็นระบบเป็นขั้นตอน โดยมีชื่อกำกับ ปะเภททั่วไปอยู่บนประเภทเจาะจงอยู่ล่าง เช่น วิชาฟิสิกส์ เคมี ชีวะวิทยา ก็จัดอยู่ในหมวดวิชาวิทยาศาสตร์


Chapter 3 modeling

โมเดลสำหรับ Browsing


Chapter 3 modeling

โมเดลสำหรับ Browsing

2. Hypertext Model

เป็นรูปแบบที่มีโครงสร้างเป็น Directed Graph จากข้อความหนึ่งในเอกสารชี้ไปยังอีกข้อความหนึ่งอีกแหล่งหนึ่ง กล่าวคือจาก Node หนึ่งบน Graph ชี้ไปยังอีก Node หนึ่งโดยไม่จำเป็นต้องเป็นหมวดหมู่เดียวกันเมื่อเป็นเช่นนี้ Node หนึ่งบน Graph อาจจะชี้ไปยังหลายๆ Node อย่างมีทิศทางได้ และ Node ลูกหนึ่งก็ยังสามารถชี้ต่อยังหลายๆ Nodeลูกของลูกได้


Chapter 3 modeling

Question/Answer

Thank you


  • Login