1 / 20

Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว ). วิรัช ศรเลิศล้ำวาณิช ผู้อำนวยการฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ. 31 ตุลาคม 2544 “ แถลงข่าวเปิดตัวที่ NECTEC ชั้น 21 ตึกมหานครยิปซั่ม ”. ความยากในการสืบค้นกรณีภาษาไทย. ครัว.

Download Presentation

Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sansarn (สรรสาร)Smart-Q (สมาร์ท-คิว) วิรัช ศรเลิศล้ำวาณิช ผู้อำนวยการฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ 31 ตุลาคม 2544“แถลงข่าวเปิดตัวที่ NECTEC ชั้น 21 ตึกมหานครยิปซั่ม”

  2. ความยากในการสืบค้นกรณีภาษาไทยความยากในการสืบค้นกรณีภาษาไทย ครัว ...การสมรสหมู่โดยสหพันธ์ครอบครัวเพื่อความสามัคคี... ...เปลี่ยนเป็นห้องน้ำ...ห้องครัว...ห้องรับแขก... ประชา ...กองประชาสัมพันธ์การสื่อสารแห่งประเทศไทย... ...นายแพทย์ประชา เป็นประธานคณะกรรมการ... ธาตุ ...ประวัติวัดมหาธาตุวรวิหาร... ...โปรแกรมช่วยสอนเคมีเบื้องต้น และตารางธาตุ...

  3. 47 19 44 10, 32 1 16 29 38 “Inverted index is generated to index words in files.” Inverted Index คำ ตำแหน่ง file generate in index invert is to word

  4. Search Engine สำหรับภาษาอังกฤษ Google Fast search Yahoo! AltaVista HotBot Excite Lycos . . .

  5. Stemming/ Normalization work:- work, working, works, worked go:- go, going, goes, went, gone Windows:- WINDOWS, Windows Scoring สำหรับการจัดลำดับบทความ ความสำคัญของคำในบทความ เช่น คำที่ปรากฏใน Title, คำสำคัญ (key word), ความถี่ของคำในไฟล์ เป็นต้น ความนิยมของบทความ เช่น จำนวน click ที่เข้าแวะชม, จำนวน link จาก คำที่ใช้สืบค้น เป็นต้น สร้าง Inverted Index File โดยอาศัยโปรแกรม Database การสร้าง Index สำหรับภาษาอังกฤษ

  6. Search Engine สำหรับภาษาที่ไม่เว้นวรรคระหว่างคำ (ญี่ปุ่น, จีน, เกาหลี, ไทย, ...) goo msn Namazu Yahoo Japan ใช้ตัวตัดคำของ SuperMorpho-J ความเร็ว 300 MB/hr. ถูกต้อง 98%

  7. Word Segmentation Stemming/ Normalization work:- work, working, works, worked go:- go, going, goes, went, gone Windows:- WINDOWS, Windows Scoring สำหรับการจัดลำดับบทความ ความสำคัญของคำในบทความ เช่น คำที่ปรากฏใน Title, คำสำคัญ (key word), ความถี่ของคำในไฟล์ เป็นต้น ความนิยมของบทความ เช่น จำนวน click ที่เข้าแวะชม, จำนวน link จาก คำที่ใช้สืบค้น เป็นต้น สร้าง Inverted Index File โดยอาศัยโปรแกรม Database การสร้าง Index สำหรับภาษาที่ไม่เว้นวรรคระหว่างคำ

  8. การสร้าง Inverted Index สำหรับภาษาไทย(แบบเก่า) | ประวัติ | วัด | มหาธาตุวรวิหาร | และ | วัด | อารามหลวง | ตำแหน่ง ประวัติ 1 มหาธาตุวรวิหาร 11 และ 25 วัด 8, 28 อารามหลวง 31

  9. | ประวัติ | วัด | มหาธาตุวรวิหาร | และ | วัด | อารามหลวง | 1 1 | ประวัติ | วัด | มหาธาตุ | วรวิหาร | และ | วัด | อาราม | หลวง | 2 2 มหาธาตุ หาไม่เจอ ? Partial matching method มหาธาตุวรวิหาร หาไม่เจอ ? Word segmentation + Concatenation (AND) มหาธาตุ AND วรวิหาร • ตัดคำให้ย่อยที่สุด • เพิ่ม Index โดยอาศัยวิธีการ SIString (Semi-infinite string) Precision สถิติคลาดเคลื่อน จัดลำดับไม่ได้ Recall ความครอบคลุม หาไม่พบ Speed กรณีสืบค้นวลี, ประโยค ช้า การสืบค้น (แบบเก่า)

  10. ความหลากหลายของคำที่อยู่ข้างเคียงความหลากหลายของคำที่อยู่ข้างเคียง “ครัว” “ครอบ” ความบ่อยของการอยู่เคียงข้างกันของอักขระ “ครอบครัว” Rank * เปรียบเทียบความน่าจะเป็นของอันดับคำ * Weight ตามค่าความสำคัญของคำ (key word, title, ...) และ ความถี่ (term frequency) ค่าความน่าจะเป็นของคำ ครอบ ใน ที่ ห้อง ทำ ครัว . . . ค + รอบ ครอบ + ครัว

  11. การสืบค้น สะดวก / รวดเร็ว / แม่นยำ Full Text Search ค้นหาทั่วไปเหมาะสำหรับทั้งที่เป็น คำ, วลี, ประโยค ค้นหาตามหัวข้อ เช่น ชื่อผู้แต่ง, ชื่อโครงการ เป็นต้น Field Search Soundex Search ค้นหาคำที่มีเสียงคล้าย เช่น ประเสิด => ประเสริฐ, บรรได => บันได ทั้งหมดสนับสนุนการสืบค้นที่มีเงื่อนไข AND, OR, NOT ในกรณีที่ระบุคำค้นมากกว่าหนึ่งคำ

  12. Smart-Q

  13. การป้อนอักขระไทยบนโทรศัพท์มือถือการป้อนอักขระไทยบนโทรศัพท์มือถือ • พยัญชนะ 46 ตัวอักษร • สระ, วรรณยุกต์ และสัญลักษณ์ 28 ตัวอักษร • 6-7 ตัวอักษร/คีย์ “ท” อยู่ปุ่มไหน?

  14. แป้นพิมพ์สำหรับ Smart-Q • มาตรฐานที่มีใช้อยู่ทั่วไป

  15. Smart-Q

  16. Smart-Q

More Related