1 / 48

การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition. โดย นางสาว สุปัญญา อภิวงศ์โสภณ 42067031. อาจารย์ผู้ควบคุมวิทยานิพนธ์ รศ. ดร. วิเชียร เปรมชัยสวัสดิ์ อาจารย์ผู้ควบคุมวิทยานิพนธ์ร่วม รศ. ดร. นุชรี เปรมชัยสวัสดิ์. Outline.

thad
Download Presentation

การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทยForms Management for Thai Character Recognition โดย นางสาว สุปัญญา อภิวงศ์โสภณ 42067031 อาจารย์ผู้ควบคุมวิทยานิพนธ์ รศ. ดร. วิเชียร เปรมชัยสวัสดิ์ อาจารย์ผู้ควบคุมวิทยานิพนธ์ร่วม รศ. ดร. นุชรี เปรมชัยสวัสดิ์

  2. Outline Introduction Automatic mark การกำหนดประเภทของข้อมูลโดยผู้ใช้ Automatic load mark การลบเส้นบรรทัดในเอกสาร การตรวจสอบความถูกต้องของข้อความ การทดลองและข้อเสนอแนะ

  3. Introduction • โดยปกติการกำหนดกรอบข้อมูลเพื่อการรู้จำในแบบฟอร์ม จะต้องให้ผู้ใช้งานกำหนดเองทั้งหมด ซึ่งทำให้เสียเวลาใน การกำหนดกรอบข้อมูลแต่ละบริเวณที่ต้องการ • หากสามารถกำหนดกรอบข้อมูลเพื่อการรู้จำตัวอักษรได้โดย อัตโนมัติ จะช่วยลดเวลาในการทำงาน เพื่อให้สามารถทำงาน ได้รวดเร็วยิ่งขึ้น • งานวิจัยนี้นำเสนอการกำหนดกรอบที่จะบันทึกข้อมูลใน แบบฟอร์มโดยอัตโนมัติ (AUTOMATIC MARKING ) เพื่อ กำหนดตำแหน่งที่นำไปรู้จำข้อมูล

  4. วัตถุประสงค์ของงานวิจัยวัตถุประสงค์ของงานวิจัย • เพื่อลดเวลาที่ใช้ในการกำหนดกรอบข้อมูลที่จะส่งไปรู้จำ • เพื่อศึกษาลักษณะต่าง ๆ ที่เป็นบริเวณที่มีการกรอกข้อมูลของแบบฟอร์ม • เพื่อศึกษาลักษณะข้อมูลเฉพาะตัวที่กรอกลงในแบบฟอร์ม • เพื่อพัฒนาระบบการจัดการแบบฟอร์มโดยการหากรอบตำแหน่งข้อมูลที่ ต้องการบันทึกโดยอัตโนมัติ

  5. ขอบเขตการวิจัย • รูปภาพแบบฟอร์มที่นำมาใช้จะต้องผ่านการสแกน (Scan) โดย กำหนดความละเอียดในการสแกนเป็น 200 จุดต่อนิ้ว ในแบบ ระดับสีเทา (Gray scale)แล้วนำภาพมาผ่านกระบวนการแปลง ภาพสีสองระดับ (Duo tone)และบันทึกเป็นภาพสีขาวดำ (Binary Image) • ภาพที่นำมาใช้จะต้องกำจัดสัญญาณรบกวนเรียบร้อยแล้ว • งานวิจัยนี้ทำหน้าที่จัดการแบบฟอร์มเท่านั้น เพื่อส่งบริเวณที่มีการ กรอกข้อมูลให้โปรแกรมอื่นทำหน้าที่รู้จำตัวอักษรเขียนภาษาไทย

  6. Empty Forms Automatic Mark User defined data type and field name Empty Forms ขั้นตอนการทำงานในงานวิจัย (1)

  7. Filled Forms Automatic Load Mark Pre-Processing Recognitions Verify by field type Form Database Empty Forms ขั้นตอนการทำงานในงานวิจัย (2)

  8. Automatic Mark ขั้นตอนที่หนึ่ง แยกบรรทัดในแบบฟอร์ม โดยการหาความถี่ของจุดในแนวนอน (Horizontal projection) เพื่อค้นหาตำแน่งที่มีการกรอกข้อมูล ขั้นตอนที่สอง หาความถี่ของจุดในแนวตั้ง (Vertical projection) ของตัวอักษรในแต่ละบรรทัด เพื่อหาบริเวณที่ควรเป็นตำแหน่งสำหรับการกรอกข้อความ และสร้างเป็นกรอบที่ต้องการรู้จำ

  9. การกำหนดบรรทัดในภาพเอกสาร  ทิศทางการหาค่าฮิสโตแกรมตามแนวนอน ทิศทางการหาค่าฮิสโตแกรมตามแนวตั้ง

  10. Automatic Mark

  11. Automatic Mark ลักษณะที่กำหนดตำแหน่งกรอบที่จะบันทึกข้อมูลโดยอัตโนมัติ • แบบฟอร์มมีช่องว่างสำหรับเติมข้อความรองรับด้วยเส้นบรรทัด จะกำหนดเป็นกรอบของเส้นตรง (Straight line mark) • แบบฟอร์มที่มีการบันทึกเครื่องหมายลงในช่องว่างที่กำหนดขึ้น โดยกำหนดเป็นกรอบที่มีคำตอบสองลักษณะคือใช่/ไม่ (Optional mark)

  12. Automatic Mark กรอบของเส้นตรง (Straight line mark) สำหรับเติมข้อมูลประเภทตัวอักษรหรือตัวเลข ในกรณีนี้จะพิจารณาจากบริเวณที่มีอัตราส่วนระหว่างความกว้างต่อความสูงของเส้นมีค่าแตกต่างกันมาก (ความกว้างมีค่ามากกว่าความสูงมาก ๆ)ประกอบด้วย เส้นจุด:Dot line ( …………………) เส้นปะ:Dash line ( _ _ _ _ _ _ _ _ ) เส้นทึบ :Thick line ( ____________ ) กรอบที่ใช้ในการตอบคำถามที่มีคำตอบสองลักษณะคือใช่/ไม่ (Optional mark) ประกอบด้วย ,  ( ) , [ ]

  13. Automatic Mark ตัวอย่างส่วนหนึ่งของภาพแบบฟอร์มที่ประกอบด้วยส่วนที่มีลักษณะเป็นเส้นจุด เส้นปะ เส้นทึบ Dot line

  14. Automatic Mark Dash line Thick line

  15. Automatic Mark ลักษณะที่พิจารณาเป็น Optional mark ปรากฏสัญลักษณ์ , , ( ) หรือ [ ] วางที่บริเวณต้นบรรทัด หลังสัญลักษณ์ , , ( ) หรือ [ ] มีพื้นที่ว่างก่อนมีตัวอักษรอธิบายตาม กรอบวงกลมและสี่เหลี่ยม ,  จะมีจุดสูงสุดของความถี่ของจุดสีดำ 2 จุด สูงเท่า ๆ กันบริเวณปลายทั้งสองข้าง

  16. Automatic Mark (Bx,By) (Bx,By) By By Ey Ey (Ex,Ey) (Ex,Ey) Ex Bx Bx Ex

  17. Automatic Mark Circle mark  ตัวอย่างส่วนหนึ่งของภาพแบบฟอร์มเปล่าที่ประกอบด้วยเครื่องหมาย , , ( ) และ [ ]

  18. Automatic Mark Square mark 

  19. Automatic Mark เครื่องหมายนขลิขิตหรือวงเล็บ ( ) และเครื่องหมาย [ ] มีช่วงแคบ ๆ ที่มีความถี่ของจุดสีดำที่สูงมาก แล้วตามด้วยช่องว่างของ ตัวอักษรที่มีค่าอยู่ในระหว่างค่าคงที่ ก่อนพบช่วงความถี่ของจุดสีดำที่มีสูงมากที่จุดสิ้นสุดและจะต้องพบ ช่องว่าง ซึ่งมีค่าไม่เกินค่าคงที่อีกค่าหนึ่ง ก่อนที่จะพบความถี่ของตัวอักษรที่เป็นคำอธิบายต่อไป การกำหนดประเภทข้อมูลเบื้องต้น (Default data type) เป็นBoolean หากไม่เป็นไปตามกำหนดจะถือว่าบริเวณนั้นไม่ใช่บริเวณที่จะต้อง mark เพื่อบันทึกข้อมูล

  20. Automatic Mark ( ) และ [ ]

  21. ผลลัพธ์ของกระบวนการกำหนดกรอบอัตโนมัติในแบบฟอร์มเปล่าผลลัพธ์ของกระบวนการกำหนดกรอบอัตโนมัติในแบบฟอร์มเปล่า

  22. การกำหนดประเภทของข้อมูลโดยผู้ใช้ (User defines data type and field name) • ผู้ใช้สามารถเลือกตำแหน่งที่จะกำหนดกรอบข้อมูล หรือไม่ต้องการ กำหนดกรอบที่บริเวณนั้นได้ และสามารถกำหนดกรอบเพิ่มเติมได้ใน ส่วนที่ต้องการ • ผู้ใช้สามารถตั้งค่าชื่อฟิลด์ รวมทั้งชนิดของข้อมูล เพื่อกำหนดลงใน ฐานข้อมูล • ชนิดข้อมูลเบื้องต้นกำหนดเป็น Text และสามารถเปลี่ยนแปลงเป็น Numeric, Date, Month, Year, Age, Zip code และ Province ได้ ตามความเหมาะสม

  23. การกำหนดประเภทของข้อมูลโดยผู้ใช้

  24. การกำหนดประเภทของข้อมูลโดยผู้ใช้

  25. การกำหนดประเภทของข้อมูลโดยผู้ใช้

  26. การกำหนดประเภทของข้อมูลโดยผู้ใช้

  27. Automatic Load Mark กระบวนการโหลดกรอบจะใช้ตำแหน่งความสัมพันธ์แบบอ้างอิงกับ แบบฟอร์มเปล่าเพื่อที่จะหาตำแหน่งที่จะกำหนดกรอบในแบบฟอร์มที่ กรอกข้อความ และตรวจสอบบริเวณที่กรอกข้อความอีกครั้งเพื่อความ ครอบคลุมตัวอักษรที่กรอกด้วยฮิสโตแกรมแนวนอน

  28. Automatic Load Mark

  29. Automatic Load Mark

  30. การลบเส้นบรรทัดในเอกสาร[5]การลบเส้นบรรทัดในเอกสาร[5] ประเภทของเส้นที่ซ้อนทับกับตัวอักษร • เส้นสัมผัสกับตัวอักษร (Contact) • เส้นผ่ากลางตัวอักษร (Intersection) • เส้นทับบนส่วนหนึ่งของตัวอักษร (Superposition)

  31. หลักการที่ใช้ในการลบเส้นออกจากตัวอักษรหลักการที่ใช้ในการลบเส้นออกจากตัวอักษร • ลบเส้นเกือบทั้งหมดออก • ใช้คุณสมบัติของพื้นที่ซ้อนทับกัน • เติมเต็มส่วนของเส้นในการเขียนหนังสือที่ขาดหายไป หลักการนี้ใช้ได้กับ Contact และ Intersection แต่ใช้ไม่ได้กับ Superposition

  32. LWTA (Line Width Thresholding Approach) • สร้างกรอบของเส้นเก็บใน Array ของพิกเซลสีดำที่มีความยาวต่อเนื่องกัน (Run-lengths) • โดยกำหนดค่าคงที่ (Threshold) สูง ๆ สำหรับใช้ภายในตัวอักษรที่มีเส้น ทับและกำหนดค่าคงที่ต่ำ ๆ สำหรับใช้ระหว่างตัวอักษรที่มีเส้นทับ

  33. เทคนิคที่ใช้ในการลบเส้นด้วยค่าคงที่ (LWTA) Original Image ผลลัพธ์การลบเส้นด้วยค่าคงที่เพียงค่าเดียว ผลลัพธ์ของการแบ่งตัวอักษร ซึ่งอยู่ในกรอบสี่เหลี่ยมครอบตัวอักษร ผลลัพธ์การลบเส้นด้วยการใช้ค่าคงที่ 2 ค่า

  34. การรู้จำตัวอักษรเขียนภาษาไทย[2,3]การรู้จำตัวอักษรเขียนภาษาไทย[2,3] กระบวนการรู้จำตัวอักษรลายมือเขียนภาษาไทยทำโดยโปรแกรมสำเร็จรูปอื่น (โปรแกรมของคุณกฤษดา วิไลลักษณ์)

  35. การตรวจสอบความถูกต้องของข้อความการตรวจสอบความถูกต้องของข้อความ กระบวนการตรวจสอบความถูกต้องของข้อความเป็น กระบวนการสุดท้ายหลังจากการรู้จำตัวอักษร ประเภทของฟิลด์สามารถช่วยลดขอบเขตความน่าจะเป็นของ ตัวอักษรและใช้เพื่อในการแก้ไขข้อความให้ถูกต้อง ขอบเขตของข้อมูลต่าง ๆ ที่ระบบได้กำหนดนี้ผู้ใช้สามารถแก้ไข หรือเปลี่ยนแปลงได้ตามที่ต้องการ

  36. การตรวจสอบความถูกต้องของข้อความการตรวจสอบความถูกต้องของข้อความ ประเภทข้อมูลเป็นตัวเลข ได้แก่ อายุ มีค่าอยู่ระหว่าง 1-150 วันที่ มีค่าอยู่ระหว่าง 1-31 ปี มีค่าอยู่ระหว่าง 1900-2200 ในปีคริสต์ศักราช และ 2400-2600 ในปีพุทธศักราช ประเภทข้อมูลเป็นข้อความ ได้แก่ จังหวัด (ชื่อทั้ง 76 จังหวัด) เดือน (มกราคม-ธันวาคม ทั้ง 12 เดือน) เดือนที่ระบุเป็นตัวอักษรย่อ (ม.ค.-ธ.ค.)

  37. การตรวจสอบชื่อเดือนด้วยระดับและจำนวนตัวอักษรการตรวจสอบชื่อเดือนด้วยระดับและจำนวนตัวอักษร

  38. การทดลอง งานวิจัยนี้เขียนด้วยโปรแกรม Microsoft visual basic 6.0. แบบฟอร์มที่ใช้สแกนเข้าสู่ระบบด้วยความละเอียด 200 dpi แล้วบันทึกในรูปแบบภาพสีขาวดำ (binary format) แบบฟอร์มเปล่าที่นำมาใช้มีประมาณ 120 แบบฟอร์ม เป็นแบบฟอร์มการสมัครเข้าร่วมการสัมมนา ใบคำร้องต่าง ๆ หรือ ใบมอบอำนาจ งานวิจัยนี้ใช้คนที่กรอกแบบฟอร์มมีอายุอยู่ในช่วง 10-60 ปี จำนวน 4 คน กรอกแบบฟอร์มประมาณ 300 แบบฟอร์ม

  39. การทดลอง ระบบนี้ทำหน้าที่จัดการและเตรียมการแบบฟอร์มที่มีการกรอกข้อมูล ให้สามารถผ่านเข้าสู่กระบวนการจำแนกตัวอักษรได้ สามารถกำหนดกรอบบริเวณที่มีการกรอกข้อมูลได้โดยอัตโนมัติ ผู้ใช้สามารถเปลี่ยนแปลงชนิดของข้อมูลหรือกำหนดขอบเขตข้อมูล ในแต่ละฟิลด์ เวลาที่ใช้ในการกำหนดกรอบข้อมูลแต่ละแบบฟอร์ม จะใช้เวลาไม่เท่ากัน โดยระยะเวลาที่ใช้จะมีความยาวนานเพียงใดขึ้นอยู่กับความซับซ้อนของ แต่ละแบบฟอร์ม

  40. ผลการทดลอง เวลาที่ใช้ในการโหลดกรอบข้อมูลโดยอัตโนมัติหลังจากที่ทราบว่าแบบฟอร์ม ที่มีการกรอกข้อมูลตรงกับแบบฟอร์มเปล่าใด จะใช้ระยะเวลาไม่เกิน 1 วินาที งานวิจัยนี้สามารถใช้จัดการแบบฟอร์มภาษาไทยได้ และสามารถ พัฒนาให้ระบบสามารถจัดการแบบฟอร์มที่เป็นภาษาอังกฤษ ข้อมูลที่รู้จำได้ต้องมีการตรวจสอบข้อมูลก่อนบันทึกลงสู่ฐานข้อมูล

  41. ข้อเสนอแนะและแนวทางพัฒนาต่อในอนาคตข้อเสนอแนะและแนวทางพัฒนาต่อในอนาคต พัฒนาให้สามารถใช้ในแบบฟอร์มที่มีหลายภาษาในแบบฟอร์มเดียวกัน อาจมีการนำงานวิจัยไปพัฒนาต่อในแบบฟอร์มของภาษาต่างประเทศอื่น สามารถนำไปพัฒนาส่วนของประเภทข้อมูลหรือขอบเขตของข้อมูลให้มี ความหลากหลายยิ่งขึ้น

  42. จบการนำเสนอ

More Related