Chapter 6 Text Representation ( ตัวแทนข้อความ)

Chapter 6Text Representation(ตัวแทนข้อความ)

ขอบเขตการศึกษา • รหัสตัวอักษร (Character Encoding) • Metadata • รูปแบบข้อความ (Formats) • ภาษามาร์กอัป (Markup Language)

บทนำ • ในบทนี้ จะบรรยายเรื่องตัวแทนของข้อความ (Text Representation) • ในคอมพิวเตอร์ สิ่งที่เราเห็นในข้อความ ดังเช่นในรายงานเล่มนี้ มีตัวอักษรต่างๆ • มีคำถามอยู่ว่าสิ่งที่เราเห็นนั้นเป็นเพียงเบื้องหน้าของข้อความ ส่วนเบื้องหลังของข้อความในคอมพิวเตอร์นี้เป็นอย่างไร...?? • แต่ละตัวอักษรแทนด้วยอะไร...??? • รูปแบบของประโยควรรคตอน แต่ละหน้า แต่ละบท จะจัดการอย่างเป็นระบบได้อย่างไร...??? ซึ่งในที่นี้รวมเรียกว่า ... “ตัวแทนข้อความ”

รหัสตัวอักษร • การเข้ารหัสตัวอักษร หมายถึงการกำหนดตัวเลขเฉพาะให้กับตัวอักษรของภาษาเพื่อใช้งานบนคอมพิวเตอร์ • การเข้ารหัสตัวอักษร อาจจะมีมากกว่า 1 ระบบ แต่ต้องเป็นมาตรฐาน ทั้งนี้ รหัสที่กำหนดจะไม่ขึ้นกับระบบคอมพิวเตอร์ ไม่ขึ้นกับระบบปฏิบัติการ รวามทั้งไม่ขึ้นอยู่กับโปรแกรมประมวลผลที่ใช้งาน การกำหนดรหัสเฉพาะที่เป็นมาตรฐานจะเป็นประโยชน์ในการแลกเปลี่ยนข้อมูลระหว่างคอมพิวเตอร์ด้วยกัน • ตัวอย่างเช่น ASCII Tis-620 EBCDIC Unicode

ASCII อ่านว่า แอส-กี้ • ASCII มีใช้ในระบบคอมพิวเตอร์และเครื่องมือสื่อสารแบบดิจิทัลต่างๆ พัฒนาขึ้นโดยคณะกรรมการ X3 ซึ่งอยู่ภายใต้การดูแลของสถาบันมาตรฐานแห่งชาติอเมริกา (American National Standard Institute : ANSI) ในปี ค.ศ. 1969 โดยเริ่มต้นใช้ครั้งแรกในปีค.ศ. 1967 ซึ่งมีอักขระทั้งหมด 128 ตัว (7 บิต) โดยจะมี 33 ตัวที่ไม่แสดงผล (unprintable/control character) ซึ่งใช้สำหรับควบคุมการทำงานของคอมพิวเตอร์บางประการ เช่น การขึ้นย่อหน้าใหม่สำหรับการพิมพ์ (CR & LF - carriage return and line feed) การสิ้นสุดการประมวลผลข้อมูลตัวอักษร (EOT - end of text)เป็นต้น และ อีก 95 ตัวที่แสดงผลได้ (printable character)

ตาราง ASCII 7 บิท ที่เป็นมาตรฐาน

ASCII • ( American National Standard Institute ) กำหนดมาตรฐานของรหัส ASCII ออกเป็น 2 พวกใหญ่ ๆ ตามลักษณะการใช้งานคือ 1. อักขระที่ทำให้เกิดข้อความที่อ่านเข้าใจได้เรียกว่า ตัวอักขระกราฟิก ( Graphic Character ) และ 2. อักขระที่ใช้ทำให้เกิดการควบคุม เรียกว่าอักขระควบคุม ( Control Character )

TIS-620 • เมื่อมีการใช้คอมพิวเตอร์กับข้อมูลภาษาไทยในยุคแรก ได้มีความสับสนอยู่เป็นประจำด้วยบริษัทที่จำหน่ายคอมพิวเตอร์เหล่านั้น ได้กำหนดรหัสเฉพาะของตัวอักษรภาษาไทย โดยอาศัยต่อจากตาราง ASCII ที่มีขึ้นก่อนหน้านั้น อย่างเป็นอิสระต่อกัน ทำให้ขาดความเป็นมาตรฐานของรหัสและไม่เป็นที่ยอมรับซึ่งกันและกัน • อย่างไรก็ตามท้ายที่สุด ด้วยความร่วมมือจากองค์กรต่าง ๆ และนักวิชาการหลากหลายสำนักภายใต้การนำของสำนักงานมาตรฐานอุตสาหกรรม หรือ สมอ. (Thai Indrustial Standards Institute [TISI]) TIS-620 หรือ มอก. 620 หรือที่เรียก กันทั่วไปว่า รหัส สมอ. เป็นมาตรฐานของรหัสตัวอักษร (Charset Code) ที่ใช้บนคอมพิวเตอร์ TIS-620 เป็นรหัสตัวอักษรที่ต่อเพิ่มจากรหัสตัวอักษรของ ISO-646

ตาราง TIS-620 ตามมาตรฐาน สมอ.

TIS-620 • ตาราง TIS-620 กำหนดให้ตัวอักษร ก-ฮ รวม ฤ ฦ ด้วย อยู่ในตำแหน่ง A1-CE ตัวอักษรสระ ะ า วรรณยุกต์และอื่นๆ อยู่ในต่ำแหน่ง D0-EE ที่พิเศษคือ ตัวอักษร ฿ อันเป็นสัญลักษณ์ของเงินบาทไทย กำหนดอยู่ในต่ำแหน่ง DF นอกจากนี้ตัวเลข ๐-๙ ก็กำหนดอยู่ในต่ำแหน่ง F0-F9 • อย่างไรก็ตามแม้จะมีการกำหนดมาตรฐานของรหัสคอมพิวเตอร์ที่ใช้แทนตัวอักษรไทยแล้ว แต่การลำดับตัวอักษรในเขียนคำในภาษาไทยยังต้องเป็นบรรทัดฐานเดียวกัน เพื่อการจัดเก็บในคอมพิวเตอร์เหมือนกัน มิฉะนั้น ก็จะค้นหาไม่พบในการสืบค้นเพราะในคอมพิวเตอร์ การลำดับตัวอักษรที่ต่างกัน ต้องถือว่าเป็นคำที่ต่างกัน

EBCDIC • รหัส EBCDIC (อ่านออกเสียงว่าeb-si-dik) ย่อมาจาก Extended Binary Coded Decimal Interchange Code เป็นการเข้ารหัสของตัวอักษรภาษาอังกฤษจากบริษัท IBM และได้ใช้จัดเก็บข้อมูล ประมวลผลข้อมูล และแสดงผลข้อมูลบนเครื่องคอมพิวเตอร์ รหัสชนิดนี้นิยมใช้กันในระบบคอมพิวเตอร์ขนาดใหญ่ ๆ • เมื่อคอมพิวเตอร์ได้แพร่หลายมาสู่ประเทศไทยในยุค 60 IBM ก็เป็นรายแรกที่ประสบผลสสำเร็จในการนำเข้า และมีการติดตั้งเครื่องคอมพิวเตอร์ Main-frame ในหลายๆองค์กรเพื่อการประมวลผล ที่สำคัญได้แก่ จุฬาลงกรณ์มหาวิทยาลัย สำนักงานสถิติแห่งชาติ เป็นต้น และเครื่องคอมพิวเตอร์ IBM ทุกวันนี้ยังเป็นที่นิยมและน่าเชื่อถือในวงการคอมพิวเตอร์ในประเทศ เมื่อมีการจัดเก็บข้อมูลภาษาไทยบนเครื่องคอมพิวเตอร์ IBM รวมทั้งการประมวลผลและการแสดงผล บริษัท IBM จึงได้พัฒนารหัส EBCDIC ที่รวมภาษาไทยเข้าไปด้วย

EBCDIC • แต่ด้วยรหัส EBCDIC มีเพียงเครื่องคอมพิวเตอร์ IBM เท่านั้นที่ใช้งาน EBCDIC ที่เติมตัวอักษรไทย จึงไม่มีปัญหาอย่างเช่น ASCII ที่เติมตัวอักษรไทย เนื่องจากมากระบบของหลายหน่วยงานจนเกินไป • รหัส EBCDIC จะแตกต่างจากรหัส ASCII ตรงที่ รหัสASCII จะใช้ลำดับของเลขฐานสองโดยตรงสำหรับแทนลักษณะเฉพาะต่าง ๆ แต่รหัส EBCDIC จะใช้รหัส BCD เป็นพื้นฐานของการจัดเลขฐานสอง

ตำแหน่งอักขระไทยในตารางรหัส EBCDIC

Unicode • Unicode คือ มาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความตัวอักษรที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) • สาเหตุการพัฒนา เพราะ จำนวนอักขระที่เขียนเป็นจำนวนมากเกินกว่าที่จะแทนด้วย 1 byte ได้ (ซึ่งแทนได้เพียง 256 แบบของตัวอักขระ) อีกทั้งเมื่อมีการใช้รหัสอักขระที่แตกต่างกัน ก็จะมีผลต่อการย้ายข้อมูลข้ามภาษา เช่น รหัสที่แทนตัวอักขระ ก ที่ใช้ภาษาไทยจะไปตรงกับรหัสตัวอักขระ ¡ ในอีกตารางหนึ่ง เป็นต้น จึงมีความพยายามแก้ปัญหาให้มีรหัสเดียวที่ใช้ได้กับอักขระทุกภาษา ซึ่งเป็นที่มาของการพัฒนารหัส Unicode ขึ้นมาตั้งแต่ปีค.ศ.1991 (Unicode 1.0) โดยที่รหัสตัวอักขระ 256 ตัวแรกนั้นจะเหมือนกับรหัสของ ISO-8859

Unicode • Unicode Consortium เป็นองค์กรไม่แสวงหาผลกำไร เป็นผู้รับผิดชอบในการพัฒนายูนิโคด องค์กรนี้มีจุดมุ่งหมายเกี่ยวกับการแทนที่การเข้ารหัสอักขระที่มีอยู่ด้วยยูนิโคดและมาตรฐานรูปแบบการแปลงยูนิโคด (Unicode Transformation Format: UTF) • Unicode Standard ได้มีการพัฒนาร่วมกับ ISO (International Standard Organization) ในการกำหนดมาตรฐานของการเข้ารหัสตัวอักษรตาม ISO/IEC 10646 • Unicode chart มาตรฐานในการเข้ารหัสของตัวอักษรในภาษาต่างๆ ทั่วโลก • Unicode for Symbols and Punctuation รหัสมาตรฐานของตัวอักษรในภาษามนุษย์แล้วยังได้กำหนดสัญลักษณ์ในภาษาคณิตศาสตร์ ภาษาดนตรี ภาษารูปภาพ และอื่นๆด้วย

Metadata • Metadata หมายถึงข้อมูลที่ใช้อธิบายคุณลักษณะของทรัพยากรสารสนเทศ ซึ่งอาจเป็นข้อความ เอกสาร หนังสือ รูปแบบ สื่อผสม หรืออื่นๆได้ Metadata ไม่ใช่เนื้อหาที่กล่าวถึงแต่เป็นข้อมูลที่เกี่ยวกับข้อมูล (Data about the Data) เช่นหนังสือเล่มนี้เป็นตำราว่าด้วยเรื่องระบบจัดเก็บและสืบค้นสารสนเทศด้วยคอมพิวเตอร์ มีเนื้อหาสาระว่าด้วยโมเดลต่างๆ ของระบบการสืบค้น การสร้างดรรชนี วิธีการสืบค้น ฯลฯ ในบทนี้จะอธิบายถึง • Metadata Schema • Dublin Core • การจัดเก็บ Metadata • ประโยชน์ของ Metadata

Metadata Schema • Metadata Schema หมายถึงรูปแบบของการกกำกับข้อมูลในทรัพยากรสารสนเทศ อันประกอบด้วยคุณลักษณะดังต่อไปนี้ • Element จำนวนหนึ่งที่ไม่มากจนเกินไป • ชื่อของทุก Element ที่กล่าวถึง • ความหมายของแต่ละ Element

ทุกระเบียนของ Metadata ประกอบด้วยชื่อ Element ที่ได้กำหนดไว้ก่อน เพื่อใช้แสดงลักษณะเฉพาะของทรัพยากรสารสนเทศ แต่ละ Element จะตามด้วยค่าของมัน ที่จะมีหนึ่งค่าหรือหลาย ๆ ค่าก็ได้ ขึ้นอยู่กับชนิดของ Element Metadata Server จะประกอบไปด้วยคลังข้อมูลของทรัพยากรสารสนเทศต่าง ๆ ตัวอย่างของระเบียนหนึ่งของ Metadata Database เป็นดังนี้ ทุกระเบียนของ Metadata ประกอบด้วยชื่อ Element ที่ได้กำหนดไว้ก่อน เพื่อใช้แสดงลักษณะเฉพาะของทรัพยากรสารสนเทศ แต่ละ Element จะตามด้วยค่าของมัน ที่จะมีหนึ่งค่าหรือหลาย ๆ ค่าก็ได้ ขึ้นอยู่กับชนิดของ Element

Dublin Core • Dublin Coreเป็น Metadata Schema ที่สำคัญสำหรับงานเอกสารอิเล็กทรอนิกส์การกำเนิด Dublin Core ได้จากการประชุมวิชาการ โดยกลุ่ม OCLC (On-line Computer Library Center) ร่วมกับ NCSA (National Center for Supercomputing Applications) ของประเทศวหรัฐอเมริกา เมื่อเดือนมีนาคม 1995 ที่ Dublin รัฐ Ohio ของประเทศสหรัฐอเมริกา

15 Element ใน Dublin Core จัดเป็น 3 กลุ่มประเภท กลุ่มแรกเป็นเรื่องของเนื้อหาและเกี่ยวกับทรัพยากรสารสนเทศ กลุ่มที่สองเป็นเรื่องของทรัพย์สินทางปัญญา และกลุ่มที่สามเป็นเรื่องของข้อมูลที่เปิดเผยทางกายภาพ หรืออิเล็กทรอนิกส์

การจัดเก็บ Metadata • การจัดเก็บ Metadata สามารถนำไปใช้ในรูปแบบต่างๆ ด้วยการจัดเก็บในหลายลักษณะได้ดังนี้ • ฝังตัว Metadata ในหน้าเว็บด้วย META Tag • แยกตัวเอกสาร HTML โดยมีตัวเชื่อมไปยังทรัพยากรสารสนเทศที่กล่าวถึง • จัดเก็บในฐานข้อมูลที่เชื่อมไปยังทรัพยากรสารสนเทศ ตัวระเบียนอาจได้จากการสร้างขึ้นโดยตรงในฐานข้อมูล หรือได้จากการดึงข้อมูลมาใช้บนหน้าเว็บ

ประโยชน์ของ Metadata • Resource Discovery หมายถึงช่วยในการสืบค้น สืบเสาะทรัพยากรสารสนเทศบนเครือข่าย Internet เป็นไปอย่างง่ายและสะดวก ผลที่ได้มีความสัมพันธ์สอดาคล้องกับคำสอบถามแทนที่จะได้คำตอบมากหลายแต่ก้เป้นขยะเสียมาก • Interoperabilityใช้ประโยชน์ในการแลกเปลี่ยนข้อมูลระหว่างกัน ด้วยความที่มีมาตรฐานไม่ขึ้นอยู่กับชนิด ยี่ห้อ และระบบปฎิบัติการใดๆ ของเครื่องคอมพิวเตอร์ ทำให้สามารถสืบค้นข้ามระบบกันได้ และใช้ทรัพยากรร่วมกันได้ • Digital Identificationใช้ประโยชน์ในการระบุตัวตนของทรัพยากรสารสนเทศที่กล่าวถึง อันจะสามารถบอกถึงชนิด ประเภท ข้อมูลทางกายภาพ ทรัพย์สินทางปัญญา ทำให้ผลการสืบค้นมีความเกียวพันธ์ที่เป็นการเฉพาะสูง • Archiving and Preservation ใช้ประโยชน์ในการจัดเก็บและรักษาเอกสารทางประวัติศาสตร์ในรูปแบบดิจิตอล

รูปแบบของข้อความ (Formats) • Formats หมายถึง รูปแบบของข้อความในเอกสาร ซึ่งมีการจัดเก็บในหลากหลายรูปแบบตามวัตถุประสงค์ต่างๆ ตัวอย่างก็คือ ต้นฉบับของข้อความในรายงานเล่มนี้ มีรูปแบบการจัดเป็น Word file โดยแหล่งมีการเตรียมข้อมูลจากโปรแกรมต่างๆ เช่น Microsolf Word เป็นต้น เมื่อได้จัดรูปแบบ จัดบท จัดหน้า จัดบรรทัด ตัวอักษรใหญ่เล็ก ตัวอักษรหนาหรือตัวอักษรบาง ตัวตรง ตัวเอียง เป็นที่เรียบร้อยและเป็นระบบ • รูปแบบข้อความ อาทิเช่น • LaTeX • Word Processing • RTF • PDF • PS

LaTeX • LaTeX เป็นภาษามาร์กอัปสำหรับเอกสาร (document Markup Language) และโปรแกรมเตรียมอกสารสำหรับสร้างเอกสารแบบมีโครงสร้างโดยอาศัย TeX เป็นตัวเรียงพิมพ์ TeX เป็นโปรแกรมจัดเรียงพิมพ์เอกสารทางวิทยาศาสตร์และคณิตศาสตร์ ซึ่งแวดวงวิทยาศาสตร์และคณิตศาสตร์ใช้กันอย่างแพร่หลาย เนื่องจากให้คุณภาพและการเรียงพิมพ์สูง เอกสารที่แสดงผลมีความสวยงามน่าอ่าน นอกจากนี้ยังสามารถนำไปใช้งานบน Internet เพื่ออำนวยความสะดวกในการแสดงสมการทางวิทยาศาสตร์และคณิตศาสตร์บนเว็บไซต์ต่าง ๆ ได้อีกด้วย

ความเป็นมา • ในปี 1978 ศาสตราจารย์ Donald E. Knuth ที่มหาวิทยาลัย Stanford ได้สร้างโปรแกรมเรียงพิมพ์ (Typesetter) โดยมีวัตถุประสงค์เพื่อให้เป็นโปรแกรมเรียงพิมพ์ระดับคุรภาพสูงเทียบเท่าการเรียงพิมพ์หนังสือตามแบบฉบับ โดยเฉพาะการเรียงพิมพ์สมการทางคณิตศาสตร์ นอกจากนี้ยังมีความสามารถในการเรียงพิมพ์สมการทางวิทยาศาสตร์ เช่น สมการเคมี ได้เป็นอย่างดี • LaTeX ซึ่งพัฒนาโดย Leslie Lamport ในปี 1980 ที่ SRI International เป็นแมคโครสำหรับสร้างเอกสารแบบมีโครงสร้างโดยอาศัย TeX เป็นตัวเรียงพิมพ์ LaTeX

โครงสร้างของเอกสาร • Preamble เป็นส่วนหัวก่อนเริ่มเนื้อหาเอกสาร ใช้ในการระบุชนิดของเอกสารและ Package ที่ใช้และ ใช้ปรับแต่งรูปหน้าของเอกสารต่างๆ • Top Matter เป็นส่วนที่ใช้แสดงข้อมูลเอกสาร ได้แก่ ชื่อเรื่อง (Title), วันที่สร้างเอกสาร (Date),ชื่อผุ้แต่ง (Authors) และอื่นๆ • Abstractเป็นส่วนที่ใช้ในการแสดงบทคัดย่อ ซึ่งเป็นองค์ประกอบหลักของบทความวิจัยส่วนใหญ่ • Sectioning Commandsเป็นคำสั่งในการกำหนดหัวข้อในเอกสาร เหมาะสำหรับ Document Class Book แต่ไม่มีใน Article • Section Numberingเป็นส่วนที่ใช้ในการกำหนดหัวข้อและหัวข้อย่อยในเอกสาร • Ordinary Paragraphsเป็นส่วนที่ใช้ในการกำหนดช่องว่างระหว่างแต่ละย่อหน้าในเอกสาร โดยใช้คำสั่ง \setlengthซึ่งจะถูกกำหนดในส่วนของ Preamble • Table of Contents หัวข้อต่างๆ จะถุกนำมาสร้างเป็นสารบัญโดยอัตโนมัติ

Word Processing • Word Processing (โปรแกรมประมวลผลคำ) เป็นโปรแกรมคอมพิวเตอร์ ที่ใช้สำหรับ การพิมพ์เอกสาร สามารถแก้ไข เพิ่ม แทรก ลบ และจัดรูปแบบเอกสาร เอกสารที่ พิมพ์ไว้ จัดเป็น แฟ้มข้อมูล เรียกมา พิมพ์หรือ แก้ไข ใหม่ได้ การพิมพ์ ออกทาง เครื่องพิมพ์ ก็มีรูปแบบ ตัวอักษร ให้เลือกหลาย รูปแบบ เอกสารจึงด ูเรียบร้อย สวยงาม นอกจากนี้ ยังสามารถแปลงแฟ้มเอกสารให้เป็น file ประเภทอื่นๆได้ เช่น PDF file เป็นต้น

โครงสร้างภายใน • Main Stream ประกอบด้วยส่วนหัวในชื่อ, ข้อความและรูปแบบ • FIB เป็นส่วนที่เริ่มต้นเอกสาร ซึ่งจะเก็บในหน้า 0 ของไฟล์ • Text เป็นข้อความทั้งในส่วนหลัก (Body) สั่งเกตส่วนล่าง (footnotes) และหัวเรื่องต่างๆ (Headers) • Formatted Information ได้แก่ รูปแบบ สำหรับ Character Properties และ List level Cache • Summary Information Stream ในรายละเอียด จัดเก็บในส่วนของ SummaryInformation และ DocumentSummary Information • Table Stream ในเอกสารร Word จะเก็บตารางเป็น Steam ที่มีชื่อว่า ‘0Table’ หรือ‘1Table’ โดยทั่วไปแฟ้มข้อมูลจะมีเพียงตารางเดียว แต่ที่ต้องมี 2 ตารางก็ใช้ในกรณีที่ไม่ปกติ เช่น แฟ้มข้อมูลถูกทำลายเวลา Save • Data Stream ประกอบด้วยสิ่งที่ฝั่งตัว ในเอกสารและรูปภาพต่าง ๆ ซึ่งเป็นข้อมูลมากมายที่อ้างอิงไปยัง Main Stream • Custom XML Storage เป็นส่วนที่เพิ่มเตอมเฉพาะเอกสารที่สร้างด้วย Word 2007 เพื่อระบุส่วนของ Customer XML ต่างๆ ที่มีอยู่ภายใน Binary Format ซึ่งอาจจะมีหรือไม่มีก็ได้ ถ้ามี ในแต่ละส่วนจะถูกเก็บแยกกันและถูกกำกับด้วยชื่อเฉพาะ Customer XML Storage จึงประกอบไปด้วย 2 Stream ได้แก่ item และ properties • Object Stream อื่นๆ ซึ่งอาจจะประกอบไปด้วยข้อมูลไบนารีสำหรับ Embedded Objects ของ OLE 2.0 ที่อยู่ภายในเอกสาร โดย Word จะไม่มีองค์ความรู้เกี่ยวกับเนื้อหาของ Stream นี้ หากไม่มีในส่วนนี้ก็จะมีค่าเป็นศูนย์

RTF • Rich Text Fomat (RTF) เป็นรูปแบบไฟล์อกสารที่พัฒนาโดย Microsoft ในปี 1987 เพื่อใช้ในการแลกเปลี่ยนเอกสารข้ามระบบปฏิบัติการที่ต่างกัน โดยโปรแกรมประมวลผลคำส่วนใหญ่จะสามารถอ่านและเขียนเอกสาร RTF ได้ มาตรฐานของ RTF กำหนดโดย Microsoft นับแต่เริ่มจนถึงปัจจุบัน โดยมาตรฐานรุ่น 1.9 ได้มีการกำหนดในเดือนมกราคม 2009

โครงสร้างภายในRTF ประกอบไปด้วย 4 ส่วนได้แก่ • RTF Prodogเป็นส่วนที่กำหนดข้อมูลที่สำคัยของเอกสาร ได้แก่รุ่นของ RTF ประเภทและรูปแบบอักษร โดยเริ่มต้นด้วย { และตามด้วยข้อมูลต่างๆ ดังตัวอย่าง • RTF Document Formatting Commands เป็น Option ที่ใช้สำหรับกำหนดรูปแบบของทั้งเอกสาร จึงจะถูกกำหนดต่อจาก RTFProdog • RTF Document Content เป็นส่วนของ Plaintext, Commands และ Escape พื้นฐานในย่อหน้าต่างๆ • RTF Conclusion เป็นส่วนปิดท้ายของเอกสาร ซึ่งจะต้องปิดท้ายด้วย } และทำการปิดไฟล์

Portable Document Format (PDF) • PDF คือรูปแบบแฟ้มลักษณะหนึ่งที่พัฒนาโดยบริษัท Adobe Systems ในปี 1993 สำหรับการแสดงเอกสาร ที่สามารถใช้งานได้ในทุกระบบปฏิบัติการและยังคงลักษณะเอกสารเหมือนต้นฉบับ เอกสารในรูปแบบ PDF สามารถจัดเก็บ ตัวอักษร รูปภาพ รูปลายเส้น ในลักษณะเป็นหน้าหนังสือ ตั้งแต่ หนึ่งหน้า หรือหลายพันหน้าได้ในแฟ้มเดียวกัน PDF เป็นมาตรฐานที่เปิดให้คนอื่นสามารถเขียนโปรแกรมมา ทำงานร่วมกับ PDF ได้

โครงสร้างของไฟล์ PDF ประกอบด้วย 4 ส่วนหลัก Hearderอยู่ในบรรทัดแรกของไฟล์ PDF เป็นส่วนที่กำหนดรุ่นของ PDF Bodyประกอบด้วย Object ต่างๆ ซึ่งบรรจุเนื้อหาของเอกสารไว้ Object มีหลากหลายประเภท อาทิเช่น ข้อความ รูปภาพตัวพิมพ์ คำอธิบายประกอบ และอื่นๆ นอกจากนี้ยังประกอบด้วยข้อมูลที่ไม่สามารถแสดงผลได้ เช่น Security, Logical Structure เป็นต้น Cross-refferance Tableประกอบด้วย Offset ของทุกๆ Object Trailerเป็นส่วนปิดท้ายไฟล์ PDF ช่วยให้สามารถเข้าถึง Cross-referance Table ได้อย่างรวดเร็ว เนื่องจากในส่วนนี้จะเก็บค่า startxref และค่า Byte Offset จากจุดเริ่มต้นไฟล์จนกระทั่งถึงคำว่า xref และโปรแกรมประยุกต์จะอ่านไฟล์ PDF เริ่มจากจุดสิ้นสุดของไฟล์ (End-of-line Marker)

PostScript (PS) • PostScript (PS) เป็นภาษาในการจัดหน้า (Page Description Language) และภาษาการเขียนโปรแกรม (Programming Language) ของ Adobe Systems โดยได้นำมาใช้ในครั้งแรกในการจัดพิมพ์เอกสารอิเล็กทรอนิกส์ด้วยคอมพิวเตอร์ที่ชื่อว่า Destop Publishing

โครงสร้างภายในของเอกสาร PostScript • ประกอบด้วย 5 ส่วน • Header เป็นส่วนที่เริ่มต้นของไฟล์ PostScript ซึ่งใช้กำหนดข้อมูลสำคัญของเอกสาร PostScript • Procedure Definition ใช้ในการกำหนดขั้นตอนต่างๆ ที่ใช้ในเอกสาร PostScript ซึ่งเขียนเป็นภาษา Prolog • Document Setup เป็นส่วนที่ใช้ในการกำหนดค่าเริ่มต้นต่างๆ ให้กับเอกสาร • Pages เป็นส่วนกำหนดหน้าของเอกสาร โดยแต่ละหน้าของเอกสารจะแยกออกจากกันโดยชัดเจน • Document Trailer เป็นส่วนปิดท้ายไฟล์ PostScript

ภาษามาร์กอัป(Markup Language) • ภาษามาร์กอัป เป็นภาษาคอมพิวเตอร์ ประภเทหนึ่งที่ใช้เขียนข้อความเพิ่มเติมจากข้อความเดิม โดยมีกฎกติกาอย่างเป็นระบบ เพื่อใช้เป็นประโยชน์ในการอธิบายข้อความนั้น ในเรื่องโครงสร้าง รูปแบบ การประมวลผล ตลอดจนการแสดงผล ภาษามาร์กอัปมีการใช้มาเป็นเวลายาวนาน โดยเฉพาะการจัดรูปแบบการพิมพ์ด้วยคอมพิวเตอร์ และการใช้โปรแกรมการประมวลผลคำ (Word Processor) เป็นต้น ภาษามาร์กอัปในปัจจุบันมีมากมาย ในที่นี้จะกล่าวถึงเฉพาะภาษามาร์กอัปที่สำคัญและเป็นที่นิยมใช้กันอย่างแพร่หลายในปัจจุบัน อันได้แก่ • SGML (Standardized Markup Language) • Hypertext Markup Language( HTML) • Extensible Markup Language (XML)

SGML (Standardized Markup Language) • SGML เป็นภาษาต้นแบบของภาษากำกับข้อความในเอกสารที่มีมาตรฐานการกำกับจะเป็นการกำกับตัวป้ายกำกับ หรือเรียกโดยทั่วไปว่า Teg อย่างมีความหมาย พัฒนามาในปี ค.ศ. 1986 เนื่องจากปัญหาในการแลกเปลี่ยนเอกสารข้อมูลระหว่างกันในระบบเครือข่ายอินเทอร์เน็ตยุคแรกๆ จึงมีนักวิจัยกลุ่มหนึ่ง พัฒนาเครื่องมือในการแลกเปลี่ยนข้อมูลระหว่างกัน ซึ่งคุณสมบัติเบื้องต้นของเครื่องมือดังกล่าว คือ ต้องยืดหยุ่น สามารถรองรับข้อมูลรูปแบบแปลกๆ ในอนาคตได้ ใช้ได้ทั่วโลก และในคอมพิวเตอร์ทุกรูปแบบ จากข้อกำหนดดังกล่าว จึงเกิดภาษา SGML มีการเก็บข้อมูลในรูปรหัส ASCII เพราะคอมพิวเตอร์ทั่วไปสามารถอ่านข้อมูลลักษณะนี้ได้เหมือนๆ กัน

SGML มีลักษณะเฉพาะ 3 อย่างที่แตกต่างจากภาษามาร์กอัปอื่น กล่าวคือ • เป็นการกำกับด้วยป้ายอธิบาย (Description Markup) ไม่ใช่ด้วยวิธีการ (Procedural Markup) • เป็นการกำหนดประเภทของเอกสาร (DTD) และ • เป็นความอิสระของข้อมูล (Data Independence) ที่ไม่ขึ้นกับชนิดของเครื่องคอมพิวเตอร์และโปรแกรมคำสั่ง

โครงสร้างของเอกสาร SGML • SGML ประกอบด้วยส่วนต่างๆ ดังนี้ • ส่วนประกาศ SGML เป็นส่วนที่ระบุคุณสมบัติของ SGML • Element เป็นส่วนที่แสดงลักษณะโครงสร้างของเอกสาร โดยแต่ละ Element จะประกอบด้วยป้ายกำกับ (Tag) โดยชื่อของ Element อาจจะไม่แสดงความหมายของ Element นั้นๆ • Attribute ใช้สำหรับอธิบายข้อมูล ซึ่งจะอยู่ในเครื่องหมาย < > • Entity อาจเป็นสายตัวอักษร หรือแฟ้มข้อความที่นำมารวมอยู่ในเอกสาร

HTML หรือ Hypertext Markup Language • HTML (เอชทีเอ็มแอล)เริ่มพัฒนาโดย ทิม เบอร์เนอรส์ ลี (Tim Berners Lee) ในปัจจุบัน HTML เป็นมาตรฐานหนึ่งของ ISO ซึ่งจัดการโดย World Wide Web Consortium (W3C) • HTML เป็นภาษามาร์กอัปหลักในปัจจุบันที่ใช้ในการสร้างเว็บเพจ หรือข้อมูลอื่นที่เรียกดูผ่านทางเว็บเบราว์เซอร์ซึ่งตัวโค้ดจะแสดงโครงสร้างของข้อมูลในการแสดง หัวข้อ ลิงก์ ย่อหน้า รายการ รวมถึงการสร้างแบบฟอร์ม เชื่อมโยงภาพ หรือวิดีโอด้วยโครงสร้างของโค้ด HTML จะอยู่ในลักษณะภายในวงเล็บสามเหลี่ยม (< >) หรือเรียกว่า Tag (แท็ก)

โครงสร้างเอกสาร HTML ไฟล์เอกสาร HTML ประกอบด้วยส่วนประกอบสองส่วนคือ Head กับ Body 1. (Head Section) เป็นส่วนที่ใช้อธิบายเกี่ยวกับข้อมูลเฉพาะของหน้าเว็บนั้นๆ เช่น ชื่อเรื่องของหน้าเว็บ (Title), ชื่อผู้จัดทำเว็บ (Author), คีย์เวิร์ดสำหรับการค้นหา (Keyword) 2. Body Section เป็นส่วนเนื้อหาหลักของหน้าเว็บ ซึ่งการแสดงผลจะต้องใช้ Tag จำนวนมาก ขึ้นอยู่กับลักษณะของข้อมูล เช่น ข้อความ, รูปภาพ, เสียง, วีดิโอ หรือไฟล์ต่างๆ

Extensible Markup Language (XML) • XML ย่อมาจาก Extensible Markup Language ซึ่งเป็นภาษามาร์กอัปสำหรับการใช้งานทั่วไป พัฒนาโดยW3C โดยมีจุดประสงค์เพื่อใช้ในการติดต่อกันในระบบที่มีความแตกต่างกัน(เช่นใช้คอมพิวเตอร์มี่มีระบบปฏิบัติการคนละตัว หรืออาจจะเป็นคนละโปรแกรมประยุกต์ที่มีความต้องการสื่อสารข้อมูลถึงกัน)นอกจากนี้ยังเพื่อเป็นพื้นฐานในการสร้างภาษามาร์กอัปเฉพาะทางอีกขั้นหนึ่ง XML พัฒนามาจาก SGML โดยดัดแปลงให้มีความซับซ้อนลดน้อยลง XML ใช้ในแลกเปลี่ยนข้อมูลระหว่างเครื่องคอมพิวเตอร์ที่แตกต่างกัน และเน้นการแลกเปลี่ยนข้อมูลผ่านอินเทอร์เน็ต

รูปแบบโครงสร้างของเอกสารรูปแบบโครงสร้างของเอกสาร • เอกสาร XML แบ่งออกเป็น 2 ประเภท ดังนี้ • Well-formed XML Document เป็นเอกสาร XML ที่ใช้กฎกติกา (Syntax) ของ XML อย่างถูกต้องตามมาตรฐานทุกประการ เอกสารที่ไม่ Well-formed ไม่ถือว่าเป็น XML • Vaild XML Document เป็นเอกสาร XML ที่ Well-formed และใช้ Tag ที่กำหนดเฉพาะใน Schema ที่ตกลงกันไว้เท่านั้น ปัจจุบัน Schema ที่นิยมใช้กันทั่วไป มี 3ประเภท ดังต่อไปนี้ • Document Type Definition (DTD) • XML Schema • RELAXNG

โครงสร้างของเอกสาร XML • โครงสร้างของ XML ประกอบด้วย 2 ส่วนหลัก คือ • Prolog ส่วนประกาศ XML สำหรับเอกสาร XML ใดๆ อาจมีส่วนประกาศ (XML Declaration) เพื่อบอกเวอร์ชันของ XML และลักษณะการ Encoding ตัวอักษรที่ใช้โดย XML สนับสนุน Unicode Encoding • Document Element XML ใดๆ จะประกอบด้วยโครงสร้างที่ถูกกำหนดเป็นลำดับชั้น ซึ่งจะมีหนึ่ง Root Element เสมอ

Questions/Answers • Thank you

Chapter 6 Text Representation ( ตัวแทนข้อความ)

Chapter 6 Text Representation ( ตัวแทนข้อความ)

Presentation Transcript

Text and Web Search

Chapter 7 Text Operations

Chapter Seven: Customer Satisfaction, Retention, and Loyalty

Chapter 2

Chapter #5: MOSFET’s

Principles of Information Systems

Word Chapter 1

Chapter 8: Graphs

Chapter 24

DISK

Informational Text Structures

Chapter 3 Digital Transmission Fundamentals

Chapter 4 Alkyl halides ( 卤代烷 ): Nucleophilic substitution and elimination ( 亲核取代和消除 )

Chapter 8 Indexing and Searching

Quick Review of Model Rules for the MPRE

Chapter 3 Digital Transmission Fundamentals

The CLARION Cognitive Architecture: A Tutorial

Chapter 3 Digital Transmission Fundamentals

Chapter 2

Chapter 2

Chapter 2

Chapter #4: Diodes