การจัดการข้อมูลอัตโนมัติ
จาก LomaMilkyway
เมื่อข้อมูลมีจำนวนมากก่อนการพิจารณาตัดคำด้วยมือ อาจจะต้องพิจารณาว่าจะสามารถจำแนกส่วนของคำโดยอัตโนมัติได้อย่างไรบ้าง เพื่อประหยัดเวลาและลดปริมาณการทำงานด้วยมือให้น้อยลงที่สุด แนวทางสำหรับการจัดการข้อมูลอัตโนมัติก่อนการตัดคำด้วยมือ ได้แก่ การกำหนดลักษณะที่เห็นว่าจะเป็นส่วนแบ่งคำได้อัตโนมัติ ดังนี้
เนื้อหา |
การแยกด้วยเครื่องหมายวรรคตอน
หมายถึงการพิจารณาว่า ส่วนของข้อความที่คั่นด้วยเครื่องหมายวรรคตอนนั้นจะไม่ใช่คำเดียวกัน จึงสามารถแบ่งคำที่อยู่ระหว่างเครื่องหมายวรรคตอนได้ ตัวอย่าง
เครื่องหมายที่มีใช้ในภาษาไทย ได้แก่
| ชื่อเครื่องหมาย | รูป | ตัวอย่าง | กรณีเงื่อนไขการแยก |
|---|---|---|---|
| จุดไข่ปลา | ... | ที่นี่มีความหลากหลาย...เป็นที่ที่เต็มไปด้วยความมหัศจรรย์ | |
| จุลภาค | , | พรรณไม้เมืองร้อนต่างๆ ได้แก่ คล้า, พลูด่าง, เฟิร์นข้าหลวง และบอนกระดาด เป็นต้น | |
| ทวิภาค | : | มติ: ที่ประชุมมีมติดังนี้ | |
| ทับ | / | เงื่อนไขการรับประกัน/ซ่อมบำรุง | |
| ปรัศนี | ? | เมื่อเกิดปัญหาจะแก้ไขอย่างไร ? | |
| มหัพภาค | . | เริ่มประชุมเวลา 09.00 น. | ส่วนใหญ่จะปรากฏในคำย่อ ไม่สามารถแยกได้ |
| ยัติภังค์ | - | การจัดงานในครั้งนี้มีตั้งแต่เดือนพฤศจิกายน-ธันวาคม | กรณีที่ไม่สามารถแยกได้ ได้แก่ - เป็นเครื่องหมายแยกคำที่อยู่ระหว่างบรรทัด - กรณีใช้แยกแสดงเสียงอ่าน เช่น เพลา = (เพ-ลา) |
| ยัติภาค | – | ||
| วงเล็บ | ( ) [ ] { } | ตามสูตร [8+อายุราชการที่เหลือ (ปี)] คูณเงินเดือนเดือนสุดท้าย | ในกรณีที่คำที่อยู่ในวงเล็บเป็นส่วนหนึ่งของคำ โดยเฉพาะในชื่อเฉพาะ เช่น บริษัทริก้า (ประเทศไทย) จำกัด |
| วิภัชภาค | :- | ||
| อัญประกาศ | " ‘ ’ “ ” | ชมการแสดงละครนอกฟรีเรื่อง "สุวรรณหงส์" | |
| อัฒภาค | ; | ||
| อัศเจรีย์ | ! | คนไทยหวานอมขมกลืนแน่! | |
| ไปยาลน้อย | ฯ | ฝ่ายเลขานุการฯ รายงานว่า | - เครื่องหมาย ฯ เป็นส่วนหนึ่งของคำเต็ม - เมื่อตัดเครื่องหมายนี้จะมีผลต่อเครื่องหมาย ฯลฯ |
| ไปยาลใหญ่ | ฯลฯ | ||
| ไม้ยมก | ๆ | ไม้ยมกเป็นส่วนหนึ่งของคำซ้ำ | |
| ดอกจัน | * | ||
| รายการลำดับ | • | ||
| เท่ากับ | = | ถ้ารอบเดือนมีระยะ 30 วัน ไข่จะตกวันที่ 30-14 = วันที่ 16 ของรอบเดือน |
การแยกด้วยตัวเลข
เมื่อมองว่าตัวเลขไม่เป็นส่วนหนึ่งของคำ ก็สามารถแยกระหว่างตัวเลขและคำโดยอัตโนมัติ ตัวอย่างเช่น
- วันพุธที่ 19 กรกฎาคม พ.ศ. 2549 เวลา 09.55 น. - 13.30 น.
กรณีเงื่อนไข
- ในกรณีที่ตัวเลขถือเป็นส่วนหนึ่งของคำ เช่นในชื่อเฉพาะ ชื่อตำแหน่ง ชื่อรุ่น เป็นต้น อาจจะต้องพิจารณาว่า จะสามารถตัดอัตโนมัติได้หรือไม่? เช่น
- เจ้าหน้าที่วิเคราะห์นโยบายและแผน ๔
- เขียนชื่อที่อยู่ของท่านส่งไปที่ ตู้ป.ณ.2
- บทคนขับแท็กซี่ในละคร "มือปืนพ่อลูกติด" ทางช่อง 7
- ฝูงบิน 603 กองบิน 6
การแยกด้วยอักขระภาษาอังกฤษ
การแยกด้วยอักขระภาษาอังกฤษมีหลักการว่า ภาษาอังกฤษไม่ใช่สวนหนึ่งของคำภาษาไทย ดังนั้น ช่วงต่อระหว่างอักขระภาษาอังกฤษและภาษาไทยจึงสามารถแยกได้ เพื่อช่วยการแยกคำอัตโนมัติ การแยกออกระหว่างอักขระภาษาอังกฤษและภาษาไทยจะค่อนข้างง่าย และชัดเจน ตัวอย่างเช่น
- ให้มีระบบ Open Office ที่เป็น Open Source ด้วย
การแยกด้วยคำ
การแยกด้วยคำมีหลักเกณฑว่า มีคำอยู่กลุ่มหนึ่ง ที่มั่นใจได้ว่าคำที่อยู่หน้าและอยู่หลังคำเหล่านี้จะเป็นคนละคำกัน และไม่มีปัญหาเรื่องคำกำกวม ดังนั้นในการแยกคำเหล่านี้ก็จะตัดตรงตำแหน่งคำที่อยู่หน้าและอยู่หลังคำเหล่านี้ เช่น คำที่เป็นตัวหนาที่อยู่ในประโยคเหล่านี้
- ภูเขาสูงๆ ได้แก่ ภูเขาบรรทัด และภูเขาสันกาลาคีรี
- ชาจีนมีหลายประเภท แต่สามารถแบ่งได้ ดังนี้ ชาเขียว ชาอู่หลง ชาหมักหรือชาดำ ชาแต่งกลิ่น ชาแผ่นหรือชาแท่ง ชาสำเร็จรูป ชาพร้อมดื่ม และชาเมี่ยง
- เพราะตัวอัตตาของตัวเองมีมาก ดังนั้น จึงรู้สึกว่า มีความกดดันสูงมาก
- ลองทำตามขั้นตอนง่าย ๆ ต่อไปนี้ แล้วคุณจะมีสุขภาพที่ดีขึ้น
- เราต้องการ ให้ทำงานชนิดที่เป็น การเสียสละ จริงๆ ฉะนั้น จึงบัญญัติไว้ชัดว่า ต้องไม่หวังอะไรตอบแทน
- วัตถุออกซิไดซ์ หมายถึงวัตถุที่สามารถให้ออกซิเจนออกมาโดยที่วัตถุนี้ไม่จำเป็นต้องเกิดการเผาไหม้
การแยกด้วยคำอาจจะมีลักษณะประเด็นที่เป็นเงื่อนไขได้ เช่น ต้องระมัดระวังในลักษณะคำกำกวม เช่น หากเลือกคำว่า "เช่น" อาจจะเจอคำนี้ในคำว่า "เช่นนั้น" เป็นต้น เพราะฉะนั้น เมื่อแยกคำว่าเช่น ก็จะมีผลกระทบกับคำว่า เช่นนั้น
