การจัดการข้อมูลอัตโนมัติ

จาก LomaMilkyway

ข้ามไปที่: นำทาง, ค้นหา

เมื่อข้อมูลมีจำนวนมากก่อนการพิจารณาตัดคำด้วยมือ อาจจะต้องพิจารณาว่าจะสามารถจำแนกส่วนของคำโดยอัตโนมัติได้อย่างไรบ้าง เพื่อประหยัดเวลาและลดปริมาณการทำงานด้วยมือให้น้อยลงที่สุด แนวทางสำหรับการจัดการข้อมูลอัตโนมัติก่อนการตัดคำด้วยมือ ได้แก่ การกำหนดลักษณะที่เห็นว่าจะเป็นส่วนแบ่งคำได้อัตโนมัติ ดังนี้

เนื้อหา

การแยกด้วยเครื่องหมายวรรคตอน

หมายถึงการพิจารณาว่า ส่วนของข้อความที่คั่นด้วยเครื่องหมายวรรคตอนนั้นจะไม่ใช่คำเดียวกัน จึงสามารถแบ่งคำที่อยู่ระหว่างเครื่องหมายวรรคตอนได้ ตัวอย่าง เครื่องหมายที่มีใช้ในภาษาไทย ได้แก่


ตารางแสดงเครื่องหมายวรรคตอนที่ปรากฏในภาษาไทยและกรณีเงื่อนไขการแยก
ชื่อเครื่องหมาย รูป ตัวอย่าง กรณีเงื่อนไขการแยก
จุดไข่ปลา ... ที่นี่มีความหลากหลาย...เป็นที่ที่เต็มไปด้วยความมหัศจรรย์
จุลภาค , พรรณไม้เมืองร้อนต่างๆ ได้แก่ คล้า, พลูด่าง, เฟิร์นข้าหลวง และบอนกระดาด เป็นต้น
ทวิภาค : มติ: ที่ประชุมมีมติดังนี้
ทับ / เงื่อนไขการรับประกัน/ซ่อมบำรุง
ปรัศนี ? เมื่อเกิดปัญหาจะแก้ไขอย่างไร ?
มหัพภาค . เริ่มประชุมเวลา 09.00 น. ส่วนใหญ่จะปรากฏในคำย่อ ไม่สามารถแยกได้
ยัติภังค์ - การจัดงานในครั้งนี้มีตั้งแต่เดือนพฤศจิกายน-ธันวาคม กรณีที่ไม่สามารถแยกได้ ได้แก่
- เป็นเครื่องหมายแยกคำที่อยู่ระหว่างบรรทัด
- กรณีใช้แยกแสดงเสียงอ่าน เช่น เพลา = (เพ-ลา)
ยัติภาค
วงเล็บ ( )
[ ]
{ }
ตามสูตร [8+อายุราชการที่เหลือ (ปี)] คูณเงินเดือนเดือนสุดท้าย ในกรณีที่คำที่อยู่ในวงเล็บเป็นส่วนหนึ่งของคำ โดยเฉพาะในชื่อเฉพาะ เช่น บริษัทริก้า (ประเทศไทย) จำกัด
วิภัชภาค :-
อัญประกาศ "
‘ ’
“ ”
ชมการแสดงละครนอกฟรีเรื่อง "สุวรรณหงส์"
อัฒภาค ;
อัศเจรีย์ ! คนไทยหวานอมขมกลืนแน่!
ไปยาลน้อย ฝ่ายเลขานุการฯ รายงานว่า - เครื่องหมาย ฯ เป็นส่วนหนึ่งของคำเต็ม
- เมื่อตัดเครื่องหมายนี้จะมีผลต่อเครื่องหมาย ฯลฯ
ไปยาลใหญ่ ฯลฯ
ไม้ยมก ไม้ยมกเป็นส่วนหนึ่งของคำซ้ำ
ดอกจัน *
รายการลำดับ
เท่ากับ = ถ้ารอบเดือนมีระยะ 30 วัน ไข่จะตกวันที่ 30-14 = วันที่ 16 ของรอบเดือน

การแยกด้วยตัวเลข

เมื่อมองว่าตัวเลขไม่เป็นส่วนหนึ่งของคำ ก็สามารถแยกระหว่างตัวเลขและคำโดยอัตโนมัติ ตัวอย่างเช่น

วันพุธที่ 19 กรกฎาคม พ.ศ. 2549 เวลา 09.55 น. - 13.30 น.

กรณีเงื่อนไข

ในกรณีที่ตัวเลขถือเป็นส่วนหนึ่งของคำ เช่นในชื่อเฉพาะ ชื่อตำแหน่ง ชื่อรุ่น เป็นต้น อาจจะต้องพิจารณาว่า จะสามารถตัดอัตโนมัติได้หรือไม่? เช่น
เจ้าหน้าที่วิเคราะห์นโยบายและแผน ๔
เขียนชื่อที่อยู่ของท่านส่งไปที่ ตู้ป.ณ.2
บทคนขับแท็กซี่ในละคร "มือปืนพ่อลูกติด" ทางช่อง 7
ฝูงบิน 603 กองบิน 6

การแยกด้วยอักขระภาษาอังกฤษ

การแยกด้วยอักขระภาษาอังกฤษมีหลักการว่า ภาษาอังกฤษไม่ใช่สวนหนึ่งของคำภาษาไทย ดังนั้น ช่วงต่อระหว่างอักขระภาษาอังกฤษและภาษาไทยจึงสามารถแยกได้ เพื่อช่วยการแยกคำอัตโนมัติ การแยกออกระหว่างอักขระภาษาอังกฤษและภาษาไทยจะค่อนข้างง่าย และชัดเจน ตัวอย่างเช่น

ให้มีระบบ Open Office ที่เป็น Open Source ด้วย

การแยกด้วยคำ

การแยกด้วยคำมีหลักเกณฑว่า มีคำอยู่กลุ่มหนึ่ง ที่มั่นใจได้ว่าคำที่อยู่หน้าและอยู่หลังคำเหล่านี้จะเป็นคนละคำกัน และไม่มีปัญหาเรื่องคำกำกวม ดังนั้นในการแยกคำเหล่านี้ก็จะตัดตรงตำแหน่งคำที่อยู่หน้าและอยู่หลังคำเหล่านี้ เช่น คำที่เป็นตัวหนาที่อยู่ในประโยคเหล่านี้

  • ภูเขาสูงๆ ได้แก่ ภูเขาบรรทัด และภูเขาสันกาลาคีรี
  • ชาจีนมีหลายประเภท แต่สามารถแบ่งได้ ดังนี้ ชาเขียว ชาอู่หลง ชาหมักหรือชาดำ ชาแต่งกลิ่น ชาแผ่นหรือชาแท่ง ชาสำเร็จรูป ชาพร้อมดื่ม และชาเมี่ยง
  • เพราะตัวอัตตาของตัวเองมีมาก ดังนั้น จึงรู้สึกว่า มีความกดดันสูงมาก
  • ลองทำตามขั้นตอนง่าย ๆ ต่อไปนี้ แล้วคุณจะมีสุขภาพที่ดีขึ้น
  • เราต้องการ ให้ทำงานชนิดที่เป็น การเสียสละ จริงๆ ฉะนั้น จึงบัญญัติไว้ชัดว่า ต้องไม่หวังอะไรตอบแทน
  • วัตถุออกซิไดซ์ หมายถึงวัตถุที่สามารถให้ออกซิเจนออกมาโดยที่วัตถุนี้ไม่จำเป็นต้องเกิดการเผาไหม้

การแยกด้วยคำอาจจะมีลักษณะประเด็นที่เป็นเงื่อนไขได้ เช่น ต้องระมัดระวังในลักษณะคำกำกวม เช่น หากเลือกคำว่า "เช่น" อาจจะเจอคำนี้ในคำว่า "เช่นนั้น" เป็นต้น เพราะฉะนั้น เมื่อแยกคำว่าเช่น ก็จะมีผลกระทบกับคำว่า เช่นนั้น


Thai Word Segmentation

เครื่องมือส่วนตัว
เชื่อมโยง