Thai Word Segmentation
จาก LomaMilkyway
ได้โจทย์มาว่า "การตัดคำในภาษาไทยตัดได้มากแค่ไหนถึงยังคงความเป็นคำอยู่" ในทางภาษาทางด้านความหมายจะถือว่าคำที่จะเรียกว่าหนึ่งคำคือ คำๆ นั้นอ้างถึงสิ่งหนึ่ง หรือความหมายหนึ่ง จะจัดเป็นหนึ่งคำ เพราะฉะนั้นคำย่อยๆ ที่เป็นองค์ประกอบของคำนั้นๆ จะมีค่าไม่เท่ากับเมื่อคำที่เป็นองค์ประกอบนั้นปรากฏเดี่ยวๆ เช่น คำว่า "น้ำ" และ "น้ำส้ม" ในทางความหมายจะถือว่าเป็นคนละคำ เพราะใช้แทนคนละความหมาย แต่หากมองแต่เพียงรูปคำเท่านั้นเพียงเพื่อพิจารณาว่าเราจะสามารถแยกเพื่อหาลักษณะที่เป็นคำได้มากแค่ไหน โดยโจทย์นี้มีวัตถุประสงค์เพื่อการพิจารณาการตัดคำระหว่างบรรทัดเมื่อมีการแสดงผล... ก็พอมีสิ่งที่พอจะพิจารณาได้ดังต่อไปนี้
เนื้อหา |
การจำแนกรูปแบบคำในภาษาไทย
จากโจทย์ที่ว่าคำในภาษาไทยจะตัดแบ่งได้มากที่สุดแค่ไหน และมีเกณฑ์อย่างไร ในอันดับแรกควรจะต้องทำความเข้าใจรูปแบบคำที่มีใช้ในภาษาไทยเสียก่อน ซึ่งการอธิบายในที่นี้ไม่ได้อธิบายตามแบบโครงสร้างภาษาทางไวยากรณ์โดยตรง แต่มีวัตถุประสงค์เพื่อทำความเข้าใจในรายละเอียดของรูปคำเพื่อใช้เป็นเกณฑ์ในการแยกขอบเขตคำเท่านั้น จึงกำหนดการจำแนกรูปแบบคำในภาษาไทยเป็น 2 รูปแบบคือ
รูปแบบคำในภาษาไทยจำแนกตามองค์ประกอบของคำ
การจำแนกคำตามองค์ประกอบของคำหมายถึง การดูโครงสร้างส่วนประกอบภายในคำ ว่าประกอบด้วยหน่วยย่อยอะไรบ้าง หน่วยย่อยต่างๆ ที่เป็นองค์ประกอบของคำ ที่ถือเป็นหัวใจสำคัญสำหรับการพิจารณาเลือกแบ่งคำ ได้แก่
1. หน่วยคำอิสระ
หมายถึงหน่วยคำที่สามารถปรากฏตามลำพังได้ หรือปรากฏร่วมกันกับหน่วยคำอิสระด้วยกัน หรือกับหน่วยคำไม่อิสระได้ เช่น จากตัวอย่างคำว่า "รัง " ดังต่อไปนี้
- รัง (อิสระ)
- รังนก (อิสระ+อิสระ)
- รุงรัง (ไม่อิสระ+อิสระ)
2. หน่วยคำไม่อิสระ
หมายถึงหน่วยคำที่ไม่สามารถปรากฎตามลำพังได้ อาจจะปรากฏร่วมกับหน่วยคำไม่อิสระด้วยกัน หรือปรากฏร่วมกับหน่วยคำอิสระได้ ตัวอย่างเช่นคำต่อไปนี้ที่มีองค์ประกอบของหน่วยคำไม่อิสระ
- ชดช้อย (ไม่อิสระ+ไม่อิสระ)
- อ่อนช้อย (อิสระ+ไม่อิสระ)
- ทั้งหน่วยคำอิสระ และไม่อิสระ เมื่อประกอบเป็นคำแล้วก็จะมีคำที่ใช้เรียกคำที่ประกอบขึ้นนั้นเป็นคำประเภทต่างๆ ดังนี้
- คำผสาน (Complex Words)
หมายถึง คำที่ประกอบด้วยหน่วยคำตั้งแต่ 2 หน่วยคำขึ้นไป โดยมีส่วนประกอบคำอย่างน้อยหนึ่งหน่วยคำเป็นหน่วยไม่อิสระ เช่น นักเรียน หรือเป็นหน่วยคำไม่อิสระทั้งหมด เช่น โฆษณา อำนวย เป็นต้น คำผสานที่พบเห็นบ่อยคือคำผสานที่ประกอบด้วยหน่วยคำหน้าศัพท์ (prefix) และหน่วยคำท้ายศัพท์ (sufix) ที่ประกอบเข้ากับหน่วยคำอิสระหรือไม่อิสระ เช่น นักกีฬา ชาวนา กรรมกร
ตัวอย่างคำผสานเพิ่มเติม
- คำซ้อน (Synonymous Compound)
หมายถึง คำที่ประกอบด้วยหน่วยคำอิสระตั้งแต่สองหน่วยคำขึ้นไป โดยหน่วยคำอิสระที่จะมาประกอบกันนั้นจะต้องมีความหมายเหมือน หรือคล้ายคลึง หรือไปในทำนองเดียวกัน หรือตรงกันข้าม เช่น
- จับต้อง, อุปกรณ์เครื่องใช้, สับสนวุ่นวาย, ต่อสู้ช่วงชิง, เอื้อเฟื้อเผื่อแผ่, เท็จจริง
ตัวอย่างคำซ้อนเพิ่มเติม
- คำซ้ำ (Reduplication)
คือคำที่เกิดจากการออกเสียงคำเดียวกันซ้ำสองครั้ง หน่วยคำที่เป็นองค์ประกอบของคำซ้ำอาจจะเป็นหน่วยคำอิสระ เช่น เร็ว คำซ้ำคือ เร็วๆ หรือเป็นหน่วยคำไม่อิสระคือไม่เกิดตามลำพัง เช่น ยองๆ คำซ้ำจะพบในรูปแบบต่างๆ ดังนี้
- คำซ้ำที่ซ้ำหน่วยคำข้างหน้าโดยไม่มีการเปลี่ยนแปลงรูปหน่วยคำ จะใช้เครื่องหมายไม้ยมก (ๆ) แทนการซ้ำ เช่น ช้าๆ
- คำซ้ำประเภทเปลี่ยนเสียงวรรณยุกต์ หมายถึงคำที่ซ้ำมีเสียงวรรณยุกต์ไม่เหมือนกับคำที่ต้องการซ้ำ เช่น ดี๊ดี
- คำซ้ำประเภทเปลี่ยนเสียงสระ หมายถึง คำซ้ำที่มีเสียงสระไม่เหมือนกับคำที่ต้องการซ้ำ เช่น ดีเดอ
ตัวอย่างคำซ้ำเพิ่มเติม
- คำประสม (Compound Words)
คำประสมหมายถึงคำที่มีส่วนประกอบของหน่วยคำอิสระตั้งแต่ 2 หน่วยขึ้นไป คำประสมจะมีลักษณะค่อนข้างกว้าง เกณฑ์หลักๆ ในการพิจารณาว่าคำไหนเป็นคำประสมมีดังนี้
- หน่วยคำที่ประกอบเป็นหน่วยคำอิสระทั้งหมด มีตั้งแต่ 2 หน่วยคำขึ้นไป อาจจะเป็นคำหรือกลุ่มคำมาประสมกัน
- คำประสมอาจจะมีส่วนประกอบหนึ่งเป็นส่วนหลักอีกส่วนเป็นส่วนขยาย เช่น ตลาดนัด มีคำว่า "ตลาด" เป็นส่วนประกอบหลัก "นัด" เป็นส่วนประกอบขยาย
- ความหมายของคำประสมจะมีลักษณะดังนี้
- - ความหมายอยู่ที่ส่วนประกอบหลัก ส่วนส่วนประกอบขยายจะทำหน้าที่เสริมความหมายเท่านั้น เช่น สถานีขนส่ง มี "สถานี" เป็นส่วนประกอบหลัก และ "ขนส่ง" เป็นส่วนประกอบขยาย
- - ความหมายของคำประสมไม่ได้อยู่ที่คำประกอบคำใดคำหนึ่ง แต่มีความหมายใหม่ โดยมีเค้าความหมายเดิมของคำที่นำมาประกอบกัน เช่น หนอนหนังสือ หมายถึง คนที่ชอบอ่านหนังสือหรืออ่านหนังสือมาก
จากเกณฑ์ทางความหมายของคำที่นำมาประกอบกันเป็นคำประสม สามารถจำแนกคำประสมออกเป็นลักษณะสำคัญ 2 ชนิด คือ
- 1. คำประสมแท้ หมายถึง คำประสมที่เกิดจากหน่วยคำอิสระตั้งแต่สองหน่วยขึ้นไปมารวมกัน แล้วเกิดความหมายใหม่ โดยความหมายใหม่ที่ได้ไม่ใช่ความหมายของหน่วยคำที่มาประกอบหน่วยคำใดหน่วยคำหนึ่ง แต่เป็นความหมายใหม่ที่ไม่เกี่ยวข้องกับความหมายของหน่วยคำประกอบแต่ละหน่วยนั้น เช่น คำว่า "ตกลง" ไม่ได้มีความหมายอยู่ที่คำว่า "ตก" หรือ "ลง" แต่หมายถึงการยอมรับในเงื่อนไข เป็นต้น
- 2. คำประสมไม่แท้ คำประสมที่เกิดจากหน่วยคำอิสระตั้งแต่สองหน่วยขึ้นไปมารวมกัน แล้วเกิดความหมายใหม่ โดยความหมายใหม่ที่ได้นั้นจะยังคงเค้าความหมายของหน่วยคำประกอบคำใดคำหนึ่ง ซึ่งถือเป็นหน่วยคำหลัก และมีหน่วยคำประกอบหนึ่งเป็นคำขยาย เช่น "สนามกีฬา" หมายถึงบริเวณพื้นที่ที่สามารถใช้เล่นกีฬาได้ เป็นต้น
ในปัจจุบันคำในภาษาไทยมีการสร้างคำมากขึ้นเรื่อยๆ เพื่อรองรับกับการเปลี่ยนทางสังคมและวัตถุ รวมถึงเทคโนโลยีต่างๆ ที่มีการพัฒนามากขึ้น ทำให้คำต่างๆ ที่มีอยู่ในภาษาไทยบางครั้งก็แยกลำบากว่าคำประสมมีขอบเขตแค่ไหน ตัวอย่างเช่นคำต่อไปนี้
- เครื่องเอ็กซเรย์ฟันด้วยคอมพิวเตอร์แบบดิจิทัล, ตู้คาราโอเกะหยอดเหรียญ, ระบบเครือข่ายคอมพิวเตอร์ และเทคโนโลยีชีวภาพสมัยใหม่
- เครื่องเอ็กซเรย์ฟันด้วยคอมพิวเตอร์แบบดิจิทัล, ตู้คาราโอเกะหยอดเหรียญ, ระบบเครือข่ายคอมพิวเตอร์ และเทคโนโลยีชีวภาพสมัยใหม่
ตัวอย่างคำประสมเพิ่มเติม
รูปแบบคำในภาษาไทยจำแนกตามลักษณะเฉพาะกลุ่มของคำ
หมายถึงคำในภาษาไทยกลุ่มต่างๆ ดังนี้
- คำที่ขึ้นต้นด้วย "การ" และ "ความ"
- จำแนกออกเป็น 3 กลุ่ม คือ
- - "การ" ที่ประกอบกับคำนามในลักษณะประสมคำ เช่น การแพทย์ การทหาร คำว่า "การ" ในที่นี้มีความหมายถึง "การงาน, กิจ"
- - "การ" และ "ความ" นำหน้ากริยาหรือคำคุณศัพท์ ในลักษณะทำให้เป็นคำนาม (nominalization) เช่น ความไว การวิ่ง
- - "การ" นำหน้ากลุ่มกริยาวลี เช่น การเพิ่มประสิทธิภาพกำลังการผลิต
- คำราชาศัพท์
- คำราชาศัพท์โดยทั่วไปหมายถึงคำที่กับพระมหากษัตริย์ นอกจากนี้ยังหมายถึงคำที่ใช้กับ เจ้านาย, พระบรมวงศานุวงศ์, พระภิกษุ สามเณร ข้าราชการ และสุภาพชน สำหรับคำราชาศัพท์ในที่นี้ จะหมายถึงคำศัพท์สำหรับพระมหากษัตริย์ และพระบรมวงศานุวงศ์ และศัพท์สำหรับพระภิกษุสงฆ์ ตัวอย่างคำราชาศัพท์
- - ขอเดชะฝ่าละอองธุลีพระบาทปกเกล้าปกกระหม่อม
- - ข้าพระพุทธเจ้า
- - เดชะพระบารมีปกเกล้าปกกระหม่อม
- - อาตมภาพ
- - พระเกศา, พระขนง, ฉลองพระบาท
- - พระอนุชา, พระอัยยิกา
- ชื่อเฉพาะ
หมายถึงชื่อเฉพาะต่างๆ เช่น
- ชื่อเฉพาะบุคคล
- ชื่อทางภูมิศาสตร์
- ชื่อสถานที่
- ชื่อภาษา
- ชื่อทางวิทยาศาสตร์
- ชื่อเรียกพืช สัตว์
- ชื่อเฉพาะสายพันธุ์
- ชื่อดาราศาสตร์
- ชื่อทางการค้า
- ชื่ออื่นๆ เช่น ชื่องานประพันธ์ ชื่อเพลง ชื่อเหตุการณ์ ชื่อโปรแกรม
- คำทับศัพท์
หมายถึงคำที่ถ่ายเสียงคำภาษาต่างประเทศด้วยอักขระภาษาไทย โดยเฉพาะภาษาอังกฤษที่พบมากในภาษาไทย
ข้อเสนอการตัดคำในภาษาไทย
รูปแบบกระบวนการตัดคำในภาษาไทยจากข้อความมีดังนี้
| การคัดเลือกและจัดการข้อมูล | ||
| การจัดการข้อมูลอัตโนมัติ | ||
| ฐานข้อมูลดิบ | ||
| เกณฑ์การตัดคำและการใช้ยติภังค์ (ตารางสรุปเกณฑ์การตัดคำและการใช้ยติภังค์) | ||
| การตัดคำด้วยมือ | ||
| คลังคำ |
