Thai Word Segmentation

จาก LomaMilkyway

ข้ามไปที่: นำทาง, ค้นหา

ได้โจทย์มาว่า "การตัดคำในภาษาไทยตัดได้มากแค่ไหนถึงยังคงความเป็นคำอยู่" ในทางภาษาทางด้านความหมายจะถือว่าคำที่จะเรียกว่าหนึ่งคำคือ คำๆ นั้นอ้างถึงสิ่งหนึ่ง หรือความหมายหนึ่ง จะจัดเป็นหนึ่งคำ เพราะฉะนั้นคำย่อยๆ ที่เป็นองค์ประกอบของคำนั้นๆ จะมีค่าไม่เท่ากับเมื่อคำที่เป็นองค์ประกอบนั้นปรากฏเดี่ยวๆ เช่น คำว่า "น้ำ" และ "น้ำส้ม" ในทางความหมายจะถือว่าเป็นคนละคำ เพราะใช้แทนคนละความหมาย แต่หากมองแต่เพียงรูปคำเท่านั้นเพียงเพื่อพิจารณาว่าเราจะสามารถแยกเพื่อหาลักษณะที่เป็นคำได้มากแค่ไหน โดยโจทย์นี้มีวัตถุประสงค์เพื่อการพิจารณาการตัดคำระหว่างบรรทัดเมื่อมีการแสดงผล... ก็พอมีสิ่งที่พอจะพิจารณาได้ดังต่อไปนี้

เนื้อหา

การจำแนกรูปแบบคำในภาษาไทย

จากโจทย์ที่ว่าคำในภาษาไทยจะตัดแบ่งได้มากที่สุดแค่ไหน และมีเกณฑ์อย่างไร ในอันดับแรกควรจะต้องทำความเข้าใจรูปแบบคำที่มีใช้ในภาษาไทยเสียก่อน ซึ่งการอธิบายในที่นี้ไม่ได้อธิบายตามแบบโครงสร้างภาษาทางไวยากรณ์โดยตรง แต่มีวัตถุประสงค์เพื่อทำความเข้าใจในรายละเอียดของรูปคำเพื่อใช้เป็นเกณฑ์ในการแยกขอบเขตคำเท่านั้น จึงกำหนดการจำแนกรูปแบบคำในภาษาไทยเป็น 2 รูปแบบคือ

รูปแบบคำในภาษาไทยจำแนกตามองค์ประกอบของคำ

การจำแนกคำตามองค์ประกอบของคำหมายถึง การดูโครงสร้างส่วนประกอบภายในคำ ว่าประกอบด้วยหน่วยย่อยอะไรบ้าง หน่วยย่อยต่างๆ ที่เป็นองค์ประกอบของคำ ที่ถือเป็นหัวใจสำคัญสำหรับการพิจารณาเลือกแบ่งคำ ได้แก่


1. หน่วยคำอิสระ
หมายถึงหน่วยคำที่สามารถปรากฏตามลำพังได้ หรือปรากฏร่วมกันกับหน่วยคำอิสระด้วยกัน หรือกับหน่วยคำไม่อิสระได้ เช่น จากตัวอย่างคำว่า "รัง " ดังต่อไปนี้

รัง (อิสระ)
รังนก (อิสระ+อิสระ)
รุงรัง (ไม่อิสระ+อิสระ)


2. หน่วยคำไม่อิสระ
หมายถึงหน่วยคำที่ไม่สามารถปรากฎตามลำพังได้ อาจจะปรากฏร่วมกับหน่วยคำไม่อิสระด้วยกัน หรือปรากฏร่วมกับหน่วยคำอิสระได้ ตัวอย่างเช่นคำต่อไปนี้ที่มีองค์ประกอบของหน่วยคำไม่อิสระ

ชดช้อย (ไม่อิสระ+ไม่อิสระ)
อ่อนช้อย (อิสระ+ไม่อิสระ)
ทั้งหน่วยคำอิสระ และไม่อิสระ เมื่อประกอบเป็นคำแล้วก็จะมีคำที่ใช้เรียกคำที่ประกอบขึ้นนั้นเป็นคำประเภทต่างๆ ดังนี้

- คำผสาน (Complex Words)

หมายถึง คำที่ประกอบด้วยหน่วยคำตั้งแต่ 2 หน่วยคำขึ้นไป โดยมีส่วนประกอบคำอย่างน้อยหนึ่งหน่วยคำเป็นหน่วยไม่อิสระ เช่น นักเรียน หรือเป็นหน่วยคำไม่อิสระทั้งหมด เช่น โฆษณา อำนวย เป็นต้น คำผสานที่พบเห็นบ่อยคือคำผสานที่ประกอบด้วยหน่วยคำหน้าศัพท์ (prefix) และหน่วยคำท้ายศัพท์ (sufix) ที่ประกอบเข้ากับหน่วยคำอิสระหรือไม่อิสระ เช่น นักกีฬา ชาวนา กรรมกร
ตัวอย่างคำผสานเพิ่มเติม

- คำซ้อน (Synonymous Compound)

หมายถึง คำที่ประกอบด้วยหน่วยคำอิสระตั้งแต่สองหน่วยคำขึ้นไป โดยหน่วยคำอิสระที่จะมาประกอบกันนั้นจะต้องมีความหมายเหมือน หรือคล้ายคลึง หรือไปในทำนองเดียวกัน หรือตรงกันข้าม เช่น

จับต้อง, อุปกรณ์เครื่องใช้, สับสนวุ่นวาย, ต่อสู้ช่วงชิง, เอื้อเฟื้อเผื่อแผ่, เท็จจริง

ตัวอย่างคำซ้อนเพิ่มเติม

- คำซ้ำ (Reduplication)

คือคำที่เกิดจากการออกเสียงคำเดียวกันซ้ำสองครั้ง หน่วยคำที่เป็นองค์ประกอบของคำซ้ำอาจจะเป็นหน่วยคำอิสระ เช่น เร็ว คำซ้ำคือ เร็วๆ หรือเป็นหน่วยคำไม่อิสระคือไม่เกิดตามลำพัง เช่น ยองๆ คำซ้ำจะพบในรูปแบบต่างๆ ดังนี้

  • คำซ้ำที่ซ้ำหน่วยคำข้างหน้าโดยไม่มีการเปลี่ยนแปลงรูปหน่วยคำ จะใช้เครื่องหมายไม้ยมก (ๆ) แทนการซ้ำ เช่น ช้าๆ
  • คำซ้ำประเภทเปลี่ยนเสียงวรรณยุกต์ หมายถึงคำที่ซ้ำมีเสียงวรรณยุกต์ไม่เหมือนกับคำที่ต้องการซ้ำ เช่น ดี๊ดี
  • คำซ้ำประเภทเปลี่ยนเสียงสระ หมายถึง คำซ้ำที่มีเสียงสระไม่เหมือนกับคำที่ต้องการซ้ำ เช่น ดีเดอ

ตัวอย่างคำซ้ำเพิ่มเติม

- คำประสม (Compound Words)

คำประสมหมายถึงคำที่มีส่วนประกอบของหน่วยคำอิสระตั้งแต่ 2 หน่วยขึ้นไป คำประสมจะมีลักษณะค่อนข้างกว้าง เกณฑ์หลักๆ ในการพิจารณาว่าคำไหนเป็นคำประสมมีดังนี้

  • หน่วยคำที่ประกอบเป็นหน่วยคำอิสระทั้งหมด มีตั้งแต่ 2 หน่วยคำขึ้นไป อาจจะเป็นคำหรือกลุ่มคำมาประสมกัน
  • คำประสมอาจจะมีส่วนประกอบหนึ่งเป็นส่วนหลักอีกส่วนเป็นส่วนขยาย เช่น ตลาดนัด มีคำว่า "ตลาด" เป็นส่วนประกอบหลัก "นัด" เป็นส่วนประกอบขยาย
  • ความหมายของคำประสมจะมีลักษณะดังนี้
- ความหมายอยู่ที่ส่วนประกอบหลัก ส่วนส่วนประกอบขยายจะทำหน้าที่เสริมความหมายเท่านั้น เช่น สถานีขนส่ง มี "สถานี" เป็นส่วนประกอบหลัก และ "ขนส่ง" เป็นส่วนประกอบขยาย
- ความหมายของคำประสมไม่ได้อยู่ที่คำประกอบคำใดคำหนึ่ง แต่มีความหมายใหม่ โดยมีเค้าความหมายเดิมของคำที่นำมาประกอบกัน เช่น หนอนหนังสือ หมายถึง คนที่ชอบอ่านหนังสือหรืออ่านหนังสือมาก

จากเกณฑ์ทางความหมายของคำที่นำมาประกอบกันเป็นคำประสม สามารถจำแนกคำประสมออกเป็นลักษณะสำคัญ 2 ชนิด คือ

1. คำประสมแท้ หมายถึง คำประสมที่เกิดจากหน่วยคำอิสระตั้งแต่สองหน่วยขึ้นไปมารวมกัน แล้วเกิดความหมายใหม่ โดยความหมายใหม่ที่ได้ไม่ใช่ความหมายของหน่วยคำที่มาประกอบหน่วยคำใดหน่วยคำหนึ่ง แต่เป็นความหมายใหม่ที่ไม่เกี่ยวข้องกับความหมายของหน่วยคำประกอบแต่ละหน่วยนั้น เช่น คำว่า "ตกลง" ไม่ได้มีความหมายอยู่ที่คำว่า "ตก" หรือ "ลง" แต่หมายถึงการยอมรับในเงื่อนไข เป็นต้น
2. คำประสมไม่แท้ คำประสมที่เกิดจากหน่วยคำอิสระตั้งแต่สองหน่วยขึ้นไปมารวมกัน แล้วเกิดความหมายใหม่ โดยความหมายใหม่ที่ได้นั้นจะยังคงเค้าความหมายของหน่วยคำประกอบคำใดคำหนึ่ง ซึ่งถือเป็นหน่วยคำหลัก และมีหน่วยคำประกอบหนึ่งเป็นคำขยาย เช่น "สนามกีฬา" หมายถึงบริเวณพื้นที่ที่สามารถใช้เล่นกีฬาได้ เป็นต้น

ในปัจจุบันคำในภาษาไทยมีการสร้างคำมากขึ้นเรื่อยๆ เพื่อรองรับกับการเปลี่ยนทางสังคมและวัตถุ รวมถึงเทคโนโลยีต่างๆ ที่มีการพัฒนามากขึ้น ทำให้คำต่างๆ ที่มีอยู่ในภาษาไทยบางครั้งก็แยกลำบากว่าคำประสมมีขอบเขตแค่ไหน ตัวอย่างเช่นคำต่อไปนี้

เครื่องเอ็กซเรย์ฟันด้วยคอมพิวเตอร์แบบดิจิทัล, ตู้คาราโอเกะหยอดเหรียญ, ระบบเครือข่ายคอมพิวเตอร์ และเทคโนโลยีชีวภาพสมัยใหม่

ตัวอย่างคำประสมเพิ่มเติม

รูปแบบคำในภาษาไทยจำแนกตามลักษณะเฉพาะกลุ่มของคำ

หมายถึงคำในภาษาไทยกลุ่มต่างๆ ดังนี้

- คำที่ขึ้นต้นด้วย "การ" และ "ความ"

จำแนกออกเป็น 3 กลุ่ม คือ
- "การ" ที่ประกอบกับคำนามในลักษณะประสมคำ เช่น การแพทย์ การทหาร คำว่า "การ" ในที่นี้มีความหมายถึง "การงาน, กิจ"
- "การ" และ "ความ" นำหน้ากริยาหรือคำคุณศัพท์ ในลักษณะทำให้เป็นคำนาม (nominalization) เช่น ความไว การวิ่ง
- "การ" นำหน้ากลุ่มกริยาวลี เช่น การเพิ่มประสิทธิภาพกำลังการผลิต

- คำราชาศัพท์

คำราชาศัพท์โดยทั่วไปหมายถึงคำที่กับพระมหากษัตริย์ นอกจากนี้ยังหมายถึงคำที่ใช้กับ เจ้านาย, พระบรมวงศานุวงศ์, พระภิกษุ สามเณร ข้าราชการ และสุภาพชน สำหรับคำราชาศัพท์ในที่นี้ จะหมายถึงคำศัพท์สำหรับพระมหากษัตริย์ และพระบรมวงศานุวงศ์ และศัพท์สำหรับพระภิกษุสงฆ์ ตัวอย่างคำราชาศัพท์
- ขอเดชะฝ่าละอองธุลีพระบาทปกเกล้าปกกระหม่อม
- ข้าพระพุทธเจ้า
- เดชะพระบารมีปกเกล้าปกกระหม่อม
- อาตมภาพ
- พระเกศา, พระขนง, ฉลองพระบาท
- พระอนุชา, พระอัยยิกา

- ชื่อเฉพาะ

หมายถึงชื่อเฉพาะต่างๆ เช่น

  • ชื่อเฉพาะบุคคล
  • ชื่อทางภูมิศาสตร์
  • ชื่อสถานที่
  • ชื่อภาษา
  • ชื่อทางวิทยาศาสตร์
  • ชื่อเรียกพืช สัตว์
  • ชื่อเฉพาะสายพันธุ์
  • ชื่อดาราศาสตร์
  • ชื่อทางการค้า
  • ชื่ออื่นๆ เช่น ชื่องานประพันธ์ ชื่อเพลง ชื่อเหตุการณ์ ชื่อโปรแกรม

- คำทับศัพท์

หมายถึงคำที่ถ่ายเสียงคำภาษาต่างประเทศด้วยอักขระภาษาไทย โดยเฉพาะภาษาอังกฤษที่พบมากในภาษาไทย

ข้อเสนอการตัดคำในภาษาไทย

รูปแบบกระบวนการตัดคำในภาษาไทยจากข้อความมีดังนี้

การคัดเลือกและจัดการข้อมูล
ภาพ:arrowop80.png
การจัดการข้อมูลอัตโนมัติ
ภาพ:arrowop80.png
ฐานข้อมูลดิบ
เกณฑ์การตัดคำและการใช้ยติภังค์
(ตารางสรุปเกณฑ์การตัดคำและการใช้ยติภังค์)
ภาพ:arrowho50.png ภาพ:arrowop80.png
การตัดคำด้วยมือ
ภาพ:arrowop80.png
คลังคำ
รับข้อมูลจาก "http://lomamilkyway.com/wiki/Thai_Word_Segmentation"
เครื่องมือส่วนตัว
เชื่อมโยง