คลังข้อความ

ในภาษาศาสตร์ คลังข้อความ (อังกฤษ: text corpus) คือข้อความปริมาณมากที่ได้จัดเก็บตามลำดับโครงสร้าง (ปัจจุบันนี้มักจะจัดเก็บและประมวลผลในรูปแบบอิเล็กทรอนิกส์) คลังข้อความสามารถจัดเก็บข้อความของภาษาเดียว (คลังข้อความภาษาเดียว) หรือจัดเก็บข้อความหลายภาษา (คลังข้อความหลายภาษา) คลังข้อความหลายภาษามักจะจัดอยู่ในรูปแบบพิเศษ สามารถมองเห็นส่วนของข้อความที่มีความหมายตรงกันได้ คลังข้อความชนิดนี้เรียกว่า "คล้งข้อความขนานระบุส่วนตรงกัน" ดังตัวอย่างด้านล่าง

เพื่อที่จะทำให้คลังข้อความมีประโยชน์ยิ่งขึ้นสำหรับการวิจัยทางภาษาศาสตร์ จึงมักมี "การกำกับ" ข้อมูลทางภาษาศาสตร์เพิ่มเติมลงในคลังข้อความ ตัวอย่างเช่น การกำกับชนิดของคำ ในการกำกับชนิดของคำทุกคำในคลังข้อความจะมีข้อมูลเพิ่มว่าเป็นคำชนิดใด เช่น นาม กริยา วิเศษณ์ หรืออื่นๆ โดยแทรกเข้าในคลังข้อความในรูปแบบข้อความธรรมดา ตัวอย่างอื่นๆ เช่น การกำกับข้อมูลวายกสัมพันธ์ลงในคลังข้อความอย่างเช่นที่ทำในคลังต้นไม้

🔥 Top keywords: พระวรวงศ์เธอ พระองค์เจ้าเฉลิมศึกยุคลหน้าหลักพระสุนทรโวหาร (ภู่)องค์การกระจายเสียงและแพร่ภาพสาธารณะแห่งประเทศไทยพิเศษ:ค้นหาพระบาทสมเด็จพระวชิรเกล้าเจ้าอยู่หัวพระเจ้าวรวงศ์เธอ พระองค์เจ้าเฉลิมพลฑิฆัมพรอสมทวอลเลย์บอลหญิงเนชันส์ลีก 2024สไปร์ท (แร็ปเปอร์)ฟุตบอลชิงแชมป์แห่งชาติยุโรปฟุตบอลชิงแชมป์แห่งชาติยุโรป 2024พุ่มพวง ดวงจันทร์ดวงใจเทวพรหม (ละครโทรทัศน์)อีดิลอัฎฮาสมเด็จพระเจ้าบรมวงศ์เธอ เจ้าฟ้ายุคลทิฆัมพร กรมหลวงลพบุรีราเมศวร์ดอกเตอร์ไคลแมกซ์ ปุจฉาพาเสียวราชวงศ์จักรีลำดับโปเจียมแห่งราชอาณาจักรไทยรายชื่อตัวละครในพระอภัยมณีหม่อมเจ้านวพรรษ์ ยุคลทุติยจุลจอมเกล้าวิเศษพระเจ้าวรวงศ์เธอ พระองค์เจ้าภาณุพันธุ์ยุคลพระอภัยมณีหม่อมเจ้ามงคลเฉลิม ยุคลหม่อมเจ้าฑิฆัมพร ยุคลพระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัวพระบาทสมเด็จพระมหาภูมิพลอดุลยเดชมหาราช บรมนาถบพิตรหลานม่าอริยสัจ 4ตารางธาตุนิราศภูเขาทองรายชื่อเครื่องดนตรีเฌอมาวีร์ สุวรรณภาณุโชคประเทศไทยอาณาจักรอยุธยาปิติ ภิรมย์ภักดีวอลเลย์บอลวอลเลย์บอลหญิงทีมชาติไทย