รายการคลังข้อมูลสำหรับสมาชิก AI FOR THAI
การวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย (Benchmark for Enhancing the Standard of Thai language processing) หรือ BEST นี้ เป็นคลังข้อความภาษาไทยที่มีการกำกับขอบเขตของคำ ซึ่งใช้ในการแข่งขันซอฟต์แวร์ที่สำคัญ และเกี่ยวข้องกับการประมวลผลภาษาไทย โดยแต่ละปีจะมีการกำหนดหัวข้อการแข่งขันตามความเหมาะสม เพื่อให้ครอบคลุมเนื้อหาในการประมวลผลภาษาไทยระดับต่างๆ
ดูรายละเอียดเพิ่มเติมที่ http://thailang.nectec.or.th/best
ฐานข้อมูลลายมือเขียนภาษาไทย พัฒนาขึ้นเพื่อใช้ในการแข่งขัน NSC Best2019 และ NSC Best2020
การรู้จำลายมือเขียน (https://thailang.nectec.or.th/best) ฐานข้อมูลได้จากอาสาสมัครเขียนตามประโยคที่กำหนดไว้ โดยเฉลยจะอยู่ในรูปแบบแฟ้มข้อความ ascii file (.label) ชุดปี 2019 เป็นปีแรกที่แข่งขัน โจทย์ส่วนใหญ่จะยังไม่ยากมากนัก (ตัวอักษรใหญ่ ชัดเจน) ส่วนใหญ่ภาพได้จากการสแกน ชุดปี 2020 เป็นปีที่สองในการแข่งขัน โจทย์จะมีความยากมากขึ้น (ตัวอักษรเล็ก) ส่วนใหญ่ภาพได้จากกล้องถ่ายรูปในโทรศัพท์มือถือ ซึ่งมีความหลากหลายมากขึ้น โดยใน 1 รูป ได้ตัดให้เหลือ เพียง 1 บรรทัดเท่านั้นเรียบร้อยแล้ว
Blackboard Treebank is a Thai dependency corpus based on the LST20 Annotation Guideline. It features dependency structures, constituency structures, word boundaries, named entities, clause boundaries, and sentence boundaries. It is available in the CoNLL-U format for universal compatibility.
ฐานข้อมูลภาพลายมือเขียน ตัวเลขอารบิค (0-9) และตัวเลขไทย (๐-๙) แบ่งเป็น
ฐานข้อมูลคำบรรยายภาพภาษาไทยอัตโนมัติ สำหรับบรรยายรูปภาพเป็นภาษาไทยที่มีความเป็นธรรมชาติ (naturalness) มีคลังภาพพร้อมคำบรรยายภาษาไทยที่ประกอบด้วยชุดข้อมูลเปิด Microsoft COCO และชุดข้อมูลภาพถ่ายที่จัดเก็บโดยทีมวิจัยเนคเทค
คำอธิบายชุดข้อมูลและโครงสร้างไดเรกทอรี ชุดข้อมูลที่ใช้ในการทดลองนี้ประกอบด้วย IPU24 และ test dataset โดยมีการปรับปรุงชุดข้อมูลเพื่อให้ส่วนทดสอบ (test partition) รวมมาจากทุกแหล่งข้อมูล สำหรับการฝึกและตรวจสอบโมเดล จำเป็นต้องใช้ ข้อมูลการฝึก/ตรวจสอบ (training/validation) จาก Coco Dataset 2017 ซึ่งสามารถดาวน์โหลดได้จาก: https://cocodataset.org/#download
คลังคำศัพท์ไทย<->อังกฤษ ซึ่งประกอบด้วยคำศัพท์ ชนิดของคำ (part of speech) คำแปล คำเหมือน (synonym) และประโยคตัวอย่างการใช้งาน โดยมีรายการคำศัพท์ไทย->อังกฤษ จำนวน 53,000 คำ และรายการคำศัพท์อังกฤษ->ไทยจำนวน 83,000 คำ
ดูรายละเอียดเพิ่มเติมที่ http://lexitron.nectec.or.th
เป็นฐานข้อมูลเสียงพูดภาษาไทยขนาดใหญ่ พัฒนาขึ้นเพื่อใช้ในงานวิจัยและพัฒนาระบบรู้จำเสียงพูดต่อเนื่อง (Large Vocabulary Continuous Speech Recognition: LVCSR) สำหรับภาษาไทย โดยมุ่งเน้นสำหรับพัฒนาระบบ Speech Dictation ซึ่งใช้ลักษณะการพูดแบบอ่าน (Reading style) ฐานข้อมูลประกอบด้วยชุดหน่วยเสียงสมดุล (Phonetically Balanced Set) จากฐานข้อมูลบทความข่าวหรือบทความทั่วไป เสียงพูดในฐานข้อมูล LOTUS บันทึกผ่านไมโครโฟน 2 ประเภท คือ ไมโครโฟน Close-talk คุณภาพสูง และไมโครโฟน Unidirectional ระดับคุณภาพปานกลาง โดยทำการบันทึกเสียงใน 2 สภาพแวดล้อม คือ สภาพแวดล้อมแบบห้องเงียบ และ สภาพแวดล้อมแบบสำนักงาน ซึ่งฐานข้อมูล LOTUS จะประกอบด้วย ข้อมูลเสียงพูด และข้อความถอด จากผู้พูด 24 คน

ฐานข้อมูลเสียงพูดภาษาไทย บันทึกผ่านระบบคอลเซ็นเตอร์ที่เข้ารหัสสัญญาณเสียงแบบ mu-law พัฒนาขึ้นเพื่อใช้ในงานวิจัยและพัฒนาระบบระบุช่วงเวลาพูดของแต่ละบุคคล (Speaker Diarization System) และระบบรู้จำบุคคลจากเสียง (Speaker Recognition System) เนื้อหาของเสียงพูดเกี่ยวกับการแพทย์และการท่องเที่ยวโดยใช้ข้อมูลสมมติทั้งหมด เสียงพูดมาจากอาสาสมัคร 186 คน โดยมีอักษรย่อ F แทนผู้หญิง และ M แทนผู้ชาย จากแหล่งข้อมูล 4 แหล่ง ความยาวรวมทั้งสิ้น 3,863 นาที
เนื่องจากการสร้างคลังข้อมูลเสียงถูกควบคุมด้วย พ.ร.บ. คุ้มครองข้อมูลส่วนบุคคล ผู้ที่ต้องการขอข้อมูลไปใช้งานต้องกรอกข้อมูลให้ครบถ้วนตามลิงก์นี้ (แบบฟอร์มการขอใช้ข้อมูล) วิธีการใช้งานสามารถดูได้ตามลิงก์นี้ (วิธีการใช้งาน)




LST20 Corpus เป็นคลังข้อมูลภาษาสำหรับการประมวลผลภาษาไทย ที่พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ คลังข้อมูลนี้กำกับด้วยข้อมูลทางภาษา 5 ระดับ ได้แก่ ขอบเขตของคำ (word boundaries), ชนิดของคำ (part of speech), ขอบเขตและชนิดของชื่อเฉพาะ (named entities), ขอบเขตของประโยคย่อย (clause boundaries), และขอบเขตประโยคใหญ่ (sentence boundaries) คลังข้อมูลนี้ประกอบด้วย: 3,164,002 คำ, 288,020 ชื่อเฉพาะ, 248,181 ประโยคย่อย, และ 74,180 ประโยคใหญ่ โดยที่มีชนิดของคำทั้งสิ้นเพียง 16 แท็กเท่านั้น นอกจากนี้คลังข้อมูลนี้สร้างขึ้นจากการรวบรวมข่าว 3,745 ชิ้น ซึ่งกำกับชนิดของข่าวเอาไว้ 15 ชนิดอีกด้วย ทำให้คลังข้อมูลนี้สามารถนำไปใช้ประโยชน์ในการพัฒนาระบบการประมวลผลภาษาไทยที่มีโครงสร้างซับซ้อนได้
คลังข้อมูลที่ประกอบด้วยประโยคที่มีคำศัพท์เฉพาะทางเกี่ยวกับสถานที่และองค์กรปรากฏอยู่ จากแหล่งข้อมูลดิจิทัลที่เผยแพร่ทั่วไป เช่น ข้อมูลข่าว ข้อมูลประชาสัมพันธ์จากหน่วยงาน Pantip, Twitter ฯลฯ คลังข้อมูลนี้มีจำนวนทั้งสิ้น 98,153 ประโยค


พจนานุกรมที่ประกอบด้วยคำศัพท์เฉพาะทางเกี่ยวกับสถานที่และองค์กร จากแหล่งข้อมูลดิจิทัลที่เผยแพร่ทั่วไป พจนานุกรมนี้มีจำนวนทั้งสิ้น 242,766 คำ โดยเป็นคำศัพท์เฉพาะทางเกี่ยวกับสถานที่และองค์กร ดังต่อไปนี้


(Thai language)
คลังเสียงนี้ถูกสร้างและพัฒนาขึ้นมาเพื่อใช้ในการวิจัยและพัฒนาปัญญาประดิษฐ์ในการตรวจจับเสียงปลอม หรือ Spoof Detection โดยคลังเสียงแบ่งออกเป็น 2 ชุดหลักด้วยกันดังนี้
รวม 4 ชุด ขนาดไฟล์รวม 4.2 GB
รวม 6 ชุด ขนาดไฟล์รวม 8.4 GB
รวมทั้งหมด 13 ชุดข้อมูล ขนาดไฟล์รวม 16 GB
คลังข้อมูลการสรุปข่าวเศรษฐกิจจำนวน 3000 ข่าว มีการสรุปข่าว 2 วิธี ดังนี้ (1) สรุปข่าวด้วยวิธี Extractive และ (2) สรุปข่าวด้วยวิธี Abstractive ข่าวต้นฉบับถูกรวบรวมจากเว็บไซต์ข่าวออนไลน์ เช่น กรุงเทพธุรกิจ, ประชาชาติธุรกิจ, บางกอทูเดย์ ฯลฯ ส่วนผลสรุปที่พัฒนาขึ้นนั้นได้กำหนดผลสรุปให้มีความยาวประมาณ 40% ของความยาวข่าวต้นฉบับ


ฐานข้อมูลภาพสำหรับพัฒนาโปรแกรมรู้จำตัวอักษรภาษาไทย แบ่งเป็น

ชุดข้อมูลเอกสารที่มีการคัดลอก ซึ่งเป็นการจำลองการสร้างข้อความที่มีการคัดลอกด้วยคน โดยใช้บทความวิกิพีเดียภาษาไทยและเว็บเพจเป็นฐานข้อมูล ชุดข้อมูลนี้ประกอบด้วย
โดยชุดเอกสารต้องสงสัยแบ่งการจำลองการคัดลอกออกเป็น 4 ประเภทของการคัดลอกเอกสารภาษาไทย ได้แก่ copy-based change, lexicon-based change, structure-based change และ semantic-based change
ดูรายละเอียดเพิ่มเติมที่ http://copycatch.in.th/thai-plagiarism-task.htmlชุดข้อมูลที่ประกอบด้วยกลุ่มคู่คำถามและคำตอบที่ถูกสร้างจากผู้ใช้ทั่วไปและเป็นกลุ่มคู่คำถามและคำตอบที่มีเนื้อหาหลากหลาย เช่น ด้านวิทยาศาสตร์ การท่องเที่ยว กีฬา และอื่น ๆ จากวิกิพีเดียภาษาไทย นอกจากนี้คำถามที่อยู่ในกลุ่มนี้เป็นคำถามง่ายและยากผสมกัน โดยจะมีคำแสดงคำถามได้แก่ ใคร อะไร ไหน ที่ไหน เมื่อไร ใด กี่ เท่าไร เท่าใด ชุดข้อมูลมีจำนวนทั้งหมด 4,000 ชุด
ดูรายละเอียดเพิ่มเติมที่ http://copycatch.in.th/thai-qa-task.html
คลังข้อมูลที่ใช้ในการแข่งขันพัฒนาโปรแกรมถามตอบจากคลังข้อมูลวิกิพีเดีย ในงาน National Software Contest (NSC) ปี 2561-2562 คลังข้อมูลประกอบด้วย
ดูรายละเอียดเพิ่มเติมที่
http://copycatch.in.th/corpus/thai-wikiqa-nsc2020.html

เครือข่ายคำไทย
This Thai WordNet data set is a comprehensive linguistic resource developed through translation equivalence methods. It includes hierarchically organized sets of Thai synonyms and their semantic relations, facilitating natural language processing and computational linguistics tasks. This resource aims to bridge cultural and linguistic gaps, providing accurate and contextually relevant Thai terms. Ideal for researchers, educators, and developers, this data can enhance language models and applications requiring nuanced understanding of the Thai language. Download the Thai WordNet to access a robust tool for advancing your linguistic projects.
คลังข้อความข่าวที่มีการกำกับเนมเอนทิตี ได้แก่ ชื่อบุคคล ชื่อสถานที่ ชื่อองค์กร กลุ่มคำบ่งบอกวันที่และเวลา กลุ่มคำบ่งบอกปริมาณ

ฐานข้อมูลเสียงพูดภาษาไทยสำหรับการสังเคราะห์เสียง เวอร์ชั่น 2 สร้างขึ้นเพื่อ
คุณสมบัติของฐานข้อมูล

การจำลองประโยค
คลังข้อความคู่คำถามคำตอบ เกี่ยวกับ Help Desk หรือ IT Support และการจัดซื้อจัดจ้าง โดยประโยคคำถาม มีการจำลองขึ้นมาเพิ่มเติมด้วยการปรับเปลี่ยนองค์ประกอบของประโยค เพื่อสร้างความหลากหลายให้กับรูปประโยค ด้วยวิธี Easy Data Augmentation (EDA) ได้แก่ 1) Insert 2) delete 3) replace และ 4) swap


ประเภทคำถาม
คลังข้อความคำถามซึ่งรวบรวมจากเว็บไซต์ที่เผยแพร่เป็นสาธารณะ มีการกำกับเป็นประเภท ดังนี้
นอกจากนี้ ยังมีประเภทพิเศษ ซึ่งขึ้นอยู่กับบริบท ได้แก่

