LST20 Corpus คลังข้อมูลภาษาไทยตัวล่าสุด

Introducing LST20 Corpus, the latest large-scaled linguistically rich corpus from NECTEC, NSTDA.
และแล้วก็ได้เวลาทำคลอดน้องออกมาเสียที ขอเชิญทุกท่านพบกับ LST20 Corpus คลังข้อมูลภาษาไทยตัวล่าสุด ผลงานวิจัยของเนคเทค สวทช. กันได้เลยครัช

Available now at —-> https://aiforthai.in.th
ดาวน์โหลดได้แล้วที่ —-> https://aiforthai.in.th

This dataset is *free of charge* for non-commercial uses and research. Please cite our technical report in your project/paper.
หากใช้งานที่ไม่เป็นเชิงพาณิชย์ สามารถใช้งานคลังข้อมูลนี้ได้โดยไม่มีค่าใช้จ่าย โปรดอ้างอิงรายงานเชิงเทคนิคของเราในโปรเจ็กต์หรือบทความของท่านด้วย

The technical report is under review on arXiv. Bibinfo will be available soon. Moreover, we have submitted a journal article narrating the procedure of constructing this corpus as well. Stay tuned.
ตอนนี้รายงานเชิงเทคนิคกำลังอยู่ระหว่างการรีวิวใน arXiv หากท่านต้องการ cite คลังข้อมูลนี้ โปรดรออีกสักครู่ครัช นอกจากนี้เราได้ส่งบทความวิชาการอธิบายถึงวิธีการสร้างคลังข้อมูลตัวนี้ และทุกข์ชาวบ้านต่างๆ ที่เราพบ โปรดติดตามนะครัช

Please refer to the agreement of use before using it commercially.
โปรดอ่านข้อกำหดการใช้งานก่อนการใช้งานในเชิงพาณิชย์

Description
คำอธิบาย

LST20 Corpus is a dataset for Thai language processing developed by National Electronics and Computer Technology Center (NECTEC), Thailand. It offers five layers of linguistic annotation: word boundaries, POS tagging, named entities, clause boundaries, and sentence boundaries. At a large scale, it consists of 3,164,002 words, 288,020 named entities, 248,181 clauses, and 74,180 sentences, while it is annotated with 16 distinct POS tags. All 3,745 documents are also annotated with one of 15 news genres. Regarding its sheer size, this dataset is considered large enough for developing joint neural models for NLP.

LST20 Corpus เป็นคลังข้อมูลภาษาสำหรับการประมวลผลภาษาไทย ที่พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ คลังข้อมูลนี้กำกับด้วยข้อมูลทางภาษา 5 ระดับ ได้แก่ ขอบเขตของคำ (word boundaries), ชนิดของคำ (part of speech), ขอบเขตและชนิดของชื่อเฉพาะ (named entities), ขอบเขตของประโยคย่อย (clause boundaries), และขอบเขตประโยคใหญ่ (sentence boundaries) คลังข้อมูลนี้ประกอบด้วย: 3,164,002 คำ, 288,020 ชื่อเฉพาะ, 248,181 ประโยคย่อย, และ 74,180 ประโยคใหญ่ โดยที่มีชนิดของคำทั้งสิ้นเพียง 16 แท็กเท่านั้น นอกจากนี้คลังข้อมูลนี้สร้างขึ้นจากการรวบรวมข่าว 3,745 ชิ้น ซึ่งกำกับชนิดของข่าวเอาไว้ 15 ชนิดอีกด้วย ทำให้คลังข้อมูลนี้สามารถนำไปใช้ประโยชน์ในการพัฒนาระบบการประมวลผลภาษาไทยที่มีโครงสร้างซับซ้อนได้

https://www.facebook.com/dancearmy/posts/10157641945708284