|
|
|
หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ดำเนินงานค้นคว้าวิจัยและพัฒนาเทคโนโลยีที่เกี่ยวข้องกับภาษาของมนุษย์ ทั้งในรูปแบบเสียงและข้อความ ซึ่งเป็นส่วนประกอบที่สำคัญในการติดต่อสื่อสารของมนุษย์ ผลลัพธ์ของการวิจัยและพัฒนาจะสามารถประยุกต์ใช้ในงานต่างๆ ได้อย่างกว้างขวางช่วยลดช่องว่างในการสื่อสารต่างภาษา และเพิ่มประสิทธิภาพในการเข้าถึงข้อมูลข่าวสารได้อย่างทั่วถึงและเท่าเทียม การวิจัยและพัฒนาเน้นการประมวลผลเฉพาะสำหรับภาษาไทย
|
|
|
|
|
|
วิสัยทัศน์ : หนึ่งในผู้นำทางด้านวิทยาการมนุษยภาษาในเอเชีย Vision : A top human language technology leader in Asia
|
พันธกิจ
|
|
1.
|
วิจัยพื้นฐานทางด้านวิทยาการมนุษยภาษา
|
2.
|
สร้างความร่วมมือกับองค์กรวิจัยทางด้านวิทยาการมนุษยภาษา
|
3.
|
เสริมสร้างเครือข่ายนักวิจัย นักพัฒนา และผู้ใช้เทคโนโลยี
|
4.
|
พัฒนาผลิตภัณฑ์ทางด้านวิทยาการมนุษยภาษา
|
|
|
|
Mission
|
|
1.
|
Research on HLT technology
|
2.
|
Sustain collaboration with HLT related organizations
|
3.
|
Strengthen researcher, developer, and user communities
|
4.
|
Develop HLT related products
|
|
|
|
|
|
|
|
|
|
โครงสร้้างหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา
|
|
|
|
|
|
|
|
 |
|
วิจัยและพัฒนาเทคโนโลยีการประมวลผลสัญญาณเสียงและภาษาพูด ได้แก่ การรู้จำเสียงพูด การสังเคราะห์เสียงพูด และการตรวจสอบการออกเสียง เน้นการทำวิจัยพื้นฐานสำหรับเสียงพูดภาษาไทย ตลอดจนต่อยอดสู่การพัฒนานวัตกรรมประยุกต์ที่สามารถใช้งานได้จริง อาทิ ระบบอ่านข่าวผ่านเครือข่ายโทรศัพท์ (News Voice Information Service) ระบบบริการสอบถามสภาพจราจรด้วยเสียงพูด (Traffic Voice Information Service)
งานหลักของกลุ่มเทคโนโลยีประมวลผลเสียงพูดในปัจจุบันประกอบด้วย
- การรู้จำเสียงพูดภาษาไทย (Automatic Speech Recognition) ผลงานซอฟต์แวร์เครื่องมือระบบรู้จำเสียงพูด (iSpeech ASR Toolkit)
- การสังเคราะห์เสียงพูดภาษาไทย (Speech Synthesis) ผลงานซอฟต์แวร์ระบบสังเคราะห์เสียงพูดภาษาไทย วาจา (Vaja TTS Engine)
- การตรวจสอบการออกเสียง (Pronunciation Assessment)
|
|
|
|
 |
|
วิจัยและพัฒนาการแปลภาษาเขียนอัตโนมัติ ในระดับคำและข้อความให้มีความถูกต้องสูงสามารถใช้งานได้กับการแปลหลาย ภาษาซึ่งเป็นการผสมผสานวิธีการแปลในรูปแบบต่างๆ กันทั้งการใช้ กฎไวยากรณ์ ตัวอย่าง และสถิต นอกจากนี้ยังรวมถึงวิธี การวัดประสิทธิภาพของระบบแปลภาษา
งานหลักของกลุ่มเทคโนโลยีประมวลผลข้อความประกอบด้วย
- ระบบแปลภาษาอังกฤษ-ไทย (Machine Translation) ผลงานระบบแปลภาษาภาษิต (Parsit)
- ระบบพจนานุกรมอิเล็กทรอนิกส์ (Electronics Dictionary) ผลงาน เล็กซิตรอน (LEXiTRON)
|
|
|
|
 |
|
วิจัยและพัฒนาระบบต่างๆ ที่เกี่ยวข้องกับการจัดการข้อมูลสารสนเทศ ตั้งแต่ ระบบการจัดการฐานข้อมูล (Database Management System -DBMS) ระบบสืบค้นข้อมูล (Information Retrieval System)ไปจนถึงการวิเคราะห์ฐานข้อมูลขนาดใหญ่ (Data Mining) รวมทั้งการวิจัยเพื่อหาเทคนิคต่างๆ ที่จะทำให้ระบบสารสนเทศมีความอัจฉริยะมากยิ่งขึ้น เช่น โครงสร้างสารสนเทศเชิงความหมาย (Ontology) และการประมวลผลสารสนเทศเชิงกราฟฟิก (Information Visualization)
ผลงานของกลุ่มเทคโนโลยีโครงสร้างพื้นฐานสารสนเทศอัจฉริยะ
|
|
|
|
 |
|
ทีมวิจัยทรัพยากรภาษา และเครื่องมือมีภารกิจสำคัญ ในการเก็บรวบรวม สะสมคลังข้อมูลภาษา (Language corpus) เช่น คลังข้อความ คลังคำ คลังข้อมูลเสียงจากแหล่งต่างๆ เพื่อเป็นพื้นฐานสำหรับนำไปใช้สนับสนุน การวิจัยพัฒนาเทคโนโลยีหลัก ทั้งด้านเทคโนโลยีประมวลผลข้อความประมวลผลเสียงพูด และเทคโนโลยีโครงสร้างพื้นฐานสารสนเทศอัจฉริยะ โดยมีเป้าหมายเพื่อเป็นแหล่งรวบรวม ทรัพยากร ภาษาที่ดีที่สุด ในประเทศปัจจุบันฝ่ายทรัพยากรและเครื่องมือมีคลัง ข้อมูลภาษาที่เก็บสะสมไว้หลายรูปแบบไม่ว่าจะเป็น ข้อมูลคำศัพท์ พร้อมการออกเสียงข้อมูลประโยคที่ได้รับ การตัดคำ และกำกับชนิดของคำ ข้อมูลคู่ประโยคภาษา อังกฤษ-ไทย พจนานุกรมคำศัพท์ทั้งไทยและอังกฤษ
โดยได้เปิดให้นักวิจัยหรือผู้ที่สนใจ สามารถนำคลังข้อมูลบางส่วนไปใช้เพื่อพัฒนาวิจัยต่อยอดได้ด้วย
- คลังข้อความที่กำกับหน้าที่ของคำภาษาไทย ORCHID
- คลังข้อความกำกับขอบเขตคำ BEST
- คลังข้อมูลเสียงพูดภาษาไทย LOTUS
|
|
|
|
 |
|
|