You are here: หน้าแรก โครงการวิจัย โครงการปัจจุบัน
โครงการพัฒนาระบบภาษาภาพภาษาไทยสำหรับผู้ที่บกพร่องทางการสื่อสาร
(Thai Picture-based Language System for Persons with Communication Disorder)

หัวหน้าโครงการ มณฑิกา บริบูรณ์

ระยะเวลา 3 ปี (2551 - 2554)

รายละเอียดโครงการ

โครงการ นี้เป็นชุดโครงการต่อเนื่องที่มีวัตถุประสงค์เพื่อเตรียมความพร้อมและสนับ สนุนให้การพัฒนาเทคโนโลยีประมวลผลภาษาไทยมีความก้าวหน้าไปอย่างมีแบบแผนรวด เร็ว และลดการทำงานซ้ำซ้อนในกลุ่มของนักวิจัยและผู้พัฒนาเทคโนโลยีด้วยกัน โดยผ่านกิจกรรมต่างๆ เช่น การวัดเปรียบเทียบสมรรถนะ และการประชุมระดมความคิดเห็นเป็นต้น การวัดเปรียบเทียบสมรรถนะซอฟต์แวร์ ดำเนินการโดยผ่านกลไกการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทยในปีงบ ประมาณ 2553และ 2554โดยหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษาจะเป็นผู้รับผิดชอบในการ เตรียมข้อมูลชุดฝึกฝนระบบชุดทดสอบกลาง และกำหนดกติกาการวัดเปรียบเทียบสมรรถนะที่มีลักษณะ วัตถุวิสัยมากที่สุดพร้อมทั้งจัดทำเอกสารประกอบคลังข้อความเพื่ออธิบายหลัก เกณฑ์ในการกำกับข้อมูลในคลังข้อความ(guidelines) เพื่อให้ผู้ใช้คลังข้อความและผู้พัฒนาซอฟต์แวร์มีความรู้ความเข้าใจในแนวคิด พื้นฐานซึ่งจะเป็นประโยชน์ในขั้นของการนำไปใช้งานในอนาคต

ผลลัพธ์ของโครงการ

1. สิทธิบัตร จำนวน 1 เรื่อง
2. ต้นแบบภาคสนาม จำนวน 1 ต้นแบบ

เว็บไซต์


   
โครงการระบบผู้ช่วยออนไลน์ (myAgent)

หัวหน้าโครงการ ดร.อลิสา คงทน

ระยะเวลา 1 ปี 10 เดือน (ก.ย. 2552 – ธ.ค. 2553)

รายละเอียดโครงการ

เนื่องจากในปัจจุบันเป็นยุคของข้อมูลข่าวสาร ซึ่งมีเทคโนโลยีสารสนเทศเป็นตัวช่วยให้ทุกคนสามารถสร้าง ถ่ายทอด และเข้าถึงข้อมูลได้สะดวกและรวดเร็วกว่าในอดีต แต่ในขณะเดียวกันเทคโนโลยีสารสนเทศก็ทำให้เกิดปัญหาการท่วมล้นของข้อมูลและบริการที่มีอยู่อย่างแพร่หลายโดยเฉพาะในสื่ออินเทอร์เน็ตมากยิ่งขึ้น ซึ่งแม้ว่าอินเทอร์เน็ตเป็นสื่อที่ผู้ใช้สามารถเข้าถึงบริการเหล่านั้นได้สะดวกและรวดเร็วกว่าสื่อชนิดอื่นก็ตาม แต่เมื่อข้อมูลและบริการเหล่านี้มีจำนวนมากเกินไป ผู้ใช้อาจจะไม่สามารถเข้าถึงข้อมูลที่ต้องการได้เนื่องจากไม่ทราบแหล่งที่อยู่ของข้อมูล โดยปกติผู้ใช้อินเทอร์เน็ตทุกวันนี้จะเข้าถึงข้อมูลโดยการใช้เครื่องมือสืบค้น (Search engine) โดยผู้ใช้จะป้อนคำค้น (Query) ที่อยู่ในรูปแบบของคำสำคัญ (Keywords) จากนั้นระบบจะค้นคืนรายการของเอกสารที่มีความเกี่ยวข้องกับคำค้นนั้นแก่ผู้ใช้ โดยที่เอกสารที่มีความเกี่ยวข้องกับคำค้นมากที่สุดจะถูกจัดลำดับอยู่ต้นๆ ของรายการเพื่อให้ผู้ใช้สามารถเข้าถึงได้ง่าย จะเห็นว่าเครื่องมือช่วยค้นหาข้อมูลในปัจจุบันไม่ได้ตอบสนองคำค้นของผู้ใช้โดยตรง เพียงแต่แสดงให้ผู้ใช้ได้เห็นว่า คำค้นนั้นเกี่ยวข้องและพบมากในเอกสารใดบ้าง ดังนั้นเป้าหมายหลักของโครงการนี้คือ การออกแบบและพัฒนาระบบผู้ช่วยออนไลน์ซึ่งมีความสามารถในการช่วยผู้ใช้ในการค้นหาข้อมูลหรือตอบคำถามเฉพาะเรื่องที่ผู้ใช้ต้องการ ซึ่งผู้ใช้สามารถถามคำถามกับระบบโดยการสนทนาโต้ตอบอัตโนมัติด้วยภาษาธรรมชาติ โดยเทคโนโลยีหลักที่ใช้ในการพัฒนาระบบผู้ช่วยออนไลน์ดังกล่าวนี้ประกอบด้วย เทคโนโลยีการประมวลภาษาธรรมชาติ (Natural Language Processing) เทคโนโลยีปัญญาประดิษฐ์ (Artificial Intelligence) เทคโนโลยีถาม-ตอบ (Question Answering) และเทคโนโลยี Web Servicesเป็นต้น ระบบผู้ช่วยออนไลน์นี้สามารถนำไปประยุกต์ใช้ร่วมกับระบบอื่นเพื่อทำให้เกิดเป็นบริการรูปแบบใหม่ เช่น ระบบสนทนาออนไลน์ (Instant Messaging) ระบบคำถามคำตอบ (Question Answering system) ระบบสอบถามข้อมูลอัตโนมัติ (Call Center) หรือระบบบริการช่วยเหลืออัตโนมัติ (Help Desk) ซึ่งจะสามารถลดภาระค่าใช้จ่ายในส่วนของการจ้างพนักงานแผนกบริการลูกค้าขององค์กรได้ส่วนหนึ่ง ระบบผู้ช่วยออนไลน์นี้จึงถือว่าเป็นช่องทางหนึ่งที่ช่วยให้ผู้ใช้สามารถเข้าถึงข้อมูลและบริการ ได้สะดวก รวดเร็ว มากยิ่งขึ้นเมื่อเทียบกับการใช้เครื่องมือสืบค้น (Search Engine) ที่มีอยู่ในปัจจุบัน

ผลลัพธ์ของโครงการ

ระบบต้นแบบ (Prototype)
1.1 ต้นแบบภาคสนาม (Field Prototype) ระบบสอบถามข้อมูลส่วนบุคคลสำหรับเว็บไซต์ www.abhisit.org
1.2 ต้นแบบห้องปฏิบัติการ (Lab Prototype)
- ระบบให้บริการข้อมูลการท่องเที่ยวของประเทศไทยผ่านการสืบค้นเชิงความหมาย
- ระบบคลังความรู้แบบมีป้ายกำกับ
- เครื่องมือสร้างรูปแบบสนทนาสำหรับระบบสนทนาอัตโนมัติ
- ระบบสนับสนุนการสร้างและแก้ไขข้อมูลอินสแตนซ์ตามออนโทโลยี
สิทธิบัตร
-วิธีการสอบถามข้อมูลอัตโนมัติเพื่อค้นคืนสารสนเทศด้วยเทคนิคการประมวลผลภาษาธรรมชาติ

เว็บไซต์



   
ระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทย

หัวหน้าโครงการ ดร.ชูชาติ หฤไชยะศักดิ์

ระยะเวลา

รายละเอียดโครงการ

ในปัจจุบันความก้าวหน้าทางเทคโนโลยีสารสนเทศ (Information Technology - IT) ทำให้ปริมาณข้อมูลดิจิทัล โดยเฉพาะอย่างยิ่งที่อยู่ในรูปแบบข้อความและเอกสาร (texts and documents) มีการขยายตัวขึ้นอย่างรวดเร็วหลายเท่าตัว โดยช่องทางของสื่อ (media channel) ที่คนทั่วไปนิยมใช้ในการแลกเปลี่ยนข้อมูลและข่าวสารกันมากที่สุดคือ เครือข่ายอินเตอร์เน็ต โดยใช้เว็บเป็นเครื่องมือในการเชื่อมโยง ตัวอย่างการใช้งานได้แก่ จดหมายอิเล็กทรอนิกส์ (emails) หน้าเว็บ (Web pages) เป็นต้น เมื่อไม่กี่ปีมานี้ได้มีการกล่าวถึงเว็บ 2.0 (Web 2.0) ซึ่งเป็นคำที่อธิบายถึงการใช้เทคโนโลยีเว็บ (Web Technology) ผนวกกับการออกแบบเว็บ (Web design) เพื่อวัตถุประสงค์ในการ สนันสนุนการสร้างสรรค์ แบ่งปันและแลกเปลี่ยนข้อมูล โดยเฉพาะอย่างยิ่งการร่วมมือกันของผู้ใช้ข้อมูล (Collaboration) ตัวอย่างเทคโนโลยี 2.0 ที่มีการใช้งานกันอย่างกว้างขวางได้แก่ เว็บเครือข่ายสังคมต่างๆ เว็บที่ใช้วิกิ (Wiki) เช่นวิกิพีเดีย (Wikipedia) เว็บบล็อก (Blog) และการช่วยกำกับข้อมูลเว็บ (Folksomomies หรือ Social tagging) ในยุคของเว็บ 2.0 ผู้บริโภคข้อมูลและข่าวสารจะมีบทบาทในการสร้างสรรค์ข้อมูลเป็นอย่างมาก ทำให้เสมือนว่าผู้ใช้ทุกคนมีส่วนร่วมและเป็นส่วนหนึ่งของเว็บ ที่ผ่านมานั้นการวิจัยและพัฒนาหลักส่วนหนึ่งจะมุ่งเน้นการแก้ไขปัญหาปริมาณ ของข้อมูลและข่าวสารที่มีจำนวนมากและเติบโตอย่างไม่สิ้นสุด (Scalability) ซึ่งก่อให้เกิดปัญหาการท่วมล้นของสารสนเทศ (Information Overload) ซึ่งเทคโนโลยีที่ถูกนำมาใช้และได้ผลเป็นที่ยอมรับกันอย่างกว้างขวางคือ ระบบสืบค้นข้อมูลหรือเสิร์ชเอ็นจิ้น (Search engine) เสิร์ชเอ็นจิ้นช่วยให้ผู้ใช้สามารถค้นหาข้อมูลบนเว็บได้อย่างสะดวกโดยการ ป้อนคำค้นคืน (Query) ให้กับระบบ อย่างไรก็ตามปัญหาอีกอย่าง ที่ยังไม่ได้รับความสนใจมากเท่าไรคือการเปลี่ยน แปลงของข้อมูล (Volatility) โดยทั่วไปข้อมูลบนเว็บจะมีการเปลี่ยนแปลงอยู่ตลอดเวลาซึ่ง เกิดได้จากหลาย กรณี ตั้งแต่การสร้างหน้าเว็บหรือบล็อกใหม่ การแก้ไขข้อมูลบางส่วนในหน้าเว็บหรือบล็อก หรือการขาดการเชื่อมโยงของหน้าเว็บ (Broken links) ซึ่งในกรณีของการสูญหายของหน้าเว็บนี้ เสิร์ชเอ็นจิ้นบางระบบเช่น Google ได้เก็บสำเนาของข้อมูลหน้าเว็บไว้ในระบบ (Cached) ทำให้ผู้ใช้สามารถเรียกดูหน้าเว็บนั้นๆได้ แต่ก็ไม่สามารถย้อนกลับไปดูตามช่วงเวลาในอดีตที่ผ่านมาได้ทั้งหมด ในต่างประเทศมีองค์กร 2 แห่งที่ได้ทำการวิจัยและพัฒนาการเก็บข้อมูลแบบคลังคือ (1) อินเตอร์เน็ตอาร์ไคฟ์ (http://www.archive.org) ในสหรัฐอเมริกา ซึ่งทำการเก็บรวบรวมหน้าเว็บจากเว็บไซต์ต่างๆทั่วโลกตามระยะเวลา และ (2) ยูโรเปี้ยนอาร์ไคฟ์ (http://www.europarchive.org) เป็นการร่วมมือกันระหว่างประเทศต่างๆ ในยุโรปในการเก็บข้อมูลทั้งจากเว็บและ มัลติมีเดียอื่นๆเช่น ภาพยนตร์และเพลง ทั้งสององค์กรมุ่งเน้นในการเก็บคลังเว็บทั่วไปโดยไม่เน้นเว็บไซต์ภาษาไทย ดังนั้นเป้าหมายหลักของโครงการนี้คือ การวิจัยและพัฒนาระบบสืบค้นข้อมูลบนเว็บแบบย้อนตามแกนเวลาได้ ในลักษณะของคลังข้อมูลหรือเว็บอาร์ไคฟ์ (Web archive) โดยเน้นสำหรับข้อมูลภาษาไทยหรือที่เกี่ยวข้องกับประเทศไทยแต่อยู่ในภาษา อังกฤษ ในระบบจะมีการวิจัยและออกแบบโมดูลที่ใช้เก็บหน้าเว็บหรือเว็บครอลเลอร์ (Web crawler) ที่มีความสามารถในการตรวจสอบข้อมูลที่ซ้ำซ้อนและตรวจสอบระยะเวลาที่เหมาะ สมในการเก็บข้อมูลจากแต่ละเว็บไซต์ ข้อมูลที่จะถูกเน้นในปีแรกของโครงการคือข่าวและข้อความแสดงความคิดเห็นตาม เว็บไซต์ต่างๆ ระบบที่จะพัฒนาขึ้นมาคือ ระบบสืบค้นข่าวย้อนหลังที่ผู้ใช้สามารถสืบค้นข่าวที่สนใจในอดีตที่ผ่านมาได้ นอกจากนั้นยังสามารถสรุปสถิติของคำและเหตุการณ์ที่เกิดขึ้นในช่วงเวลาที่ กำหนดได้ นอกจากการสืบค้นข้อมูลแล้ว ในโครงการจะมีแนวทางเพื่อเพิ่มมูลค่าให้กับสารสนเทศที่เก็บในคลังโดยการทำ เหมืองข้อความ (Text Mining) ซึ่งเป็นการวิเคราะห์เพื่อสกัดหาสิ่งที่โดดเด่นและมีคุณค่าจากสารสนเทศที่ ซ่อนเร้นอยู่ในคลังข้อมูล โดยการประยุกต์ใช้เทคนิคดังกล่าวในโครงการนี้จะเป็นการวิจัยและพัฒนาระบบ สืบค้นผู้เชี่ยวชาญ (Expert Finder) ในลักษณะที่สามารถให้ใช้บริการเป็นสาธารณะได้ สำหรับระบบสืบค้นผู้เชี่ยวชาญจะเป็นการต่อยอดจากระบบที่ได้ทำเป็นต้นแบบใน ห้องปฏิบัติการจากโครงการระบบสืบค้นบูรณาการข้อมูลงานวิจัยไทย (ThaiReSearch) ระบบสืบค้นผู้เชี่ยวชาญจะสามารถทำการประมวลผลและวิเคราะห์ความเชี่ยวชาญตาม สาขาต่างๆ โดยแบ่งตามนักวิจัยหรือหน่วยงานได้ และเพื่ิิอให้การใช้งานเป็นไปอย่างง่ายและสะดวก จะมีการใช้เทคนิคเครือข่ายเชิงสังคม (Social Network) ผนวกกับเทคนิคจินตทัศน์ (Information Visualization) ในลักษณะของกราฟได้โดยที่โหนดจะเป็นนักวิจัยหรือหน่วยงานและมีลิงค์เชื่อม โยงไปยังนักวิจัยหรือหน่วยงาน ที่มีความเชี่ยวชาญที่เหมือนหรือใกล้เคียงกัน เช่น หน่วยงาน A อาจจะมีเชื่อมโยงไปยัง หน่วยงาน B เนื่องจากทั้งสองหน่วยงานนี้มีนักวิจัยที่มีความเชี่ยวชาญทางด้านใกล้กันมาก โดยสรุปแล้วระบบสืบค้นและทำเหมืองข้อความสำหรับคลังเว็บไทยจะทำให้ข้อมูลและ สารสนเทศของประเทศไทยซึ่งนำเสนอผ่านเครือข่ายอินเตอร์เน็ตและเว็บไม่สูญหาย ไปกับกาลเวลา ผู้ใช้สามารถมองประเทศไทยในอดีตที่ผ่านมาจากข้อมูลที่เกิดจากคนรุ่นหลายรุ่น สร้างสรรค์ขึ้นมา ไม่ว่าจะเป็นข่าวและเหตุการณ์สำคัญของประเทศ รวมถึงกระแสที่ประชาชนในประเทศให้ความสนใจในช่วงเวลาที่ผ่านมา นอกจากนั้นในเชิงของภาษาศาสตร์ จะทำให้เห็นรูปแบบของคำที่เกิดขึ้นใหม่และตายไปรวมทั้งการใช้ภาษาและ ไวยากรณ์ที่เปลี่ยนแปลงไปตามกาลเวลา นอกจากนั้นยังเป็นการใช้ประโยชน์และเพิ่มมูลค่าให้กับสารสนเทศที่เก็บไว้ เป็นจำนวนมากโดยอาศัยเทคนิคการทำเหมืองข้อความซึ่งเป็นเทคนิคที่ใหม่และถูก นำไปประยุกต์ใช้กันอย่างมากในต่างประเทศอีกด้วย ผลลัพธ์ของโครงการ: เทคโนโลยี การสืบค้นข้อมูลเป็นหนึ่งในเทคโนโลยีที่ขาดไม่ได้ในยุคเทคโนโลยีสารสนเทศใน ปัจจุบัน ระบบสืบค้นข้อมูลช่วยให้ผู้ใช้คอมพิวเตอร์และเครือข่ายอินเตอร์เน็ตสามารถ เข้าถึงข้อมูลที่ต้องการได้อย่างรวดเร็ว โครงการนี้มีจุดประสงค์หลักเพื่อวิจัยและพัฒนาระบบสืบค้นข้อมูลที่มี ประสิทธิภาพสูงโดยเน้นการใช้งานสำหรับภาษาไทยเป็นหลัก ผลลัพธ์หลักที่ได้คือระบบสืบค้นข้อมูลบนอินเตอร์เน็ตสรรสารในเวอร์ชั่นใหม่ ซึ่งจะมีการปรับปรุงประสิทธิภาพจากเวอร์ชั่นเดิมหลายอย่าง เช่นการลดขนาดของดัชนีที่สร้างขึ้น รวมทั้งเพิ่มคุณสมบัติและความสามารถให้กับระบบเช่น การแนะนำคำที่ใช้ค้นคืน และการแสดงผลลัพธ์ของการค้นคืนแบบจัดกลุ่มและแบบเชิงความหมาย เป็นต้น และเพื่อให้การใช้งานของระบบสืบค้นข้อมูลในประเทศไทยเป็นไปอย่างแพร่หลายทาง ทีมจะเน้นการพัฒนาระบบในรูปแบบต้นรหัสเปิด (Open Source) รวมทั้งมีแผนในการจัดอบรมการนำเอาระบบที่ทางทีมพัฒนาขึ้นมาไปประยุกต์ใช้ ต่อยอดในระบบค้นคืนข้อมูลต่างๆ โดยที่ไม่ต้องเสียค่าธรรมเนียมการใช้โปรแกรม (License Fee) โครงการนี้ยังรวมถึงการวิจัยและพัฒนาระบบค้นคืนข้อมูลสำหรับอุปกรณ์พกพา เช่น คอมพิวเตอร์โน้ตบุ๊ค (Notebook computer) และอุปกรณ์พกพา (Handheld Devices) เป็นต้น เนื่องจากอุปกรณ์เหล่านี้มีข้อจำกัดทางฮาร์ดแวร์ ดังนั้นจึงต้องมีการออกแบบเพื่อให้ระบบค้นคืนข้อมูลสามารถทำงานได้อย่างไม่ มีปัญหา

ผลลัพธ์ของโครงการ

 

เว็บไซต์
http://thairesearch.in.th/tnrr/
http://www.sansarn.com/opinion/



   
โครงการวิจัยพัฒนาเครื่องมือช่วยเสริมการเรียนภาษาอังกฤษสำหรับผู้เรียนชาวไทย
(English Enhancement Tools for Thai Learners)

หัวหน้าโครงการ ดร. เทพชัย ทรัพย์นิธิ

ระยะเวลา 2 ปี (2553 - 2555)

รายละเอียดโครงการ

         แม้ว่าประเทศไทยได้กำหนดให้ภาษาอังกฤษเป็นภาษาต่างประเทศที่ต้องจัดการเรียนการสอนเป็นการศึกษาภาคบังคับตั้งแต่ระดับชั้นประถมศึกษาจนถึงมัธยมศึกษา แต่อย่างไรก็ตามผู้เรียนชาวไทยนับว่ายังขาดทักษะที่เพียงพอต่อการสื่อสารเป็นภาษาอังกฤษได้อย่างมีประสิทธิภาพ ดังจะเห็นได้จากผลคะแนนการทดสอบทางการศึกษาระดับชาติขั้นพื้นฐาน (Ordinary National Educational Test: O-NET) และการทดสอบระดับชาติขั้นสูง (Advanced National Educational Test: A-NET) ซึ่งเป็นองค์ประกอบสำคัญในการรับสมัครบุคคลเข้าศึกษาต่อในสถาบันอุดมศึกษาในระบบกลางในประเทศไทย หรือ ผลคะแนนการสอบแบบมาตรฐานที่วัดความสามารถทางด้านภาษาอังกฤษสำหรับนักศึกษาต่างชาติที่ต้องการเข้าศึกษาต่อกับสถาบันการศึกษาในประเทศที่ใช้ภาษาอังกฤษเป็นสื่อกลาง เช่น คะแนนสอบโทเฟิล (TOEFL) เป็นต้น
         โครงการวิจัยพัฒนาเครื่องมือช่วยเสริมการเรียนภาษาอังกฤษสำหรับผู้เรียนชาวไทยนี้เป็นโครงการต่อเนื่องภายใต้ความรับผิดชอบของหน่วยปฏิบัติการวิจัยวิทยาการมนุษย์ภาษา (Human Language Technology)  ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) ซึ่งมีจุดมุ่งหมายเพื่อพัฒนาเทคโนโลยีที่ช่วยเพิ่มระดับความสามารถทางภาษาอังกฤษให้กับผู้เรียนชาวไทย ในปัจจุบันเทคโนโลยีคอมพิวเตอร์ที่นำมาประยุกต์ใช้ในห้องเรียนภาษาอังกฤษส่วนมากอยู่ในรูปแบบของบทเรียนคอมพิวเตอร์ช่วยสอน (Computer Assisted Language Learning: CALL) ซึ่งสามารถแบ่งเป็นสองประเภทหลักได้แก่ บทเรียนที่สร้างโดยมืออาชีพ (เช่น Rosetta Stone หรือ Tell me more) และบทเรียนที่ครูผู้สอนสร้างขึ้นเองจากโปรแกรมสร้างบทเรียน (เช่น Hot Potatoes) อย่างไรก็ตาม บทเรียนทั้งสองประเภทยังจำกัดอยู่เฉพาะการสร้างแบบฝึกหัดแบบปรนัย การจับคู่ การเติมคำในช่องว่าง การเรียงประโยค หรือ การสร้างประโยคแบบเทียบแทน (Substitution Drills) เท่านั้นและไม่สามารถทำการประมวลผล งานประเภทข้อเขียนหรือบทสนทนาที่ไม่จำกัดขอบเขตการใช้ภาษาของผู้เรียนได้ นอกจากนั้น บทเรียนที่สร้างโดยมืออาชีพมักมีราคาค่อนข้างสูงและไม่ตอบสนองความต้องการของผู้เรียนชาวไทย
         เนื่องด้วยข้อจำกัดของบทเรียน CALLดังกล่าว คณะผู้วิจัยจึงต้องการนำเทคโนโลยีการประมวลผลภาษาธรรมชาติระดับสูงมาประยุกต์ใช้เพื่อสร้างบทเรียน CALL ให้มีประสิทธิภาพมากขึ้น โดยในช่วง 2 ปีแรกจะเน้นการพัฒนาเทคโนโลยีใหม่เพื่อช่วยเสริมทักษะการอ่าน การเขียนและการออกเสียง และ การประยุกต์เทคโนโลยีที่ทางห้องปฏิบัติการวิจัยมนุษยภาษา (Human Language Technology) ได้พัฒนาขึ้นแล้วเพื่อเสริมทักษะการอ่าน โดยได้มีการพัฒนาเครื่องมือช่วยในการอ่านภาษาอังกฤษโดยใช้ระบบแปลภาษาซึ่งเป็นการต่อยอดระบบที่มีอยู่เดิมให้มีเครื่องมือช่วยในการวิเคราะห์ข้อมูลการอ่านมากขึ้น นอกจากนี้โครงการนี้ได้ขยายการพัฒนาเทคโนโลยีใหม่ได้แก่ เครื่องมือช่วยในการเขียน (Writing Assistant Tool, WAT) และ เครื่องมือสำหรับประเมินการออกเสียงภาษาอังกฤษ (Pronunciation Assessment Tool, PAT) โดยเครื่องมือช่วยในการเขียนนั้นมีเป้าหมายให้ผู้เรียนสามารถมองเห็นข้อผิดพลาดในการเขียนของตนเองและสามารถเสนอวิธีแก้ไขข้อผิดพลาดให้กับผู้เรียนได้  สำหรับเครื่องมือสำหรับประเมินการออกเสียงภาษาอังกฤษนั้น ระบบรู้จำเสียงพูด (Speech recognizer) ที่พัฒนาขึ้นจะช่วยให้ผู้เรียนสามารถเปรียบเทียบระหว่างการออกเสียงของตนเองกับเจ้าของภาษาได้รวมทั้งปรับปรุงการออกเสียงของตนเองให้ดีขึ้นได้
         ในการพัฒนาเครื่องมือดังกล่าว จำเป็นต้องอาศัยการศึกษาวิเคราะห์คลังภาษาของผู้เรียน (Learner Corpus) เป็นหลัก โดยมีข้อสมมุติฐานเบื้องต้นว่าภาษาแม่ของผู้เรียนมีอิทธิพลต่อข้อผิดพลาดที่เกิดขึ้น ดังนั้นข้อผิดพลาดของผู้เรียนชาวไทยย่อมแตกต่างจากข้อผิดพลาดของผู้เรียนจากภาษาแม่อื่นๆ เครื่องมือที่พัฒนาขึ้นสำหรับโครงการนี้จึงจะสามารถรองรับและจัดการกับข้อผิดพลาดในการใช้ภาษาอังกฤษของผู้เรียนชาวไทยได้อย่างเฉพาะเจาะจงมากขึ้น คลังภาษาผู้เรียนที่จะสร้างเพื่อใช้ในโครงการวิจัยนี้แบ่งเป็น 2 ประเภทได้แก่ คลังภาษาเขียน (Written Learner Corpus) และคลังภาษาพูด (Spoken Learner Corpus)โดยคลังภาษาเขียนได้รวบรวมมาจากบทความหรือข้อเขียนออนไลน์ของนักเรียนระดับมัธยมศึกษา ส่วนคลังภาษาพูดนั้นจะเก็บข้อมูลจากนักเรียนระดับมัธยมศึกษาเช่นกันโดยการเก็บข้อมูลจะอ้างอิงจากวิธีการที่ใช้ในโครงการวิจัยคลังภาษาพูดภาษาอังกฤษโดยผู้เรียนในทวีปเอเชีย (Asian English Speech cOrpus Project: AESOP) ข้อมูลที่ได้จากคลังภาษาทั้งสองชุดจะถูกกำกับข้อผิดพลาดด้วยชุดตัวกำกับข้อผิดพลาด (Error Tag Set) ที่สร้างขึ้นมาเพื่องานวิจัยครั้งนี้เท่านั้น การศึกษาวิเคราะห์คลังภาษาผู้เรียนดังกล่าวจะทำให้ทราบว่าผู้เรียนชาวไทยควรปรับปรุงภาษาอังกฤษในด้านใดบ้าง

ผลลัพธ์ของโครงการ

    ต้นแบบ
         -
ต้นแบบห้องปฏิบัติการ (Lab Prototype) : เครื่องมือสำหรับเก็บข้อมูลและกำกับข้อผิดในงานเขียนของผู้เรียน

    สิทธิบัตร
         -
อุปกรณ์และวิธีการออกแบบชุดกำกับข้อผิดของภาษาผู้เรียนแบบอัตโนมัติ

เว็บไซต์  -


   
การวัดเปรียบเทียบสมรรถนะเพื่อยกระดับมาตรฐานเทคโนโลยีการประมวลผลภาษาไทย ระยะที่ 1
(Benchmark for Enhancing the Standard of Thai language processing : Phase 1)

หัวหน้าโครงการ ดร.กฤษณ์ โกสวัสดิ์

ระยะเวลา 2 ปี (2552 - 2554)

รายละเอียดโครงการ

โครงการนี้เป็นชุดโครงการต่อเนื่องที่มีวัตถุประสงค์เพื่อเตรียมความพร้อมและสนับสนุนให้การพัฒนาเทคโนโลยีประมวลผลภาษาไทยมีความก้าวหน้าไปอย่างมีแบบแผนรวดเร็ว และลดการทำงานซ้ำซ้อนในกลุ่มของนักวิจัยและผู้พัฒนาเทคโนโลยีด้วยกัน โดยผ่านกิจกรรมต่างๆ เช่น การวัดเปรียบเทียบสมรรถนะ และการประชุมระดมความคิดเห็นเป็นต้น การวัดเปรียบเทียบสมรรถนะซอฟต์แวร์ ดำเนินการโดยผ่านกลไกการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทยในปีงบประมาณ 2553และ 2554โดยหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษาจะเป็นผู้รับผิดชอบในการเตรียมข้อมูลชุดฝึกฝนระบบชุดทดสอบกลาง และกำหนดกติกาการวัดเปรียบเทียบสมรรถนะที่มีลักษณะ วัตถุวิสัยมากที่สุดพร้อมทั้งจัดทำเอกสารประกอบคลังข้อความเพื่ออธิบายหลักเกณฑ์ในการกำกับข้อมูลในคลังข้อความ(guidelines) เพื่อให้ผู้ใช้คลังข้อความและผู้พัฒนาซอฟต์แวร์มีความรู้ความเข้าใจในแนวคิดพื้นฐานซึ่งจะเป็นประโยชน์ในขั้นของการนำไปใช้งานในอนาคต

ผลลัพธ์ของโครงการ

1. BEST 2009 : การแข่งขันสุดยอดซอฟต์แวร์แบ่งคำภาษาไทย
2. InterBEST 2009 Thai Word Segmentation: an International Episode
3. BEST 2010 : การแข่งขันสุดยอดซอฟต์แวร์แบ่งคำภาษาไทย
4. BEST 2011 : การแข่งขันสุดยอดซอฟต์แวร์ประมวลผลภาษาไทย

เว็บไซต์ http://thailang.nectec.or.th/best/