National Electronics and Computer Technology CenterNational Science and Technology Development Agency (NSTDA)
รู้จักหน่วยปฏิบัติการวิจัยวิทยามนุษยภาษา โครงการวิจัย ผลงานและบริการ
 
หน้าหลัก
เกี่ยวกับหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา
โครงสร้างองค์กร
บุคลากร
ติดต่อเรา
โครงการวิจัย
ผลงานเชิงวิชาการ
ข่าวและกิจกรรม
ลิงค์
ผังเว็บไซต์
 
พจนานุกรมสื่ออิเล็กทรอนิกส์ไทย<->อังกฤษ
ภาษิต บริการแปลภาษาอังกฤษเป็นไทย
ระบบสืบค้นข้อมูลผ่านเว็บ
ซอฟต์แวร์สังเคราะห์เสียงพูดภาษาไทย
ระบบรู้จำเสียงพูดภาษาไทย
โปรแกรมตัดคำภาษาไทย
 
ABDUL
ระบบสนับสนุนพนักงาน
National Science and Technology Development Agency
National Electronics and Computer Technology Center
National Center for Genetic Engineering and Biotechnology
National Metal and Materials Technology Center
National Nanotechnology Center (NANOTEC)
Technology Management Center (TMC)
 
 
สรรสาร
สรรสาร
 
  สรรสาร ลุค คืออะไร
 

สรรสาร ลุค เป็นโปรแกรมสำหรับพัฒนา และจัดการระบบค้นคืนข้อมูลผ่าน Web Browser ผู้ใช้สามารถ สั่งให้โปรแกรมสร้างดัชนีจากไฟล์เอกสารที่อยู่บนฮาร์ดดิสก์ของเครื่องหรือจะเป็นเอกสารบนเว็บก็ได้ โปรแกรมจะทำงานโดยผ่าน Interface ของ Web Browser ดังนั้นจึงทำให้การจัดการข้อมูลการสั่งงานรวมทั้งการตั้งค่าต่างๆ ที่เกี่ยวข้องกับระบบเป็นไปอย่างง่ายและสะดวก จุดเด่นของสรรสาร ลุคคือความสามารถในการค้นคืนภาษาไทยได้ถูกต้องและมีความครอบคลุมสูงรวมทั้งยังมีการเพิ่มคุณลักษณะต่างๆที่ทำให้การค้นคืนเป็นไปอย่าง มีประสิทธิภาพมากยิ่งขึ้น เช่นการแนะนำคำที่ใช้ค้นคืน (Query Suggestion) เป็นต้น

  คุณลักษณะของสรรสาร ลุค
 

Support full-text and field-text search: ระบบสามารถค้นคืนเอกสารจากข้อความทั้งหมด หรือโดยการระบบตาม field ก็ได้

Support local files and Web pages: ระบบสามารถสร้างดัชนีข้อมูล จากเอกสารที่อยู่ บนฮาร์ดดิสก์ของเครื่องหรือจะเป็นเอกสารที่อยู่บนเว็บก็ได้

Support multiple file formats: ระบบสามารถรองรับเอกสารในรูปแบบ (Format) ต่างๆ ได้เช่น HTML, PDF,DOC

High-performance indexing for Thai language: ทางทีมได้วิจัย และพัฒนาโปรแกรมตัดคำภาษาไทย (LexTo: Lexeme Tokenizer) ซึ่งแก้ปัญหาของคำไม่รู้จักโดยการเพิ่มคำใน ฐานข้อมูลและแก้ปัญหาคำ กำกวมโดยการวิเคราะห์ทางสถิต ทำให้ดัชนีของคำที่สร้างขึ้น มามีคุณภาพในการค้นคืนสูง

User - friendly via Web browser interface : ผู้ใช้สามารถ ใช้งาน ระบบผ่าน Web Browser ทั่วๆ ไป เช่น Firefox และ Internet Explorer เป็นต้น

Configurability: ผู้ใช้สามารถกำหนดและตั้งค่าต่างๆ ที่เกี่ยวข้องกับการค้นคืนได้ เช่น จำนวนผลลัพธ์ จากการค้นคืนและ จำนวน field ต่างๆในเอกสาร เช่น หัวข้อ ผู้แต่ง และ เนื้อหา เป็นต้น

Additional features related to Thai language: ระบบมีคุณลักษณะต่างๆทางภาษาไทย ซึ่งสามารถช่วยผู้ใช้ในการค้นคืนข้อมูลได้มีประสิทธิภาพมากยิ่งขึ้นการแนะนำคำที่ใช้ค้นคืน (Query Suggestion) และการแก้ไขคำที่พิมพ์ผิด (Query Approximation) เป็นต้น

 
  ที่มาของสรรสาร ลุค
 

ในปัจจุบันการสืบค้นข้อมูลเป็นหนึ่งในเทคโนโลยีที่ขาดไม่ได้ ในยุคเทคโนโลยีสารสนเทศโดยที่ผ่านมานั้นทีม
นักวิจัย และพัฒนาโปรแกรมสรรสาร ซึ่งเป็นหน่วยงานวิจัยโครงสร้าง พื้นฐานสารสนเทศอัจฉริยะ ของฝ่ายวิจัย และ
พัฒนาเทคโนโลยีสารสนเทศ (RD-I) สังกั ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) ได้
มีการทำวิจัยและ พัฒนาเทคนิคต่าง ๆที่เกี่ยวข้องเทคโนโลยีค้นคืนข้อมูลมานาน หลายปี ผลงานที่ผ่านมาคือ ระบบสืบค้นข้อมูลบนอินเตอร์เน็ตในชื่อสรรสาร (sansarn.com) ที่ผ่านมาทางทีมสรรสารได้ช่วยพัฒนาระบบสืบค้นข้อมูลให้กับหน่วยงานทั้งของรัฐและเอกชนต่างๆ แต่ความต้องการ ใช้งานของระบบสืบค้นข้อมูลก็ยังมีอยู่มาก ดังนั้นทางทีมจึงมีแนวทางที่จะพัฒนาระบบค้นคืน ข้อมูลในลักษณะต้นแบบรหัสเปิด (Open Source Search Engine) ทั้งนี้เพื่อให้ผู้พัฒนาโปรแกรมทั่วไปสามารถ นำเอาโปรแกรมไปใช้พัฒนาต่อยอดในระบบสารสนเทศต่างๆ โดยที่ไม่ต้องเสียค่าธรรมเนียมการใช้โปรแกรม (License Fee) ซึ่งจะช่วยให้การใช้งานเทคโนโลยี สืบค้นข้อมูลในประเทศไทยเป็นไปอย่าง แพร่หลายมากขึ้นและยังช่วยลดการนำเข้าของ ซอฟต์แวร์ต่างประเทศได้อีกด้วย

 

  ข้อมูลทางด้านเทคนิค
 

สรรสาร ลุค ถูกพัฒนาต่อยอดมาจากลูซีน (Lucene) ซึ่งเป็นต้นรหัสซอฟต์แวร์ แบบเปิดที่ใช้สำหรับ พัฒนาระบบและแอพพลิเคชั่นที่ เกี่ยวกับการค้นคืนข้อมูลโดยเฉพาะ โดยทางทีมสรรสาร ซึ่งมีความรู้และ ความเชี่ยวชาญในการวิเคราะห์และประมวลผลภาษาไทยได้ทำการพัฒนาต่อยอดในส่วนของการวิเคราะห์ภาษาไทย (ThaiAnalyzer) รวมทั้งมีการเพิ่มคุณลักษณะต่างๆ ทางภาษาไทย ซึ่งสามารถช่วยผู้ใช้ใน การค้นคืนข้อมูล ได้มีประสิทธิภาพมากยิ่งขึ้น โครงสร้างทาง สถาปัตยกรรม ของระบบ แบ่งออกเป็น 2 ส่วน คือ ส่วนของลูซีน (Lucene API) และ ส่วนของสรรสาร(Sansarn Functions) ในส่วนของสรรสารนั้น มีรหัสโปรแกรมต่างๆที่สามารถแบ่งตามหน้าที่ได้เป็น 4 ส่วนคือ

Collector: มีหน้าที่เก็บเอกสารซึ่งอยู่ในรูปแบบ (Format) ต่างๆ เช่น HTML, PDF, DOC ทั้งที่อยู่ในเครื่อง(Local) และ ที่อยู่ห่างไกลออกไป (Remote) ได้แก่เอกสารบนเว็บผ่าน ทาง HTTP

Parser: มีหน้าที่ในการวิเคราะห์และสกัดเอาส่วนที่เป็นข้อความจากเอกสารในรูปแบบ(Format) ต่างๆ ทั้งนี้ยังรวมถึงการตัด tag ทั้งหมดออกจากเอกสารประเภท HTML และ XML

Indexer: มีหน้าที่ในการสร้างดัชนีของคำจากเอกสาร โดยการเรียกใช้รหัสโปรแกรมพื้นฐาน ของลูซีน โปรแกรมในส่วน Indexer นี้ช่วยให้การสร้างดัชนีเป็นไปอย่างกึ่งอัตโนมัติคือ เริ่มจากผู้ใช้สร้างไฟล์ configuration ซึ่งกำหนด field ต่างๆและประเภทของดัชนีในแต่ละ field แล้วจึงสั่งให้โปรแกรมนี้ทำการสร้างดัชนีโดยอัตโนมัติต่อไป

Searcher: มีหน้าที่ในการสร้างหน้าเว็บที่ใช้ในการค้นคืนซึ่งแบ่งออกเป็น 2 หน้าตามการใช้งานคือหน้าเว็บสำหรับรับคำค้นคืนจากผู้ใช้ (Query Page) และหน้าเว็บสำหรับ แสดงผลการค้นคืน (Search Result Page)

อ่านข้อมูลเพิ่มเติมที่ (1)สรรสาร ลุค เว็บไซต์: http://sansarn.com/look/ (2)Mobile Cyber Lab:
http://www.links.nectec.or.th/mobilecyberlab

 
Sansarn Look  
คำอธิบาย: สรรสาร ลุค เป็นโปรแกรมสำหรับพัฒนา และจัดการ ระบบค้นคืนข้อมูลผ่าน Web Browser ผู้ใช้สามารถสั่งให้โปรแกรมสร้างดัชนีจากไฟล์เอกสารที่อยู่บนฮาร์ดดิสก์ของเครื่อง หรือ จะเป็นเอกสารบนเว็บก็ได้โปรแกรมจะทำงานโดยผ่าน Interface ของ Web Browser ดังนั้นจึงทำให้การจัดการ ข้อมูล การสั่งงานรวมทั้งการตั้งค่าต่างๆที่เกี่ยวข้องกับระบบ เป็นไปอย่างง่ายและ สะดวก จุดเด่นของสรรสาร ลุค คือ
ความสามารถในการค้นคืนภาษาไทยได้ถูกต้องและมีความครอบคลุมสูงรวมทั้งยังมีการเพิ่มคุณลักษณะต่างๆ ที่ทำให้การค้นคืนเป็นไปอย่างมีประสิทธิภาพมากยิ่งขึ้นเช่น การแนะนำ คำที่ใช้ค้นคืน (Query Suggestion) เป็นต้น
License:
คำอธิบาย License:
ข้อกำหนดของเครื่อง:หน่วยความจำ 256 Mb ขึ้นไป
ข้อกำหนดของโปรแกรม:ติดตั้ง JavaSDK 1.5 ขึ้นไป
เงื่อนไขการใช้งาน:
เวอร์ชัน:0.1
ขนาด:37.28 MB
ดาวน์โหลด:http://www.sansarn.com/look/
เว็บไซต์:http://www.sansarn.com/look/
mobilecyberlab
คำอธิบายรูปภาพสิทธิการใช้งาน:
Open Source   Free to Try
 
© สงวนลิขสิทธิ์ โดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ พรบ.ลิขสิทธิ์ พ.ศ.2537
112 อุทยานวิทยาศาสตร์ประเทศไทย ถนนพหลโยธิน ตำบลคลองหนึ่ง อำเภอคลองหลวง จังหวัดปทุมธานี 12120

Resolution: 800X600 px.
Supported Browser:
 Firefox Browser Safari Browser Opera Browser Internet Explorer