|
สรรสาร ลุค ถูกพัฒนาต่อยอดมาจากลูซีน (Lucene) ซึ่งเป็นต้นรหัสซอฟต์แวร์ แบบเปิดที่ใช้สำหรับ พัฒนาระบบและแอพพลิเคชั่นที่ เกี่ยวกับการค้นคืนข้อมูลโดยเฉพาะ
โดยทางทีมสรรสาร ซึ่งมีความรู้และ ความเชี่ยวชาญในการวิเคราะห์และประมวลผลภาษาไทยได้ทำการพัฒนาต่อยอดในส่วนของการวิเคราะห์ภาษาไทย (ThaiAnalyzer)
รวมทั้งมีการเพิ่มคุณลักษณะต่างๆ ทางภาษาไทย ซึ่งสามารถช่วยผู้ใช้ใน การค้นคืนข้อมูล
ได้มีประสิทธิภาพมากยิ่งขึ้น โครงสร้างทาง สถาปัตยกรรม ของระบบ แบ่งออกเป็น 2 ส่วน
คือ ส่วนของลูซีน (Lucene API) และ ส่วนของสรรสาร(Sansarn Functions) ในส่วนของสรรสารนั้น มีรหัสโปรแกรมต่างๆที่สามารถแบ่งตามหน้าที่ได้เป็น 4 ส่วนคือ
Collector: มีหน้าที่เก็บเอกสารซึ่งอยู่ในรูปแบบ (Format) ต่างๆ เช่น HTML, PDF, DOC
ทั้งที่อยู่ในเครื่อง(Local) และ ที่อยู่ห่างไกลออกไป (Remote) ได้แก่เอกสารบนเว็บผ่าน
ทาง HTTP
Parser: มีหน้าที่ในการวิเคราะห์และสกัดเอาส่วนที่เป็นข้อความจากเอกสารในรูปแบบ(Format) ต่างๆ ทั้งนี้ยังรวมถึงการตัด tag ทั้งหมดออกจากเอกสารประเภท HTML และ XML
Indexer: มีหน้าที่ในการสร้างดัชนีของคำจากเอกสาร โดยการเรียกใช้รหัสโปรแกรมพื้นฐาน
ของลูซีน โปรแกรมในส่วน Indexer นี้ช่วยให้การสร้างดัชนีเป็นไปอย่างกึ่งอัตโนมัติคือ
เริ่มจากผู้ใช้สร้างไฟล์ configuration ซึ่งกำหนด field ต่างๆและประเภทของดัชนีในแต่ละ
field แล้วจึงสั่งให้โปรแกรมนี้ทำการสร้างดัชนีโดยอัตโนมัติต่อไป
Searcher: มีหน้าที่ในการสร้างหน้าเว็บที่ใช้ในการค้นคืนซึ่งแบ่งออกเป็น 2 หน้าตามการใช้งานคือหน้าเว็บสำหรับรับคำค้นคืนจากผู้ใช้ (Query Page) และหน้าเว็บสำหรับ
แสดงผลการค้นคืน (Search Result Page)
อ่านข้อมูลเพิ่มเติมที่
(1)สรรสาร ลุค เว็บไซต์: http://sansarn.com/look/
(2)Mobile Cyber Lab:
http://www.links.nectec.or.th/mobilecyberlab |