ระบบสืบค้นบูรณาการข้อมูลงานวิจัยและนักวิจัย
(Thailand's Research Information Portal and Search Engine: ThaiReSearch)
หัวหน้าโครงการ ดร.ชูชาติ หฤไชยะศักดิ์
ระยะเวลา 2 ปี (2550 - 2551)
รายละเอียดโครงการ
เนื่องมาจากความจำเป็นในการพัฒนาประเทศไทยให้มีความก้าวหน้าทางวิทยาศาสตร์ และเทคโนโลยีในสาขาต่างๆ รัฐบาลไทยทั้งในอดีตที่ผ่านมาและในปัจจุบันได้ให้การสนับสนุนการ
ให้ทุนการ ศึกษาและทุนวิจัยเป็นจำนวนมาก ทั้งนี้การให้ทุนต่างๆเหล่านี้จะมีหน่วยงานที่รับผิดชอบอยู่หลายแห่งด้วยกัน เช่นสำนักงานก.พ. กระทรวงวิทยาศาสตร์และเทคโนโลยี สถาบันการศึกษาต่างๆ เป็นต้น ดังนั้นทำให้ข้อมูลนักวิจัยและงานวิจัยที่เกี่ยวข้องมีอยู่อย่าง กระจัดกระจาย ที่ผ่านมานั้นการค้นหาข้อมูลเกี่ยวกับนักวิจัยและงานวิจัยนั้นเป็นไปได้ยาก เนื่องจากยังไม่มีหน่วยงานใดพัฒนาระบบสารสนเทศที่สามารถเชื่อมโยงข้อมูล เหล่านี้ไว้ในที่เดียวกันได้ หรืออาจจะมีแต่ไม่ครอบคลุมเพียงพอ ดังนั้นเป้าหมายหลักของโครงการนี้คือ การออกแบบและพัฒนาระบบสืบค้นบูรณาการข้อมูลงานวิจัยและนักวิจัยในประเทศไทย ทั้งนี้ข้อมูลที่จะทำการเชื่อมโยงจะมาจากหลายแหล่งด้วยกันเช่น ข้อมูลนักวิจัยและโครงการวิจัยของสำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) ข้อมูลโครงการวิจัยของสำนักงานคณะกรรมการวิจัยแห่งชาติ (วช.) ข้อมูลเอกสารสิทธิบัตรจากกรมทรัพย์สินทางปัญญา ฐานข้อมูลวิทยานิพนธ์และงานวิจัยตีพิมพ์
ที่รวบรวมโดยศูนย์บริการสารสนเทศทาง เทคโนโลยีของสวทช. และงานวิจัยตีพิมพ์มากมายที่อยู่บนเว็บ เป็นต้น ระบบนี้จะเปิดให้บริการเป็นเว็บไซต์สาธารณะเพื่อให้นักวิจัย ผู้บริหารและนักวิเคราะห์ที่เกี่ยวข้องสามารถสืบค้นข้อมูลต่างๆที่ เกี่ยวข้องกับการวิจัยในประเทศไทยได้อย่างสะดวกและรวดเร็วในที่เดียว (One-Stop Information Service) โดยระบบนี้จะมีการออกแบบให้สามารถสืบค้นข้อมูลได้ทั้งที่เป็นภาษาไทยและ อังกฤษระบบยังสามารถรองรับข้อมูลในรูปแบบที่มีโครงสร้างแน่นอน(structured) และแบบไร้โครงสร้าง(unstructured)ได้ โดยการผสมผสานกันระหว่างระบบจัดการฐานข้อมูล (DataBase Management System - DBMS) และระบบค้นคืนข้อมูล (Information Retrieval System) นอกจากนี้ระบบยังมีหน่วยวิเคราะห์ข้อมูลอัจฉริยะ (Intelligent Information Analysis) ที่ทำหน้าที่ในการวิเคราะห์ข้อมูลเชิงสถิติ (Statistical Analysis) การแสดงผลข้อมูลในเชิงกราฟฟิก(Information Visualization) เทคนิคการประมวลผลภาษาธรรมชาติ (Natural Language Processing - NLP) และการทำเหมืองข้อความ (Text Mining) เป็นต้น ประโยชน์ที่จะได้จากการใช้ระบบนี้คือ ทำให้ผู้บริหารสามารถมองเห็นภาพรวมการวิจัยในประเทศไทยได้ เช่นสามารถค้นหาจำนวนผู้เชี่ยวชาญทางสาขาเฉพาะด้านสำหรับนักวิเคราะห์ก็ สามารถประเมินแนวโน้มการทำวิจัยในหัวข้อต่างๆรวมทั้งใน หัวข้อที่ยังขาดแคลนได้ นอกจากนี้ยังช่วยในการจัดนักวิจัยให้ตรงกับคลัสเตอร์อุตสาหกรรมในปรเทศได้ และประเมินความสามารถในการแข่งขันทางเทคโนโลยีกับประเทศอื่นๆได้ สำหรับนักวิจัยก็สามารถค้นหางานวิจัยตีพิมพ์และค้นหาข้อมูลสิทธิบัตรก่อน ดำเนินการวิจัยได้ ในปีที่ 2 ของโครงการจะมีการปรับปรุงเพิ่มฟังก์ชั่นการใช้งานให้กับระบบมากยิ่งขึ้น โดยจะมีการออกแบบ วิจัยและพัฒนาระบบเพิ่มขึ้น 3 ระบบได้แก่ (1) ระบบสืบค้นผู้เชี่ยวชาญ (Expert Finder) (2) ระบบคลังความรู้ขององค์กร (Institutional Repository) สำหรับภาษาไทย และ (3) โปรแกรมสรรสารออฟไลน์ (Sansarn Offline) สำหรับระบบสืบค้นผู้เชี่ยวชาญจะเป็นการต่อยอดจากระบบฐานข้อมูลนักวิจัยที่ ได้จากปีที่ 1 ระบบสืบค้นผู้เชี่ยวชาญจะสามารถทำการประมวลผลและวิเคราะห์ความเชี่ยวชาญตาม สาขาต่างๆ โดยแบ่งตามนักวิจัยหรือหน่วยงานได้ และเพื่ิิอให้การใช้งานเป็นไปอย่างง่ายและสะดวก จะมีการใช้เทคนิคเครือข่ายเชิงสังคม (Social Network) ผนวกกับเทคนิคจินตทัศน์ (Information Visualization) ในลักษณะของกราฟได้ โดยที่โหนด จะเป็นนักวิจัยหรือหน่วยงานและมีลิงค์เชื่อมโยงไปยังนักวิจัยหรือหน่วยงาน ที่มีความเชี่ยวชาญที่เหมือนหรือใกล้เคียงกัน เช่น หน่วยงาน A อาจจะมีเชื่อมโยงไปยัง หน่วยงาน B เนื่องจากทั้งสองหน่วยงานนี้มีนักวิจัยที่มีความเชี่ยวชาญทางด้านใกล้กันมาก นอกจากนี้ในปีที่ 2 จะมีการออกแบบและพัฒนาระบบคลังความรู้ขององค์กร (Institutional Repository) สำหรับภาษาไทย โดยเป็นการพัฒนาต่อยอดจากระบบ DSPACE ของ MIT ซึ่งสามารถจัดเก็บองค์ความรู้ขององค์กรในรูปแบบไฟล์เอกสารและมีการใช้เมทา ดาต้า (Metadata) มาตรฐานของ Dublin Core มากำกับตัวเอกสารทำให้ผู้ใช้สามารถสืบค้นเอกสารได้อย่างมีประสิทธิภาพ ส่วนโปรแกรมสรรสารออฟไลน์ (Sansarn Offline) เป็นเป็นโปรแกรมสำหรับสืบค้นข้อมูลบนอินเตอร์เน็ตแบบไม่เชื่อมต่อโดยที่ ข้อมูลจากเว็บไซต์จะถูกคัดเลือกจากผู้ใช้ เพื่อนำมาจัดเก็บลงในเครื่องคอมพิวเตอร์ จากนั้นผู้ใช้เปิดโปรแกรมเพื่อสร้างสารบัญสำหรับจัดข้อมูลลงตามหมวดหมู่ และุสั่งให้โปรแกรมทำการสร้างฐานดัชนีจากข้อมูลโดยอัตโนมัติ ทั้งนี้ข้อมูลทั้งหมดรวมทั้งฐานดัชนีสามารถนำไปบันทึกบนสื่อดิจิตอลต่างๆได้ ซึ่งจะทำให้สามารถแจกจ่ายไปยังผู้ที่ต้องการใช้ข้อมูลได้ง่าย ดังนั้นโครงการในปีที่ 2 จะมุ่งเน้นการต่อยอดจากระบบบสืบค้นบูรณาการข้อมูลงานวิจัยและนักวิจัยใน ประเทศไทยเดิมที่มีอยู่โดยมีเพิ่ม
ฟังก์ชั่นการใช้งานให้กับระบบในเชิง วิเคราะห์มากขึ้น รวมทั้งยังมีการออกแบบและพัฒนาระบบและโปรแกรมที่สามารถรองรับการจัดเก็บและ สืบค้นข้อมูลในรูปแบบที่หลากหลายได้อย่างมีประสิทธิภาพด้วย
ผลลัพธ์ของโครงการ
1. ระบบต้นแบบ (Prototype)
1.1 ต้นแบบภาคสนาม (Field Prototype) ระบบสืบค้นข้อมูลนักวิจัยและโครงการวิจัย (Researcher and Research Project Search Engine): เป็นระบบระบบสืบค้นข้อมูลที่เปิดเป็นสาธารณะที่ httpp://www.thairesearch.in.th โดยที่ผู้ใช้สามารถใช้คำสำคัญในการสืบค้นชื่อนักวิจัยและโครงการโดยระบุรายละเอียดตาม field เช่น หัวเรื่องและบทคัดย่อ เป็นต้น เทคนิคหลักที่ใช้ในระบบคือ การสืบค้นข้อมูลและการจัดการฐานข้อมูล ในโครงการนี้มีการผสมผสานกันระหว่างข้อมูลหลากหลาย ชนิดทั้งที่มีโครงสร้างแน่นอน (Structured) และแบบไร้โครงสร้าง (Unstructured) ดังนั้นการเชื่อมโยงฐานข้อมูลจะต้องมีการออกแบบระบบแบบผสมผสานกันระหว่าง เทคนิคการจัดการฐานข้อมูล (DBMS) และเทคนิคการสืบค้นข้อมูล (Information Retrieval) ระบบค้นคืนและวิเคราะห์ข้อมูลสิทธิบัตรไทยอัจฉริย (I-Pats: Intelligent Search System for Thai Patents): เป็นระบบค้นคืนข้อมูลสิทธิบัตรไทยที่มีประสิทธิภาพ สามารถใช้ในการค้นคืนข้อมูลสิทธิบัตร(และอนุสิทธิบัตร)ไทย ตามชื่อ บทคัดย่อ ผู้ประดิษฐ์ ผู้ยื่นขอ วันที่ หมายเลข IPC เป็นต้น และใช้ในการวิเคราะห์ข้อมูลทางสถิติ และแสดงข้อมูลด้วยภาพ เพื่อประโยชน์ในการวิเคราะห์คู่แข่งขัน (Competitive Analysis) และหาพันธมิตรร่วมวิจัย (Research Collaboration) เป็นต้น นอกจากนั้นยังสามารถทำการวิเคราะห์ข้อมูลสิทธิบัตรในระดับเบื้องต้น (คล้ายกับที่มีอยู่ใน Commercial Software เช่น Delphion) สรรสารออฟไลน์: โปรแกรมสำหรับสืบค้นข้อมูลบนอินเตอร์เน็ตแบบไม่เชื่อมต่อ (Sansarn Offline: A Tool for Searching Offline Web Contents): เป็นโปรแกรมสำหรับสืบค้นข้อมูลบนอินเตอร์เน็ตแบบไม่เชื่อมต่อ โดยที่ข้อมูลจากเว็บไซต์จะถูกคัดเลือกจากผู้ใช้ เพื่อนำมาจัดเก็บลงในเครื่องคอมพิวเตอร์ จากนั้นผู้ใช้เปิดโปรแกรมเพื่อสร้างสารบัญสำหรับจัดข้อมูลลงตามหมวดหมู่ และสั่งให้โปรแกรมทำการสร้างฐานดัชนีจากข้อมูลโดยอัตโนมัติ ทั้งนี้ข้อมูลทั้งหมดรวมทั้งฐานดัชนีสามารถนำไปบันทึกบนสื่อดิจิตอลต่างๆได้ เช่น ฮาร์ดดิสค์ แผ่นซีดี/ดีวีดีรอม หรือ Thumb Drive เป็นต้น โปรแกรมนี้เหมาะกับผู้ใช้คอมพิวเตอร์ที่อาศัยอยู่ในพื้นที่ที่ไม่สามารถเชื่อมต่อกับอินเตอร์เน็ตได้หรือมีความเร็วของการเชื่อมต่อต่ำ โดยที่ผู้ใช้สามารถพกพาสื่อดิจิตอลที่มีข้อมูลพร้อมกับฐานดัชนีไปใช้งานกับเครื่องคอมพิวเตอร์ใดก็ได้ที่มีโปรแกรมสรรสารออฟไลน์ลงไว้ การประยุกต์ใช้งานที่น่าจะเป็นประโยชน์คือ การคัดเลือกและจัดทำข้อมูลจากอินเตอร์เน็ตที่เกี่ยวข้องกับรายวิชาต่างๆที่ใช้สอนในชั้นเรียนเพื่อเป็นสื่อการเรียนรู้เพิ่มเติมสำหรับนักเรียน อับดุล:ระบบบริการข้อมูลเชิงบูรณาการผ่านระบบสนทนาออนไลน์ (ABDUL: Universal Information Service via Instant Messaging): เป็นระบบสนทนาโต้ตอบแบบอัตโนมัติกับผู้ใช้ผ่านโปรแกรม Windows Live Messenger ซึ่งให้บริการข้อมูลทางภาษาของหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ได้แก่ ระบบสืบค้นเว็บไซต์ ระบบสืบค้นข่าว ระบบแปลภาษา และพจนานุกรมออนไลน์ นอกจากนี้ยังมีการรายงานสภาพการจราจรของโปรแกรมระบบขนส่งและจราจรอัจฉริยะ รวมถึงข้อมูลพื้นฐานทั่วไป ซึ่งผู้ใช้งานอินเตอร์เน็ตนิยม เช่น ราคาน้ำมัน ราคาทอง หุ้น ตรวจผลสลากกินแบ่งรัฐบาล เพลงออนไลน์ ดูดวง ที่พัก ตำแหน่งงาน ฯลฯ
1.2 ต้นแบบห้องปฏิบัติการ (Lab Prototype) ระบบสืบค้นฐานข้อมูลบทความตีพิมพ์ไทย (Thai Publication Search Engine): เป็นระบบสืบค้นบทความตีพิมพ์ที่เปิดเป็นสาธารณะที่ httpp://www.thairesearch.in.th โดยผู้ใช้สามารถสืบค้นหาบทความได้โดยใช้คำสำคัญและสามารถระบุการสืบค้นตาม ฟิลด์ต่างๆได้ เช่น สามารถสืบค้นบทความที่มีชื่อเรื่องเกี่ยวกับ “data mining” โดยระบุเลือกเฉพาะการประชุมวิชาการ “ECTI-CON” เป็นต้น เทคนิคหลักของระบบคือ การสืบค้นข้อมูลสำหรับภาษาไทย มีการสร้างดัชนีตามฟิลด์ (field) เช่น ชื่อเรื่อง ชื่อผู้แต่ง หน่วยงานในสังกัด บทคัดย่อและเอกสารอ้างอิง เป็นต้น สรรสารดีบี: ระบบค้นคืนเนื้อหาและเอกสารภาษาไทยบนฐานข้อมูล (Sansarn DB: A Thai Full-Text Search on Databases): สรรสารดีบีเป็นระบบสืบค้นเนื้อหาและเอกสารภาษาไทยและภาษาอังกฤษบนฐานข้อมูลโดยพัฒนาต่อยอดจากไลบราลี่ Sphinx ทำให้มีความสามารถในการสร้างดัชนีและค้นคืนเอกสารจากดัชนีได้อย่างมีประสิทธิภาพ สรรสารดีบีถูกออกแบบมาเพื่อรวมตัวระบบเข้ากับฐานข้อมูล MySQL และ PostgreSQL สามารถนำไปประยุกต์ใช้กับงานได้หลายด้าน เช่น ข้อมูลบุคคล ข้อมูลทางการเงิน ระบบบล็อก (Blog) ระบบจัดการเนื้อหาข้อมูล (Content Management System) เป็นต้น ระบบสืบค้นผู้เชี่ยวชาญ (Expert Finder System): ผู้ใช้สามารถค้นหารายชื่อของผู้เชี่ยวชาญที่ต้องการโดยการใส่ชื่อของผู้เชี่ยวชาญท่านนั้นในช่องสืบค้น ระบบจะแสดงเครือข่ายเชิงสังคมของนักวิจัยท่านนั้น โดยผู้ใช้สามารถเลือกที่จะแสดงความสัมพันธ์ในลักษณะที่เป็นผู้เขียนร่วม หรือความสัมพันธ์โดยการใช้คำสำคัญร่วม ในกรณีที่ผู้ใช้ต้องการหารายชื่อของผู้เชี่ยวชาญในสาขาใดสาขาหนึ่ง ผู้ใช้สามารถสืบค้นโดยการใส่สาขาหรือหัวข้อวิจัยที่สนใจในช่องสืบค้น ระบบจะแสดงรายชื่อของผู้เชี่ยวชาญในสาขานั้นโดยเรียงลำดับจากผู้เชี่ยวชาญ ที่มีผลงานตีพิมพ์เกี่ยวกับสาขานั้นจากมากไปน้อย ผู้ใช้สามารถเลือกไปที่ผู้เชี่ยวชาญท่านใดท่านหนึ่ง เพื่อดูเครือข่ายเชิงสังคมของนักวิจัยท่านนั้น
2. สิทธิบัตร (Patent) ยื่นจดสิทธิบัตรเรื่อง อุปกรณ์อิเล็กทรอนิกส์แบบพกพาที่มีฟังก์ชั่นการทำนายคำระหว่างการพิมพ์ข้อความ และวิธีการทำนายคำระหว่างการพิมพ์ข้อความ เลขที่คำขอ 0801002861 วันรับคำขอ 6 มิ.ย. 2551
เว็บไซต์ http://www.thairesearch.in.th