การตรวจจับโค้ดที่เป็นอันตรายบนระบบปฏิบัติการมือถือ Detection of Malicious Code on Mobile Operating Systems

หัวหน้าโครงการ: ผู้ช่วยศาสตราจารย์ ดร.กิ่งกาญจน์ สุขคณาภิบาล

Head of Project: Asst. Prof. Kingkarn Sookhanaphibarn (Ph.D.)

งานวิจัยนี้ได้นำเสนอการใช้แบบจำลองการตรวจจับโค้ดอันตรายบนระบบปฏิบัติการของมือถือ โดยใช้ทฤษฏีการเรียนรู้ของเครื่องมีเป้าหมายเพื่อลดความเสี่ยงต่อการติดตั้งโปรแกรมไม่พึงประสงค์ต่างๆ ของผู้ใช้ที่ไม่ได้อัพเดตโปรแกรมแอนติไวรัสทันเวลาThis research presents a model for malware detection on mobile operating system based on machine learning technique. The objective is to reduce the risk of installing harmful application when the user did not update the anti-virus program in time.

ซึ่งแบบจำลองที่ได้นำเสนอนี้ต่างจากโปรแกรมแอนติไวรัส ทั่วไปตรงที่ โปรแกรมแอนติไวรัสทั่วไปนิยมใช้หลักการของการตรวจจับรูปแบบสายอักษรที่เฉพาะเจาะจงที่ฝังในโปรแกรมเพื่อระบุว่าโปรแกรมนั้นอันตรายหรือไม่ แต่หลักการของการตรวจจับรูปแบบสายอักษรที่เฉพาะเจาะจงนั้น ทุกๆครั้งที่มีไวรัสหรือโค้ดอันตรายตัวใหม่ขึ้นมา ผู้ใช้จำเป็นต้องอัพเดตโปรแกรมแอนติไวรัสเสมอ ซึ่งเมื่อไรก็ตามที่ผู้ใช้พลาดการอัพเดตให้ทันเวลาก็จะตกเป็นเป้าของไวรัสตัวใหม่เสมอ ในขณะที่แบบจำลองที่นำเสนอได้ใช้เทคนิคการเรียนรู้ของเครื่อง ในการรู้จำกลุ่มของโค้ดอันตรายทำให้ยังคงตรวจจับโค้ดอันตรายได้ถึงแบบว่าโค้ดอันตรายตัวใหม่ได้มีรูปแบบแตกต่างไปบ้างก็ตาม

ขั้นตอนในการดำเนินการวิจัยเริ่มจาการ (1) รวบรวมแอปพลิเคชันบนระบบปฏิบัติการแอนดรอยด์ทั้งแอปพลิเคชันปกติและแอปพลิเคชันที่เป็นอันตราย (2) การสกัดคุณลักษณะ โดยวิเคราะห์การกระจายตัวของความถี่ของไบต์เอ็นแกรม ค่าความถี่ของเทอมและค่าความผกผันของเทอม ซึ่งในงานวิจัยนี้ n มีค่าเท่ากับ 3 (3) สร้างโมเดลของการจำแนกโค้ดอันตรายจากใช้คุณลักษณะที่ได้ทั้งในส่วนของแอปพลิเคชันปกติและแอปพลิเคชันที่เป็นอันตราย

ในการทดลองได้ใช้โค้ดอันตรายจำนวน 304 โค้ด และโค้ดปกติจำนวน 553 โค้ด สำหรับการสร้างโมเดลของการจำแนกโค้ดอันตราย และสำหรับการทนต่อโค้ดอันตรายใหม่ที่ไม่ได้อยู่ในฐานข้อมูล พบว่าโมเดลที่ได้นำเสนอนั้นมีร้อยละความแม่นยำมากกว่า 85.52 ในขณะที่ร้อยละค่าความไว และร้อยละความจำเพาะมีค่าเท่ากับ 71.26 และ 90.52 ตามลำดับ

The proposed model is different to other anti-virus is that most of anti-virus software used virus signature to identify malware. However, the virus signature-based detection approach requires frequent updates of the virus signature dictionary. The signature-based approaches are not effective against new, unknown viruses while the proposed model based on machine learning can detect new malware even some parts of the code have been modified.

The research processes are as follows: (1) achieving of both malicious and benign codes on android operating system, (2) Extracting features based on the distribution of n-grams frequency and TF Inverse Document Frequency (TFIDF) where the parameter n = 3 is used, and (3) constructing a model for classification the malicious codes using the extracted features for both malicious and benign codes.

In the experiment, 304 malicious codes and 553 benign codes were using to construct the model. The experiment shows that the model achieved more than 85.52% accuracy. For the sensitivity and specificity, the model achieved 90.52% and 71.26%, respectively.

This project is fully supported by Thailand Research Fund (TRF) in 2013.โครงการนี้ได้รับทุนสนับสนุนจากสำนักคณะกรรมการสภาวิจัยแห่งชาติ (วช.) ใน ปี 2556