Long Short-Term Memory-Based Malware Classification Method for Information Security

( 0 đánh giá )
Miễn phí

Sử dụng dữ liệu từ Microsoft Malware Classification Challenge (BIG 2015), gồm 10,868 mẫu mã độc thuộc 9 họ khác nhau.

  • Phân tích mã độc bằng phương pháp tĩnh: trích xuất opcode và tên hàm API từ mã lắp ráp của file thực thi.
  • - So sánh hai phương pháp vector hóa: one-hot encoding (1369 chiều) và word2vec (300 chiều).
  • - Mô hình word2vec giúp giảm chiều dữ liệu, tăng tốc độ học và cải thiện độ chính xác.
  • - Mạng LSTM gồm 2 lớp ẩn, mỗi lớp có 128 nút, sử dụng dropout 0.8 và learning rate 0.001.
  • - Kết quả:
  •   - Độ chính xác cuối cùng của phương pháp word2vec + LSTM đạt 97.59%, cao hơn 0.5% so với one-hot encoding.
  •   - Thời gian học giảm khoảng 10 phút, loss thấp hơn và hội tụ nhanh hơn.
  • - Hạn chế: yêu cầu tài nguyên tính toán cao do sử dụng toàn bộ opcode và API.
  • - Hướng phát triển: chọn lọc các lệnh có ý nghĩa đặc trưng để giảm tải, mở rộng sang phân biệt file bình thường và mã độc.