Efficient Multimedia Big Data Anonymization

( 0 đánh giá )
Miễn phí

Vấn đề:

     • Các mô hình k-anonymity và l-diversity truyền thống không hiệu quả với dữ liệu lớn đa phương tiện.

     • Quá trình ẩn danh tốn thời gian, bộ nhớ và đòi hỏi người dùng có kiến thức chuyên sâu.

   - Giải pháp đề xuất:

     • Giảm thời gian và bộ nhớ bằng cách sử dụng database view thay vì bảng tạm vật lý.

     • Xây dựng taxonomy sớm ngay từ giai đoạn thiết kế cơ sở dữ liệu.

   - Cơ chế giảm bộ nhớ:

     • Chỉ lưu trữ các thuộc tính cần ẩn danh (QID) thay vì toàn bộ bảng.

     • Tính toán lượng bộ nhớ tiết kiệm bằng công thức Ts dựa trên số bảng, số thuộc tính, số dòng và kích thước thuộc tính.

     • Ví dụ: tiết kiệm 17GB khi áp dụng cho cơ sở dữ liệu bệnh viện gồm bảng bệnh nhân và nhân viên.

   - Cơ chế giảm thời gian:

     • Chỉ đọc các thuộc tính QID thay vì toàn bộ dòng.

     • Sử dụng kỹ thuật prefetching và truy vấn SQL tối ưu.

   - Xây dựng taxonomy sớm:

     • Thêm bước phân loại thuộc tính và xây dựng cây phân cấp giá trị trong giai đoạn thiết kế logic.

     • Cung cấp công cụ GUI cho nhà thiết kế để gán nhãn QID, thông tin nhạy cảm, không nhạy cảm.

     • Tạo cây taxonomy theo từng bảng và thuộc tính, lưu dưới dạng file ngoài.

   - Quy trình ẩn danh:

     • Chọn bảng → xác định loại ẩn danh (thuần/tạm thời) → điều chỉnh phân loại và taxonomy → chọn giá trị k → tính toán mất mát thông tin (ILoss) → thực hiện k-anonymity → kiểm tra đa dạng → nếu chưa đạt, thực hiện l-diversity.

     • Công thức tính ILoss dựa trên số lượng hậu duệ và tổng số giá trị miền.

   - Công cụ phần mềm:

     • Kiến trúc client-server, sử dụng PHP, MySQL, ODBC, hỗ trợ Excel, Google Sheet.

     • Giao diện đơn giản, người dùng không cần kiến thức chuyên sâu.

   - Đánh giá thực nghiệm:

     • 10 người dùng không chuyên đánh giá mức độ dễ sử dụng (MOS): Q1 = 6.8 (khó), Q2 = 6.1 (tiện lợi), Q3 = 5.9 (muốn sử dụng).

     • 5 chuyên gia tiết kiệm thời gian đáng kể khi dùng phương pháp đề xuất (giảm từ 3–4 giờ xuống còn ~1 giờ).

   - Hạn chế:

     • Nhà thiết kế cơ sở dữ liệu phải thực hiện thêm công việc phân loại và xây dựng taxonomy.

     • Cần phát triển thêm công cụ hỗ trợ để giảm gánh nặng cho nhà thiết kế.