Sandbox & Phòng sạch dữ liệu
Thử nghiệm tích hợp + phân tích privacy-preserving trên dữ liệu nhạy cảm mà không sao chép gốc
Thử nghiệm an toàn
Dữ liệu mẫu ẩn danh + API endpoint giống production · Miễn phí 1.000 calls · Không tính quota
Phân tích không sao chép
Truy vấn trực tiếp trên dữ liệu gốc mà không cần sao chép
Zero data leakage
Chỉ kết quả tổng hợp rời Clean Room · Không export raw · Audit đầy đủ · NDAChain
Sandbox Sessions
Clean Room Sessions
Phân tích rủi ro tín dụng SME
Cross-reference dân cư & y tế
Các trường hợp sử dụng Clean Room
Phù hợp cho phân tích dữ liệu nhạy cảm mà không vi phạm quyền riêng tư
Dịch tễ học
Phân tích xu hướng bệnh trên dữ liệu y tế 91M người có BHYT mà không lộ hồ sơ cá nhân
Đánh giá tín dụng
Chấm điểm rủi ro tín dụng SME dựa trên dữ liệu BHXH + thuế + ngân hàng mà không hợp nhất DB
Quy hoạch đô thị
Dự đoán mật độ dân cư theo khu vực từ dữ liệu cư trú + giao thông với k-anonymity ≥500
Giải thích thuật ngữ bảo mật
Hiểu rõ 4 tham số chính của Phòng sạch dữ liệu (Clean Room)
Cường độ bảo mật (ε / Epsilon)
Kiểm soát độ mạnh của quyền riêng tư. Hệ thống thêm nhiễu ngẫu nhiên vào kết quả query: ε càng nhỏ → nhiễu càng lớn → cá nhân càng khó bị lộ, nhưng kết quả kém chính xác hơn.
💡 ε = 1.0 là mức tiêu chuẩn — bảo mật mạnh mà vẫn đủ chính xác cho phân tích thống kê.
Xác suất rò rỉ (δ / Delta)
Xác suất nhỏ mà cơ chế bảo vệ có thể thất bại. Cặp (ε, δ) cùng nhau đảm bảo: với xác suất ≥ (1−δ), kết quả không lộ thông tin cá nhân nhiều hơn mức ε cho phép.
💡 δ = 1e-5 nghĩa là 1/100.000 query có thể rò rỉ — đây là chuẩn công nghiệp.
k-ẩn danh (k-anonymity)
Mỗi bản ghi trong kết quả phải ẩn trong nhóm có ít nhất k cá nhân giống nhau về các thuộc tính nhận dạng (tuổi, giới, địa chỉ...). Nếu không đủ, query sẽ bị từ chối hoặc gom nhóm lớn hơn.
💡 k ≥ 100 nghĩa là mỗi người ẩn trong đám đông ≥100 người — rất khó nhận diện cá nhân.
Hạn mức riêng tư (Privacy Budget)
Tổng lượng ε được phép tiêu thụ trong một session. Mỗi query tiêu một phần hạn mức. Khi dùng hết, session đóng để ngăn rò rỉ tích lũy khi chạy quá nhiều query.
💡 Ví dụ: budget = 5.0 ε · query 1 tiêu 0.08 · query 2 tiêu 0.12 · ... khi cạn phải mở session mới.