Phát hiện WhoFi: AI nhận diện người qua Wi-Fi – Tin tức bảo mật mới nhất

Các nhà nghiên cứu đã giới thiệu WhoFi, một quy trình học sâu dựa trên AI tận dụng Thông tin Trạng thái Kênh Wi-Fi (CSI) để tái nhận diện cá nhân (Re-ID), đạt độ chính xác Rank-1 ấn tượng 95.5% trên tập dữ liệu NTU-Fi. Đây là một bước tiến quan trọng trong lĩnh vực an ninh phi trực quan, mang đến những tin tức bảo mật mới nhất về khả năng nhận dạng cá nhân mà không cần dữ liệu hình ảnh.

Hạn Chế Của Hệ Thống Nhận Diện Hình Ảnh Truyền Thống

Các hệ thống Re-ID thị giác truyền thống, phụ thuộc vào mạng thần kinh tích chập (CNNs) và các đặc trưng như biểu đồ màu (color histograms) hoặc biểu đồ gradient hướng (Histograms of Oriented Gradients – HOG), thường gặp khó khăn và giảm hiệu quả đáng kể trong các điều kiện thực tế. Những hạn chế này bao gồm:

  • Che khuất (Occlusions): Khi một phần hoặc toàn bộ đối tượng bị che khuất bởi vật cản (ví dụ: người đi ngang qua, đồ vật), hệ thống thị giác không thể thu thập đủ thông tin để nhận diện chính xác.
  • Thay đổi ánh sáng (Varying Illumination): Sự thay đổi về cường độ và hướng ánh sáng có thể làm thay đổi đáng kể vẻ ngoài của đối tượng, gây nhầm lẫn cho thuật toán.
  • Thay đổi góc nhìn (Viewpoint Changes): Một người trông khác nhau từ các góc nhìn khác nhau, đòi hỏi các hệ thống thị giác phải có khả năng khái quát hóa cao để nhận diện cùng một người từ nhiều góc độ.

Những yếu tố này không chỉ làm giảm độ tin cậy mà còn tạo ra rủi ro bảo mật hệ thống, đặc biệt trong các ứng dụng yêu cầu độ chính xác cao như giám sát an ninh hoặc kiểm soát truy cập.

WhoFi: Cách Tiếp Cận Đột Phá Với Tín Hiệu Wi-Fi

WhoFi khắc phục những vấn đề này bằng cách khai thác các phương thức phi thị giác. Tín hiệu Wi-Fi có khả năng xuyên qua tường và vật cản, cho phép thu thập các dấu hiệu sinh trắc học từ cấu trúc bên trong cơ thể như xương và các cơ quan nội tạng. Điều này được thực hiện thông qua việc phân tích sự biến dạng tín hiệu trong ma trận CSI.

CSI là thông tin chi tiết về cách tín hiệu Wi-Fi lan truyền từ người gửi đến người nhận, bao gồm cả biên độ (amplitude) và pha (phase) của tín hiệu trên từng sóng mang phụ (subcarrier). Khi một người di chuyển trong môi trường Wi-Fi, cơ thể họ gây ra nhiễu loạn và phản xạ tín hiệu, làm thay đổi các đặc tính của CSI. Những thay đổi này là duy nhất đối với chuyển động và cấu trúc cơ thể của từng cá nhân, tạo thành một “dấu vân tay” sinh trắc học vô hình.

Phương pháp này không chỉ nâng cao độ bền vững trong môi trường không bị hạn chế mà còn đảm bảo quyền riêng tư, vì nó tránh thu thập dữ liệu hình ảnh có thể nhận diện được. Điều này là đặc biệt quan trọng trong các ứng dụng nhạy cảm về quyền riêng tư như chăm sóc sức khỏe hoặc giám sát tại nhà.

Đổi Mới Cốt Lõi: Xử Lý Dữ Liệu CSI Với Mô Hình Chuỗi Nâng Cao

Điểm đổi mới cốt lõi của WhoFi nằm ở việc xử lý dữ liệu biên độ và pha thu được từ CSI thông qua các kiến trúc mô hình chuỗi tiên tiến. Các kiến trúc này bao gồm:

  • Long Short-Term Memory (LSTM): Một loại mạng thần kinh hồi quy (Recurrent Neural Network – RNN) có khả năng học các phụ thuộc dài hạn trong dữ liệu chuỗi. LSTM đặc biệt hiệu quả trong việc xử lý các chuỗi dữ liệu phức tạp và biến đổi theo thời gian như CSI.
  • Bidirectional LSTM (Bi-LSTM): Mở rộng của LSTM, xử lý dữ liệu theo cả hai hướng (từ quá khứ đến tương lai và từ tương lai đến quá khứ), cho phép mô hình thu thập ngữ cảnh toàn diện hơn.
  • Transformer encoders: Kiến trúc này sử dụng cơ chế tự chú ý đa đầu (multi-head self-attention) để mô hình hóa các mối tương quan tầm xa một cách hiệu quả. Transformer đã chứng minh hiệu suất vượt trội trong nhiều tác vụ xử lý ngôn ngữ tự nhiên và gần đây được áp dụng rộng rãi cho dữ liệu chuỗi thời gian.

Các kiến trúc này được huấn luyện với một phương pháp mất mát đặc biệt là in-batch negative loss. Mục tiêu của phương pháp này là tối ưu hóa không gian nhúng (embedding spaces) sao cho các mẫu tương tự (ví dụ: cùng một người) được nhóm lại gần nhau, trong khi các mẫu không tương tự (người khác) được đẩy ra xa, tạo điều kiện thuận lợi cho việc so khớp tương tự.

Kiến Trúc Mô-đun Của WhoFi

Kiến trúc mô-đun của WhoFi được thiết kế để xử lý dữ liệu CSI một cách hiệu quả, bao gồm ba giai đoạn chính:

Tiền xử lý dữ liệu (Data Preprocessing)

Giai đoạn này chuẩn bị dữ liệu CSI thô cho quá trình huấn luyện mô hình. Các bước quan trọng bao gồm:

  • Áp dụng bộ lọc Hampel: Loại bỏ các giá trị ngoại lệ (outliers) trong dữ liệu biên độ, giúp làm sạch tín hiệu và giảm nhiễu.
  • Chuẩn hóa tuyến tính (Linear Sanitization): Xử lý bù pha (phase offsets), đảm bảo tính nhất quán của dữ liệu pha giữa các lần thu thập.
  • Tăng cường dữ liệu (Augmentations): Thêm nhiễu Gaussian, điều chỉnh tỷ lệ biên độ (amplitude scaling) và dịch chuyển thời gian (time shifts). Các kỹ thuật này giúp tăng cường khả năng khái quát hóa của mô hình và giảm thiểu nguy cơ quá khớp (overfitting) với dữ liệu huấn luyện cụ thể.

Mô-đun Mã hóa (Encoder Module)

Mô-đun này chịu trách nhiệm trích xuất các biểu diễn tiềm ẩn (latent representations) từ các đầu vào CSI tuần tự. Tùy thuộc vào kiến trúc đã chọn, nó sử dụng:

  • LSTM: Xử lý các phụ thuộc tạm thời thông qua các đơn vị ẩn xếp chồng (stacked hidden units) với điều hòa bỏ học (dropout regularization), giúp mô hình học các mẫu theo thời gian và ngăn ngừa quá khớp.
  • Bi-LSTM: Kết hợp ngữ cảnh hai chiều, cho phép mô hình xem xét cả thông tin trước và sau trong chuỗi CSI, từ đó tăng cường khả năng nhận diện mẫu.
  • Transformers: Sử dụng cơ chế tự chú ý đa đầu với mã hóa vị trí (positional encodings) để mô hình hóa các mối tương quan tầm xa một cách hiệu quả. Cơ chế này cho phép Transformers nắm bắt các phụ thuộc giữa các điểm dữ liệu không liền kề trong chuỗi CSI, điều mà RNNs truyền thống thường gặp khó khăn.

Mô-đun Chữ ký (Signature Module)

Sau khi các biểu diễn tiềm ẩn được trích xuất bởi mô-đun mã hóa, mô-đun chữ ký sẽ chiếu các mã hóa này vào một không gian siêu cầu được chuẩn hóa (normalized hypersphere) bằng cách sử dụng chuẩn hóa L2 (L2 normalization). Điều này tạo điều kiện thuận lợi cho việc tính toán độ tương tự cosin (cosine similarity), một phương pháp phổ biến để đo lường sự giống nhau giữa hai vector trong không gian nhiều chiều.

Cơ Chế Huấn Luyện Và Loss Function

WhoFi được huấn luyện theo các lô (batches) bao gồm các mẫu truy vấn (query samples) và mẫu thư viện (gallery samples). Hàm mất mát in-batch negative loss hoạt động để tối đa hóa sự tương đồng theo đường chéo trong ma trận (các cặp dương tính – cùng một người) trong khi giảm thiểu sự tương đồng ngoài đường chéo (các cặp âm tính – người khác) thông qua entropy chéo (cross-entropy). Điều này cho phép học mở rộng mà không cần gán nhãn cặp rõ ràng trước, giúp quá trình huấn luyện trở nên hiệu quả và linh hoạt hơn.

Cơ chế này giúp mô hình tự động học cách phân biệt giữa các cá nhân chỉ bằng cách so sánh các nhúng (embeddings) được tạo ra từ dữ liệu CSI trong cùng một lô. Đây là một điểm mạnh lớn giúp WhoFi đối phó hiệu quả với các mối đe dọa an ninh mạng liên quan đến nhận dạng không rõ ràng, bằng cách cung cấp một phương pháp nhận diện mạnh mẽ và không xâm phạm.

Đánh Giá Thực Nghiệm và Hiệu Suất Mô Hình

Các đánh giá thực nghiệm trên tập dữ liệu NTU-Fi, bao gồm biên độ CSI từ 14 đối tượng với 840 mẫu được thu thập thông qua các thiết lập MIMO-OFDM (Multiple-Input Multiple-Output Orthogonal Frequency-Division Multiplexing) với 114 sóng mang phụ (subcarriers) và 2000 gói (packets) mỗi mẫu, đã chứng minh sự vượt trội của kiến trúc Transformer.

Transformer đã vượt trội hơn đáng kể so với LSTM và Bi-LSTM về hiệu suất tái nhận diện:

  • LSTM: 77.7% Rank-1, 56.8% mAP (mean Average Precision).
  • Bi-LSTM: 84.5% Rank-1, 61.2% mAP.
  • Transformer: Đạt 95.5% Rank-1, 98.1% Rank-3, 99.1% Rank-5 và 88.4% mAP.

Những số liệu này khẳng định Transformer là kiến trúc hiệu quả nhất để xử lý dữ liệu CSI cho tác vụ Re-ID, nhờ khả năng nắm bắt các phụ thuộc phức tạp trong chuỗi dữ liệu.

Các Nghiên Cứu Ablation và Thấu Hiểu Sâu Sắc

Các nghiên cứu ablation đã mang lại những hiểu biết đáng ngạc nhiên về các yếu tố ảnh hưởng đến hiệu suất của WhoFi:

  • Lọc biên độ (Amplitude Filtering): Việc lọc biên độ bằng bộ lọc Hampel, một bước tiền xử lý thông thường để loại bỏ nhiễu, lại làm giảm nhẹ hiệu suất. Điều này cho thấy nhiễu phân biệt (discriminative noise) có mặt trong dữ liệu biên độ CSI, mà bộ lọc vô tình loại bỏ, thực tế lại chứa thông tin quan trọng giúp phân biệt cá nhân.
  • Tăng cường dữ liệu (Augmentations): Các kỹ thuật tăng cường dữ liệu như thêm nhiễu Gaussian và dịch chuyển thời gian đã giúp cải thiện đáng kể hiệu suất của các mô hình LSTM và Bi-LSTM. Tuy nhiên, chúng chỉ mang lại những cải thiện nhỏ đối với Transformer, cho thấy rằng Transformer vốn dĩ đã có khả năng khái quát hóa tốt hơn và ít phụ thuộc vào các kỹ thuật tăng cường dữ liệu truyền thống.
  • Kích thước gói (Packet Sizes): Transformer hoạt động hiệu quả hơn với các chuỗi dài hơn (lên đến 2000 gói) do hiệu quả của cơ chế tự chú ý (self-attention) trong việc xử lý các phụ thuộc tầm xa. Ngược lại, LSTM có xu hướng gặp phải vấn đề gradient biến mất (vanishing gradients) khi xử lý các chuỗi quá dài, làm giảm khả năng học các mối quan hệ dài hạn.
  • Độ sâu kiến trúc (Deeper Architectures): Việc sử dụng kiến trúc sâu hơn (3 lớp) chỉ mang lại lợi ích nhỏ cho các mô hình hồi quy (LSTM, Bi-LSTM) nhưng lại gây ra hiện tượng quá khớp ở Transformer. Điều này khẳng định hiệu quả của kiến trúc Transformer một lớp cho tác vụ này, đơn giản hóa mô hình mà vẫn duy trì hiệu suất vượt trội.

Chi Tiết Triển Khai và Hướng Đi Tương Lai

Công trình này được triển khai trong PyTorch, sử dụng thuật toán tối ưu Adam và lịch học StepLR trong hơn 300 epoch. Việc này thiết lập một nền tảng tái sản xuất được cho sinh trắc học không dây, cho phép các nhà nghiên cứu khác dễ dàng kiểm chứng và mở rộng công việc.

Bằng cách khai thác tương tác tần số vô tuyến (radio frequency interactions) cho Re-ID, WhoFi mở đường cho các ứng dụng trong môi trường thông minh, từ hệ thống an ninh đến giám sát chăm sóc sức khỏe, nơi những hạn chế về thị giác cản trở việc triển khai các giải pháp truyền thống. Ví dụ, trong hệ thống an ninh, WhoFi có thể cung cấp khả năng giám sát và nhận diện liên tục mà không cần đến camera, giải quyết các vấn đề về quyền riêng tư và hiệu quả trong môi trường phức tạp.

Các mở rộng trong tương lai có thể bao gồm việc tích hợp dữ liệu pha hoặc hợp nhất đa phương thức (multi-modal fusion) để kết hợp CSI với các loại cảm biến khác, từ đó nâng cao hơn nữa độ chính xác trong các kịch bản đa dạng.