El aprendizaje federado es una metodología emergente que permite entrenar modelos de inteligencia artificial (IA) de manera distribuida sin necesidad de centralizar los datos: en lugar de recopilar los datos de usuarios en un servidor central, los dispositivos locales colaboran para entrenar el modelo manteniendo los datos en sus ubicaciones originales, lo que proporciona una ventaja significativa en términos de privacidad, ya que los datos nunca abandonan, por ejemplo, el teléfono móvil del usuario, lo que facilita también el cumplimiento de regulaciones como el Reglamento General de Protección de Datos (RGPD) y el Reglamento de Inteligencia Artificial (RIA).
En esta técnica de aprendizaje, múltiples participantes (por ejemplo, dispositivos móviles, sensores y actuadores dentro del ecosistema IoT o incluso diferentes instituciones, como las universidades) entrenan el modelo de IA con sus propios datos en sus servidores, de modo que sólo se comparten las actualizaciones del modelo, como los pesos y gradientes. Esto, que puede ser una solución, no está exenta de riesgos en cuanto a la formalización de la arquitectura en tanto que el modelo debe ser capaz de manejar una variedad de tipos de datos distribuidos de manera no uniforme, por lo que los sesgos o las carencias representativas pueden estar presentes, razón por la que antes de empezar a entrenar es necesario saber con qué clase de datos se está contando y cómo, una vez que empiezan a generar salidas, pueden corregirse.
Pero, además, el aprendizaje federado no está exento de riesgos en tanto que los atacantes pueden intentar acceder a la información sensible de los usuarios mediante diferentes vectores de ataque que pueden comprometer la privacidad en el aprendizaje federado, como los ataques de inferencia que permiten obtener información sobre los datos personales de los usuarios a partir de las actualizaciones del modelo. Por ejemplo, si un atacante tiene acceso a los gradientes del modelo podría deducir patrones o información privada de los datos sin verlos directamente. También estos sistemas pueden ser susceptibles de sufrir ataques de reversión de modelo que implican la reconstrucción de los datos originales a partir del modelo entrenado. Dado que los modelos federados son iterativos y los parámetros del modelo pueden reflejar las distribuciones y características de los datos, es posible que un atacante pueda recuperar información sensible a partir de un modelo entrenado.
El aprendizaje federado no está exento de riesgos en tanto que los atacantes pueden intentar acceder a la información sensible de los usuarios
Por estas razones, las actualizaciones del modelo deben cifrarse y enmascararse de manera que, incluso si son interceptadas, no revelen información sensible y, en este sentido, el encriptado homomórfico es una de las técnicas más prometedoras ya que permite realizar cálculos en datos cifrados sin necesidad de descifrarlos, lo que reduce el riesgo de exposición de datos privados.
Otra técnica útil es la privacidad diferencial, que consiste en añadir ruido a las actualizaciones del modelo para garantizar que los datos individuales no puedan ser identificados, incluso si se conoce el modelo global.
Por último, y ya sobre el modelo entrenado, podemos aplicar la regularización, que es un enfoque utilizado para prevenir que el modelo se sobreajuste a los datos de entrenamiento de los participantes y acabe reflejando demasiado las características específicas de los datos locales, facilitando la reversión, o el pruning, que consiste en eliminar ciertos parámetros o neuronas en las redes neuronales que no contribuyen significativamente al rendimiento del modelo, lo que hace aumentar la dificultad de un atacante a la hora de recuperar información sobre los datos originales.
En definitiva, aunque el aprendizaje federado diluye riesgos asociados a filtraciones masivas de datos en caso de acceso no autorizado y ofrece una mayor resiliencia al poder seguir funcionando si cae alguno de los participantes y una mejor escalabilidad y eficiencia, ya que permite que el modelo se entrene de manera distribuida, sin sobrecargar un servidor central, no está exento de desafíos, por lo que es importante saber cuál es el objetivo del modelo, quiénes serán los participantes y con qué taxonomía de datos se cuenta y qué estrategias se van a seguir a la hora de implementar controles de privacidad y seguridad.