resume : Révision et corrections

This commit is contained in:
Manos Katsomallos 2022-01-10 15:27:05 +01:00
parent 099faeac10
commit 1d71ea2854

View File

@ -1,24 +1,30 @@
\chapter{Résumé}
\label{ch:res}
Les capteurs, les appareils portables et les services basés sur la localisation génèrent quotidiennement des quantités massives de données géolocalisées et/ou liées à la localisation et aux utilisateurs.
La manipulation de ces données est utile dans des nombreux domaines d'application, e.g.,~la santé, les bâtiments intelligents, et la surveillance du trafic.
Un pourcentage élevé de ces données contient des informations sur les activités des utilisateurs et d'autres détails personnels, et donc leur manipulation et leur partage soulèvent des inquiétudes quant à la confidentialité des personnes concernées.
Cependant, la manière continue avec laquelle les données sont générées et la haute disponibilité de sources d'information externes posent davantage de menaces et ajoutent des défis supplémentaires au problème.
Il est donc essentiel de concevoir des solutions qui non seulement garantissent la protection de la confidentialité, mais qui offrent également une configurabilité pour tenir compte des préférences des utilisateurs.
Les capteurs, les appareils portables et les applications crowdsensing génèrent quotidiennement des quantités massives de données, généralement géolocalisées, liées aux utilisateurs.
La manipulation de ces données est utile dans de nombreux domaines d'application, notamment la surveillance du trafic, les bâtiments intelligents, et la santé.
Un pourcentage élevé de ces données contiennent des informations sur les activités des utilisateurs et d'autres détails personnels, et donc leur manipulation et leur partage soulèvent des inquiétudes quant à la confidentialité des personnes concernées.
Pour permettre le partage sécurisé---du point de vue de la confidentialité des utilisateurs---des données, les chercheurs ont déjà proposé diverses techniques fondamentales pour la protection de la confidentialité des utilisateurs tout en tenant compte de l'utilité et de la qualité des données.
Cependant, la manière continue avec laquelle les données sont générées de nos jours et la haute disponibilité des sources d'information externes, posent plus de menaces et ajoutent des défis supplémentaires au problème en raison de la présence inévitable de la corrélation des données.
Il est donc essentiel de concevoir des solutions qui garantissent une protection suffisante de la confidentialité des utilisateurs et maximisent l'utilité des données, tout en offrant une configurabilité en tenant compte du contexte et des préférences des utilisateurs.
Dans cette thèse, nous étudions la littérature concernant la confidentialité des données dans la publication de données en continu, et rapportons les solutions proposées, avec un accent particulier sur les solutions concernant la localisation ou les données géo-référencées.
En fait, une multitude d'algorithmes ont été proposés pour la publication de données préservant la confidentialité, que ce soit pour des microdonnées (c.a.d. les données personnelles brutes) ou des données statistiques.
Initialement, nous étudions la littérature concernant la confidentialité des données dans la publication de données en continu, et rapportons les solutions proposées, avec un accent particulier sur les solutions concernant la localisation ou les données géo-référencées.
En fait, une multitude d'algorithmes ont été proposés pour la publication de données préservant confidentialité, que ce soit pour des microdonnées ou des données statistiques.
Dans ce contexte, nous cherchons à offrir un guide qui permettrait aux lecteurs de choisir en conséquence le ou les algorithmes appropriés pour leur cas d'utilisation spécifique.
Nous donnons un aperçu des propriétés temporelles des algorithmes, par exemple, e.g.,~s'ils fonctionnent sur des données finies ou infinies, ou s'ils prennent en considération toute dépendance sous-jacente aux données.
Nous donnons un aperçu des propriétés temporelles des algorithmes, par exemple, e.g.,~s'ils fonctionnent sur des données finies ou infinies, ou s'ils prennent en considération tout type sous-jacent de corrélation de données.
Après avoir discuté de la littérature sur la publication continue des données, nous proposons un nouveau type de confidentialité des données, appelé \emph{confidentialité {\thething}}.
Nous soutenons que dans la publication continue de données, les événements ne sont pas aussi importants en termes de confidentialité et, par conséquent, ils devraient affecter différemment le traitement préservant la confidentialité.
La confidentialité différentielle est un paradigme bien établi dans la publication de séries chronologiques préservant la confidentialité.
Cependant, les schémas de confidentialité différentielle existants protègent soit un seul horodatage, soit toutes les données par utilisateur ou par fenêtre dans la série temporelle, mais en considérant tous les horodatages comme également significatifs.
Le nouveau schéma que nous proposons, confidentialité {\thething}, est basé sur la confidentialité différentielle, mais prend également en compte les événements significatifs (\emph{\thethings}) dans la série chronologique et alloue le budget de confidentialité disponible en conséquence.
Nous concevons trois schémas de confidentialité qui garantissent la confidentialité {\thething} et les étendons davantage afin de fournir une protection de confidentialité plus robuste à l'ensemble {\thething}.
Nous évaluons notre proposition sur des ensembles de données réelles et synthétiques et évaluons l'impact sur l'utilité des données en mettant l'accent sur les situations en présence de corrélation temporelle.
Les résultats de l'évaluation expérimentale et de l'analyse comparative de la confidentialité {\thething} valident son applicabilité à plusieurs scénarios de cas d'utilisation avec et sans la présence de corrélation temporelle.
Par la suite, nous proposons un nouveau type de confidentialité des données, appelé \emph{confidentialité {\thething}}.
Nous observons que dans la publication de données en continu, les événements ne sont pas également importants en termes de confidentialité et devraient donc affecter différemment le traitement préservant la confidentialité.
La confidentialité différentielle est un paradigme bien établi dans la publication de séries temporelles préservant la confidentialité.
Les niveaux de protection existants de la confidentialité différentielle protègent soit un seul horodatage, soit toutes les données par utilisateur ou par fenêtre dans la série temporelle ; cependant, en considérant tous les horodatages comme également significatifs.
La nouvelle notion que nous proposons, confidentialité {\thething}, est basée sur la confidentialité différentielle et alloue le budget de confidentialité disponible à chaque horodatage tout en tenant compte des événements significatifs (\emph{\thethings}) dans la série temporelle.
Cela permet une meilleure utilité des données en optimisant l'allocation du budget de confidentialité et en évitant ainsi l'injection de bruit inutile dans les publications de données.
Nous concevons trois schémas de confidentialité {\thething} et les étendons davantage en améliorant la protection de la confidentialité de l'ensemble {\thething} avec la conception d'un module de sélection de {\thething} factice qui rend les {\thethings} réels indiscernables avec l'ajout d'événements réguliers à l'ensemble de {\thethings}.
Enfin, nous évaluons les schémas de confidentialité {\thething} proposés et le module de sélection de {\thethings} factices sur des ensembles de données réelles et synthétiques.
Nous évaluons l'impact sur l'utilité des données pour plusieurs distributions de {\thethings} possibles, en mettant l'accent sur les situations en présence de corrélation temporelle.
Dans l'ensemble, les résultats de l'évaluation expérimentale et de l'analyse comparative de la confidentialité {\thething} valident son applicabilité à plusieurs scénarios de cas d'utilisation et montrent l'amélioration, en termes d'utilité des données, par rapport aux niveaux de protection de la confidentialité existants.
En particulier, le module de sélection de {\thething} factice assure une meilleure protection {\thething}, provoquant seulement une baisse mineure de l'utilité des données.
En termes de corrélation temporelle, nous observons que sous une corrélation modérée et forte, une distance moyenne plus grande entre les événements réguliers et {\thething} entraîne une perte globale de confidentialité plus importante.
\paragraph{Mots clés :}