Skip to main content

Projets SIG : série « Considérations sur le triage » : partie 5

Suite de cette série en six parties sur un cadre à six piliers pour aider à naviguer et à hiérarchiser les projets SIG. La partie 5 traite de la compréhension des données. À la fin de la série, vous disposerez d’un guide pratique pour vous aider à trier les projets, ce qui rendra le processus plus fluide et plus facile à gérer. Si vous restez à l’écoute jusqu’à la fin, j’inclurai également pour vous un aide-mémoire.

Comme indiqué dans les parties 12, 3 et 4, il est important de noter que ce cadre se fonde sur mes expériences en tant que conseiller et spécialiste en solutions technologiques. Il s’appuie sur une expérience personnelle sur les projets et l’évaluation des risques connexes et peut ne pas correspondre totalement à la position de votre organisation en matière de technologie, de formation et de capacité, de flux de travaux ou de sécurité et de protection de la vie privée.

Les six piliers du triage de projets SIG

Illustration du cadre de triage comprenant six piliers

Pour revenir à mes billets précédents, ce cadre prend en compte six piliers pour le triage des demandes de projets SIG : 

  • Rendement de l’investissement : Le projet a-t-il un rendement de l’investissement tangible?
  • Risque : Quels sont les risques associés au projet?
  • Intervenants : Quelles sont les capacités requises pour le projet et son maintien tout au long de son cycle de vie typique?
  • Technologie : Quels sont les éléments de technologie ou d’équipement nécessaires à la réussite du projet?
  • Données : Les données impliquées dans le projet sont-elles exactes, sécurisées, accessibles et opportunes?
  • Application et projet : Quels sont les livrables, les résultats et les mesures de réussite du projet? 

Ce billet de blogue traite de la compréhension des données pour une mise en œuvre réussie du projet. 

Exigences en matière de compréhension des données

Image des données

Comprendre les données

Ce sujet est lun des plus longs de cette série. En effet, le concept de données est fondamental pour la réalisation dun projet et pour la réussite ou léchec de celui-ci. 

Comprendre la triade CID (sécurité)

Illustration de la triade de sécurité CID
La triade de sécurité CID

Les responsables des technologies de l’information et les responsables de la sécurité qui lisent ces lignes connaissent bien la triade CID. Pour ceux qui ne connaissent pas le monde de la sécurité de l’information, le sigle « CIA » (version anglaise de CID) ne se réfère pas seulement à une agence d’espionnage qui inspire des romans et des films; c’est un principe fondamental de la cybersécurité qui aide les organisations à trouver un équilibre entre la confidentialité, l’intégrité et la disponibilité des données. L’adoption d’un cadre de sécurité et de protection de la vie privée qui favorise un côté de la triade plus qu’un autre aura une incidence sur tous les autres piliers que j’ai abordés dans des articles précédents.   

  • La confidentialité garantit que les données géospatiales sensibles, telles que l’emplacement des infrastructures essentielles ou les détails en matière de propriété privée, ne sont accessibles qu’aux personnes autorisées. Protéger ces données contre tout accès non autorisé permet d’éviter les utilisations abusives, les atteintes à la vie privée et les menaces à la sécurité. La mise en œuvre de méthodes de cryptage et de contrôles d’accès solides est une pratique essentielle pour préserver la confidentialité.
  • L’intégrité fait référence à l’exactitude et à la fiabilité des données géospatiales. Il est essentiel que les données restent inchangées pendant leur stockage, leur transmission et leur traitement, à moins que des modifications autorisées soient apportées. Afin de garantir l’intégrité des données, il faut utiliser des identités d’utilisateur nommé pour les audits et le contrôle des versions afin de détecter et d’empêcher les modifications non autorisées. Le maintien de l’intégrité des données géospatiales est essentiel pour prendre des décisions précises, car toute corruption ou altération peut conduire à des analyses incorrectes et à des résultats potentiellement néfastes.
  • La disponibilité garantit que les données géospatiales sont accessibles aux utilisateurs autorisés en tout temps. Cela implique la mise en œuvre de déploiements et d’infrastructures ArcGIS Enterprise robustes afin d’éviter les temps d’arrêt et de garantir que les données peuvent être récupérées rapidement et efficacement. Les sauvegardes régulières, les plans de reprise après sinistre et les systèmes redondants sont essentiels pour maintenir la disponibilité. Pour les données géospatiales, qui sont souvent utilisées dans des applications en temps réel telles que la navigation et les interventions d’urgence, une haute disponibilité est essentielle afin de permettre une prise de décision rapide et efficace. 

En fait, si vous avez déjà déployé ArcGIS Enterprise ou ArcGIS Online, vous pouvez lancer notre outil ArcGIS Security and Privacy Adviser gratuit pour vérifier votre mise en œuvre par rapport aux meilleures pratiques en matière de sécurité informatique.  

Image d’exemple d’audit Security Advise

Exemple d’audit Security Adviser

Comprendre la confidentialité

Image d’exemple d’audit Security Adviser

Exemple d’audit Security Adviser

Dans le contexte de la triade CID (confidentialité, intégrité, disponibilité), la confidentialité des données géospatiales peut être définie en évaluant les niveaux de risque des différentes intégrations d’authentification. Les systèmes d’authentification SSO utilisant les protocoles OAuth, SAML, IWA et LDAP, comme Entra, présentent le moins de risque en raison de mécanismes d’authentification robustes. Les identités intégrées aux applications et les identités ad hoc, qui ne sont pas basées sur des identités fédérées, présentent un risque faible à moyen. Les comptes d’utilisateur remplaçant (proxy), souvent utilisés sur des appareils mobiles partagés, présentent un risque élevé en raison de leur utilisation abusive potentielle et de l’absence de responsabilité (comme mentionné dans ce billet de blogue, ces types de comptes ne sont pas pris en charge). Le risque le plus élevé provient des données qui sont sans protection et pour lesquelles un accès anonyme pour consultation et mise à jour est accordé, ce qui entraîne d’importantes violations de confidentialité. 

Si une organisation donne la priorité à la confidentialité, elle risque de mettre en œuvre des mesures de cryptage et des contrôles d’accès trop restrictifs. Si cela protège les données sensibles, cela peut également entraver l’accessibilité et la convivialité, compliquant ainsi l’accès aux données des utilisateurs autorisés lorsque cela est nécessaire. Cela peut aussi ralentir les opérations et les processus de prise de décision, surtout dans les situations où le temps est compté. 

Comprendre l’intégrité – Sécurité

 Illustration du graphique Comprendre l’intégrité – Sécurité
Comprendre l’intégrité – Sécurité

Dans le contexte des meilleures pratiques de sécurité d’ArcGIS, il est essentiel de comprendre comment les données spatiales sont sécurisées au repos, en transit et au point d’arrivée pour maintenir l’intégrité des données. Dans ArcGIS, les données au repos désignent les données stockées dans des bases de données, des systèmes de fichiers ou des espaces de stockage infonuagiques, et leur sécurisation implique l’utilisation du cryptage et des contrôles d’accès pour empêcher les modifications non autorisées. Les données en transit sont des données transférées entre des serveurs, des clients ou des services et nécessitent des protocoles de cryptage tels que HTTPS et des interfaces API sécurisées pour les protéger contre l’interception et la falsification. La sécurité des points de terminaison consiste à protéger les appareils qui accèdent aux données ArcGIS, tels que les ordinateurs de bureau, les appareils mobiles et les serveurs, grâce à des mesures telles que des logiciels antivirus, des configurations sécurisées et des mises à jour régulières afin de garantir que les données restent inchangées. La mise en œuvre de ces mesures de sécurité permet de maintenir la précision et la fiabilité des données spatiales en empêchant les modifications non autorisées qui pourraient en compromettre l’intégrité. 

S’il est essentiel de conserver des données précises et fiables, cela ne doit pas se faire au détriment de l’accessibilité ou de la confidentialité. Par exemple, la mise en œuvre de processus de validation et de vérification étendus afin de garantir l’intégrité des données pourrait ralentir l’accès aux données et les délais de traitement, ce qui aurait un impact sur la disponibilité des données pour les opérations critiques. En outre, si ces processus sont trop stricts, ils risquent de restreindre par inadvertance l’accès aux utilisateurs autorisés, affectant ainsi l’utilisabilité globale des données. 

Comprendre l’intégrité – Sécurité

 Illustration du graphique Comprendre l’intégrité – Gouvernance des donnéesComprendre l’intégrité – Gouvernance des données

Ce sujet mérite d’être abordé en détail, mais il est essentiel de comprendre la gouvernance des données dès le début d’un projet afin de préserver l’intégrité, la sécurité et la conformité des données. Dans ArcGIS, la gouvernance des données consiste à savoir où les données spatiales seront stockées et à définir les rôles clés : le gardien des données (responsable de l’environnement technique), l’intendant des données (qui supervise la qualité des données et les politiques), le propriétaire des données (responsable de l’utilisation des données et de l’accès à ces données) et l’éditeur de données (qui gère les mises à jour des données). Cette clarté garantit que les données spatiales sont gérées avec précision, stockées en toute sécurité et accessibles de manière appropriée, ce qui est essentiel pour une analyse spatiale et une prise de décision efficaces. Une bonne gouvernance permet également de prévenir les violations de données, de garantir la conformité réglementaire et de faciliter une gestion efficace des données, ce qui se traduit par des résultats positifs pour les projets. Une matrice RACI est généralement idéale pour représenter visuellement qui est responsable, qui doit rendre des comptes, qui est consulté et qui est informé en ce qui concerne les données. 

Comprendre la disponibilité – Modèle de données
Illustration du graphique Comprendre la disponibilité – Modèle de données

Comprendre la disponibilité – Modèle de données

Il est essentiel de comprendre comment un projet proposé utilisera les modèles de données, car cela permet de gérer les risques associés aux différents niveaux de changement. Par exemple, l’utilisation de géodatabases et de couches existantes sans modification des schémas présente peu de risques, alors que l’introduction de nouveaux schémas à des géodatabases et à des couches existantes présente un peu plus de risques. Le risque augmente encore si le projet nécessite des géodatabases, des couches et des schémas entièrement nouveaux. Le risque le plus élevé survient lorsqu’un projet implique la configuration d’applications qui consomment des données qui ne sont pas dans un format compatible avec les technologies d’Esri, ce qui nécessite d’importants processus d’extraction, de transformation et de chargement (ETC). Ce qui nous amène à notre prochain sujet sur la disponibilité : les types de données. 

Comprendre la disponibilité – Types de données
Illustration du graphique Comprendre la disponibilité – Types de données

Comprendre la disponibilité – Types de données

Lors de l’évaluation des propositions de projet, il est essentiel de comprendre les couches de données concernées, notamment celles qui sont fondamentales et celles qui sont dynamiques, ainsi que leurs formats. Idéalement, ces couches devraient être dans des formats de données Esri courants, comme ceux d’une géodatabase, d’une interface API de services REST d’ArcGIS ou de types matriciels pris en charge. Les projets qui requièrent ou ingèrent des types de données atypiques, tels que d’anciens types de fichiers comme les fichiers SHP et Coverage, augmentent le risque. Le risque est encore plus élevé avec les couches de données n’appartenant pas à Esri en raison de l’absence de contrôle sur la compatibilité de leurs interfaces API ou de leurs trousses SDK, à l’exception des services et des couches conformes à l’OGC. Les ensembles de données non compatibles ou non conformes à l’OGC présentent le risque le plus élevé, car ils nécessitent des ressources importantes pour les processus d’ETC. Cela peut nécessiter un serveur ETC en temps réel comme GeoEvent, Koop FME Server ou une autre solution personnalisée. La compréhension de ces facteurs facilite la planification, l’affectation des ressources et la réussite du projet tout en préservant l’intégrité et la qualité des données. 

Comprendre la disponibilité – Volume de données

Illustration du graphique Comprendre la disponibilité – Volume de données

Comprendre la disponibilité – Volume de données

Les considérations relatives au volume de données comprennent les besoins en bande passante, la taille des données, le nombre et le type de transactions (entrée/sortie) et le type de données impliquées. Les projets impliquant des données facilement hébergées et distribuées sont moins risqués que ceux qui comportent des données de taille importante et des supports attachés. Par exemple, les données vectorielles comportant de nombreux sommets, tels que les isolignes d’élévation inférieures à un mètre, prendront plus de temps à s’afficher que les isolignes d’élévation de dix mètres. Les données à plus haute résolution sont plus longues à afficher à l’écran, mais ce problème peut être atténué par des techniques de mise en cache et de mosaïquage. Les couches contenant des supports se chargeront également plus lentement. En outre, les couches pour lesquelles l’édition et le versionnement sont activés sont associées à des frais généraux de service.  

Comprendre comment les utilisateurs vont interagir avec les données (vue seule ou édition) permet de déterminer la meilleure façon de modéliser et de rendre les données disponibles. L’intégration de données massives dans l’offre de données de l’organisation présente des avantages commerciaux tangibles. Permettre la géoanalyse de données massives permet aux experts en science des données d’extraire des informations à partir de vastes ensembles de données comme des données GPS, SIA, les mouvements humains et d’autres données de détecteurs de mouvement. En fin de compte, ce sont les besoins des utilisateurs en matière d’interaction avec les données qui détermineront le déploiement de l’infrastructure sous-jacente. 

Comprendre la disponibilité – Actualité

Illustration du graphique Comprendre la disponibilité – Actualité des données

Comprendre la disponibilité – Actualité des données

La compréhension de lactualité des données est cruciale, au même titre que les exigences en matière de volume de données. Les besoins des utilisateurs détermineront les méthodes de transmission des données, mais en général, la diffusion en continu des données en temps réel comporte des risques plus élevés que le fait de permettre aux utilisateurs de découvrir des données cataloguées et de travailler avec ces données. Les données cataloguées (également connu sous le nom de système dinformation) sont considérées comme étant officielles, car elles sont soumises à des flux rigoureux dassurance et de contrôle de la qualité, alors que les données en temps réel peuvent ne pas bénéficier dune vérification aussi approfondie. Ce risque peut être atténué par des processus intermédiaires, tels quune collaboration distribuée pour gérer efficacement les données cataloguées et celles en temps réel.  

À ce stade, jaimerais partager quelques ressources qui mont été très utiles lorsque jai travaillé avec des clients afin de concevoir des déploiements dArcGIS Enterprise, de mettre en place des géodatabases dentreprise et doptimiser ces solutions pour une meilleure disponibilité des données. 

  • Le cadre ArcGIS Well-Architected est un ensemble de concepts, de modèles et de pratiques visant à aider les organisations à concevoir, créer et exploiter des systèmes ArcGIS.

  • Les ressources pour géodatabases ArcGIS forment une collection darticles, de documentation daide et de documents de référence destinés à aider les organisations à gérer les données spatiales. 

  • Le blogue Implementing ArcGIS Blog est un forum de la communauté Esri où les experts dEsri partagent leurs connaissances et leur sagesse sur la configuration et le réglage dArcGIS Enterprise. La communauté partage également des applets que nous pouvons exécuter pour établir des rapports et des analyses ainsi que configurer et ajuster nos déploiements afin de mieux répondre aux besoins de nos clients en matière de données. 

Restez à laffût de mon dernier billet de blogue dans le cadre de cette série. Dans ce billet, jexplorerai le processus de triage de projet au niveau de la gestion de projet. 

Ce billet a été écrit en anglais par Nathan Enge et peut être consulté ici.