L’analyse de données géospatiales massives : la vision de l’avenir?

February 14, 2017

Colleen Raymond

En raison de leur nature, les données géospatiales sont volumineuses. Elles sont relativement faciles à recueillir. Toutefois, il est difficile de les stocker, de les gérer, de les traiter et de les afficher en toute efficacité, d’autant plus que l’on recueille continuellement des données améliorées, mises à jour et en plus grand nombre. Lisez ce billet de blogue pour en savoir plus sur l’avenir de l’analyse de données géospatiales massives.

J’ai récemment assisté à un atelier d’analyse de données géospatiales massives organisé et présenté par le gouvernement canadien. L’événement portait principalement sur les données géospatiales, notamment les données optiques, radar et d’observation non terrestre, ainsi que sur leur analyse. On y a souligné que le traitement de quelques scènes d’observation de la Terre ne fait pas appel à des données massives, mais qu’au fil des ans, à mesure qu’on ajoute d’autres scènes et d’autres capteurs, le bassin de ces données matricielles devient énorme.

Une des différences apparentes entre les jeux de données matricielles et vectorielles relève principalement de leur volume.

Par exemple, si on considère uniquement les données les plus récentes pour une grande région géographique comme le Canada, la quantité de données d’images satellitaires est beaucoup plus importante que celle des données cartographiques vectorielles. Toutefois, les images satellitaires recueillies sur plusieurs décennies sont toujours utiles. La conservation de ces données temporelles accentue donc le problème du volume de données, parce que leur analyse englobe un grand nombre d’images de dates différentes pour une même région.

À ces ennuis s’ajoute l’imagerie non optique, comme le radar et le LiDAR, ainsi que les images qui ne proviennent pas de satellites, comme les levés aériens effectués à l’aide d’aéronefs et de drones.

Enfin, si on compte les données vectorielles cartographiques et SIG, la couverture de l’ensemble du Canada fait appel à une quantité de données considérablement massive.

Le volume de données liées à l’analyse de régions plus petites ne pose pas autant de difficultés, mais lorsqu’on traite des données pour une superficie aussi grande que celle du Canada, le problème n’est pas négligeable. Toutefois, grâce à l’avènement du stockage dans le nuage et des environnements de traitement relativement peu coûteux, il est possible de gérer le problème.

La création d’un système d’analyse de données géospatiales massives à partir de zéro représenterait une tâche colossale, incroyablement risquée et coûteuse, même pour le gouvernement fédéral. Par contre, puisque nous disposons désormais de solutions de nuage abordables, il est tout à fait possible de concevoir un tel système à l’aide de technologies prêtes à l’emploi. En fait, Esri a déjà mis au point un service gratuit en ligne dans le nuage qui permet la visualisation et l’analyse de données ouvertes d’images que le satellite Landsat a recueillies pendant près de cinq décennies.

Cette image Landsat de Winnipeg, prise en septembre 2016, a été traitée en temps réel pour afficher les zones agricoles en vert. Jetez un coup d’œil à votre région géographique préférée sur le site web Unlock Earth’s Secrets d’Esri.

L’imagerie optique est relativement simple à stocker, à gérer et à traiter, principalement en raison du fait que ses données sont bien comprises et qu’elles peuvent être prétraitées en ensembles ordonnés plus faciles à manipuler en vue de leur traitement. De façon générale, les données de bande spectrale pour une même région et une même date sont conservées ensemble. Ainsi, l’imagerie se prête bien au traitement, puisque la nature des pixels des images optiques est ordonnée et bien connue.

Le principal problème concernant l’utilisation des données optiques constitue l’atmosphère terrestre, qui contient de la brume, des nuages (en plus des ombres qu’ils produisent) et parfois de la fumée, ce qui masque ou modifie la réflectance de la Terre lorsque l’image est captée.

Une grande partie des données des capteurs non imageurs sont aussi relativement bien comprises et leur stockage ainsi que leur analyse sont simples à effectuer dans le nuage. Prenez par exemple la carte communautaire du Canada d’Esri Canada, qui contient des données cartographiques vectorielles des gouvernements municipaux, provinciaux et fédéraux concernés. Esri Canada réunit ces données pour assurer une couverture du paysage canadien sur une variété d’échelles cartographiques. Ainsi, les utilisateurs peuvent afficher une vue continentale de l’ensemble du Canada, puis faire un zoom pour visualiser le mobilier urbain de Toronto ou de Vancouver. Ces cartes multiéchelles sont accessibles gratuitement et comprennent certaines fonctions d’analyse.

Exemples de fonds topographiques d’une image et d’une carte d’une zone près de l’entrée du parc de la Gatineau au Québec, qui proviennent de données recueillies et traitées dans le cadre du Programme de cartes communautaires d’Esri Canada.

Il est plus difficile de créer une gamme de produits de visualisation et d’analyse en ligne des données d’images radar (par rapport aux données des radars météorologiques Doppler). Le radar est un type de capteur très utile et polyvalent, qui est moins entravé par l’atmosphère que les capteurs optiques. Cela les rend très utiles dans les régions nuageuses comme les côtes et le Nord du Canada.

Cependant, la polyvalence du radar nuit à l’analyse des données qu’il produit, à cause de facteurs comme l’hyperfréquence, la fréquence d’impulsion, le mode de faisceau, l’angle de vue, la polarisation de l’onde et une foule d’autres complications dont il faut tenir compte. La sélection du processus à mettre en œuvre pour créer un produit permettant la visualisation ou l’analyse de données radar peut exiger du temps et de la réflexion.

Image couleur infrarouge et image couleur naturelle provenant d’un radar Sentinel 2

Alors, le Canada est-il prêt à l’analyse de données géospatiales massives?

Je crois que le Canada est bien placé pour tirer profit de la technologie des données massives afin de passer à un niveau de perfectionnement supérieur. Cela lui permettrait de fournir aux scientifiques, aux ingénieurs et aux citoyens intéressés les renseignements et les capacités nécessaires pour mieux comprendre la géographie canadienne.

À la lumière de l’atelier sur l’analyse des données géospatiales massives, il est évident que le gouvernement fédéral commence à chercher au-delà des méthodes traditionnelles afin de créer et de proposer des produits et des services d’observation terrestre à ses clients. En élaborant et en mettant en œuvre une stratégie relativement modeste de nuage, ce dernier sera en mesure de répondre aux exigences, complexes, dynamiques et changeantes sans payer une somme effarante. Si la communauté fédérale géospatiale parvient à collaborer avec la nouvelle communauté de TI du gouvernement en adoptant une stratégie pertinente, je suis sûr qu’elle arrivera à mettre au point des technologies géospatiales de pointe qui feront la fierté de nous tous.

Ce billet a été écrit en anglais par Gordon Plunkett et peut être consulté ici.