Thursday, September 25, 2014

Statistique Spatiale

Description des données

Les données de l’étude sont composées d’une variable Y ainsi que de leurs coordonnées géographiques (coordonnées : latitudes et longitudes).
Exemple de données :

X
Lat
Long
Y
1
1
-1.71355491
0.3421735
7.4554678
2
2
-2.64873033
-2.2731375
6.1101512
3
3
1.00729738
2.8770529
1.6371695
Voici la représentation graphique des points


On aperçoit des points à faible valeur sur un axe central vertical. Il existe des points plus importants sur la gauche et la droite de cet axe.

Analyse exploratoire

Analyse descriptive uni variée

Les coordonnées géographiques sont inclues dans un rectangle de point inférieur [-3.693 ,  -3.408] et de point supérieur [3.9513 , 3.948].Les données statistiques uni-variées pour la variable Y sont les suivants :
Minimum
Premier
Quartile
Médiane
Moyenne
Troisième Quartile
Maximum
Ecart type
0.2693 
2.2840
5.2990
5.6600
7.5120
14.3100
3.903863
La variable Y est centrée sur 5,66 et possède un écart type assez large de 3,9 .

Analyse des corrélations spatiales par l’indice de Moran

Pour calculer l’indice de Moran, nous utilisons la méthode « moran » du package « spdep ».
Le I de Moran dans notre exemple est de 0.2170024. Ceci permet de voir que les données ne sont pas spatialement fortement corrélées. 

Analyse des corrélations spatiales locales avec l indice local de Moran (LISA)

Les variables sont représentées sur la carte suivante :


Pour calculer l’indice local de Moran, nous utilisons la méthode « localmoran » du package « spdep ».
On aperçoit des variables fortement corrélées et d’autres non corrélées spatialement. Un certain nombre de variables sur un axe central vertical sont très corrélées entre elle. Ce diagramme corrobore bien la première analyse simple des variables dans leur environnement spatial.


Ce diagramme est un filtre basé sur la recherche des points dont la p value est inférieure à 5% et dont l’écart type dépasse l'écart type moyen. Ce sont les valeurs avec la plus forte corrélation d’indice local de moran.  
Les valeurs se trouvent sur un axe central vertical et peuvent être séparés en deux groupes distincts.

Classification

Pour la classification des données, nous utilisons la méthode « hclust » et « kmeans » du package « stats ».
Pour classifier, il nous faut définir une distance. Cette distance est simplement une mesure euclidienne composée de la distance géographique associée à la distance des valeurs Y.
distanceD3Matrix<-distanceValeur*B1+B2*distanceGeo
Avec comme valeur pour B1 et B2 :1 et 10. On insiste plus fortement sur la distance spatiale. On a choisi empiriquement ces deux valeurs.
L’utilisation de classification ascendante hiérarchique, permet de mettre en évidence la forme et la répartition des classes.


Le choix de quatre classes paraît opportun pour poursuivre cette classification.
Après une classification par kmeans basé sur le choix des quatre classes, nous obtenons la répartition géographique suivantes.  


On distingue sur cette vue géographique les quatre classes qui se répartissent géographiquement en haut, bas, gauche et droite.  Les valeurs de gauche et de droite délimitent, comme précédemment lors de l’analyse des corrélations spatiales, un axe vertical qui ici ce divise en deux classes distinctes.




Modélisation spatiale

Variogramme

Variogramme expérimental

Nous utilisons la méthode « variogram » du package « gstat ».
Nous commençons l’analyse par une analyse du variogramme.


Plus on s’éloigne du point plus la semi variance est importante. Il y a donc de forte disparité géographique.

Variogramme à 0°,45° ,90° et 135°



Le variogramme à 0° est peu variant et ressemble à un effet pépite, comparé aux autres angles qui eux ont une tendance plus importante d‘augmentation de la variance sur les distances lointaines.






Utilisation d’un model de variogramme

Pour utiliser une modélisation linéaire par krigeage, il nous faut un modèle de variogramme représentatif de nos données. Nous utilisons un modèle sphérique pour représenter nos variogrammes.


Le modèle utilisé est assez proche des quatre angles et paraît un bon compromis, atténuant fortement certains angles et en augmentant d’autres.

Krigeage sur une grille spatiale

Nous utilisons la méthode « krige » du package « gstat ».
Le résultat du krigeage est le suivant :


Comme vu lors de l’analyse exploratoire, nous avons bien un axe vertical qui se décompose en deux parties distinctes.  Les plus faibles valeurs se trouvant dans cet axe et les valeurs plus importantes sur les cotés gauche et droite. La représentation sur une grille, nous montre avec évidence la répartition de la variable Y  qui possède deux zones faiblement polluées au milieu d’autres zones très polluées.




Erreur de prédiction




On aperçoit que les erreurs de prédiction sont très importantes à droite et à gauche d ‘un axe vertical. Les erreurs sont dues au compromis fait avec notre modèle de variogramme. Il y a à gauche et à droite des valeurs fortes proches de valeurs faibles. Le modèle linéaire, lissant les valeurs, dégage ces erreurs.