Description des données
Les données de l’étude sont composées d’une variable Y ainsi
que de leurs coordonnées géographiques (coordonnées : latitudes et
longitudes).
Exemple de données :
X
|
Lat
|
Long
|
Y
|
|
1
|
1
|
-1.71355491
|
0.3421735
|
7.4554678
|
2
|
2
|
-2.64873033
|
-2.2731375
|
6.1101512
|
3
|
3
|
1.00729738
|
2.8770529
|
1.6371695
|
Voici la représentation graphique des points
On aperçoit des points à faible valeur sur un axe central
vertical. Il existe des points plus importants sur la gauche et la droite de
cet axe.
Analyse exploratoire
Analyse descriptive uni variée
Les coordonnées géographiques sont inclues dans un rectangle
de point inférieur [-3.693 , -3.408] et
de point supérieur [3.9513 , 3.948].Les données statistiques uni-variées pour
la variable Y sont les suivants :
Minimum
|
Premier
Quartile
|
Médiane
|
Moyenne
|
Troisième
Quartile
|
Maximum
|
Ecart type
|
0.2693
|
2.2840
|
5.2990
|
5.6600
|
7.5120
|
14.3100
|
3.903863
|
La variable Y est centrée sur 5,66 et possède un écart type
assez large de 3,9 .
Analyse des corrélations spatiales par l’indice de Moran
Pour calculer l’indice de Moran, nous utilisons la méthode
« moran » du package « spdep ».
Le I de Moran dans notre exemple est de 0.2170024. Ceci
permet de voir que les données ne sont pas spatialement fortement
corrélées.
Analyse des corrélations spatiales locales avec l indice local de Moran
(LISA)
Les variables sont représentées sur la carte suivante :
Pour calculer l’indice local de Moran, nous utilisons la
méthode « localmoran » du package « spdep ».
On aperçoit des variables fortement corrélées et d’autres
non corrélées spatialement. Un certain nombre de variables sur un axe central
vertical sont très corrélées entre elle. Ce diagramme corrobore bien la
première analyse simple des variables dans leur environnement spatial.
Ce diagramme est un filtre basé sur la recherche des points
dont la p value est inférieure à 5% et dont l’écart type dépasse l'écart type
moyen. Ce sont les valeurs avec la plus forte corrélation d’indice local de
moran.
Les valeurs se trouvent sur un axe central vertical et peuvent
être séparés en deux groupes distincts.
Classification
Pour la classification des données, nous utilisons la
méthode « hclust » et « kmeans » du package « stats ».
Pour classifier, il nous faut définir une distance. Cette
distance est simplement une mesure euclidienne composée de la distance
géographique associée à la distance des valeurs Y.
distanceD3Matrix<-distanceValeur*B1+B2*distanceGeo
Avec comme valeur pour B1 et B2 :1 et 10. On insiste
plus fortement sur la distance spatiale. On a choisi empiriquement ces deux
valeurs.
L’utilisation de classification ascendante hiérarchique,
permet de mettre en évidence la forme et la répartition des classes.
Le choix de quatre classes paraît opportun pour poursuivre
cette classification.
Après une classification par kmeans basé sur le choix des
quatre classes, nous obtenons la répartition géographique suivantes.
On distingue sur cette vue géographique les quatre classes
qui se répartissent géographiquement en haut, bas, gauche et droite. Les valeurs de gauche et de droite
délimitent, comme précédemment lors de l’analyse des corrélations spatiales, un
axe vertical qui ici ce divise en deux classes distinctes.
Modélisation spatiale
Variogramme
Variogramme expérimental
Nous utilisons la méthode « variogram » du
package « gstat ».
Nous commençons l’analyse par une analyse du variogramme.
Plus on s’éloigne du point plus la semi variance est
importante. Il y a donc de forte disparité géographique.
Variogramme à 0°,45° ,90° et 135°
Le variogramme à 0° est peu variant et ressemble à un effet
pépite, comparé aux autres angles qui eux ont une tendance plus importante d‘augmentation
de la variance sur les distances lointaines.
Utilisation d’un model de variogramme
Pour utiliser une modélisation linéaire par krigeage, il
nous faut un modèle de variogramme représentatif de nos données. Nous utilisons
un modèle sphérique pour représenter nos variogrammes.
Le modèle utilisé est assez proche des quatre angles et
paraît un bon compromis, atténuant fortement certains angles et en augmentant
d’autres.
Krigeage sur une grille spatiale
Nous utilisons la méthode « krige » du package
« gstat ».
Le résultat du krigeage est le suivant :
Comme vu lors de l’analyse exploratoire, nous avons bien un axe
vertical qui se décompose en deux parties distinctes. Les plus faibles valeurs se trouvant dans cet
axe et les valeurs plus importantes sur les cotés gauche et droite. La
représentation sur une grille, nous montre avec évidence la répartition de la
variable Y qui possède deux zones
faiblement polluées au milieu d’autres zones très polluées.
Erreur de prédiction
On aperçoit que les erreurs de prédiction sont très
importantes à droite et à gauche d ‘un axe vertical. Les erreurs sont dues au
compromis fait avec notre modèle de variogramme. Il y a à gauche et à droite
des valeurs fortes proches de valeurs faibles. Le modèle linéaire, lissant les
valeurs, dégage ces erreurs.