Un modèle prédictif maya
Étude de l'utilisation des Systèmes d'Information Géographique dans le cadre d'un projet archéologique multi-échelles
Page précédente Table des matières Page suivante

E. Choix d'une carte de probabilités à conserver

La carte de probabilités la plus efficace pourrait donc être celle calculée en premier lieu en utilisant les cinq paramètres disponibles. Produite en utilisant des sites très généralisés (seuls les grands centres mayas sont répertoriés) et en émettant l'hypothèse que leur répartition permet d'utiliser le masque régional comme zone d'entraînement, celle-ci permet de prédire 63,5% des sites créés au moyen du modèle local.

Ce chiffre est certes bien inférieur aux 80% d'efficacité à l'échelle précédente, mais est tout de même remarquable puisque ces sites sont d'une nature différente de ceux utilisés lors de l'entraînement. La piètre qualité des données de drainage et de fertilité empêche hélas d'avoir un résultat réellement exploitable, même à cette échelle.

Cependant, cette première approche se heurte au fait que cette carte de probabilités apparaît bien trop générale. Une très grande partie de la carte est ainsi couverte par les deux meilleures classes de probabilités, la valeur de 63,5% de prédiction s'en trouve donc largement contrebalancée. La zone centrale de la zone locale, qui ne comporte aucun site et est normalement de probabilité quasi-nulle se retrouve ainsi très bien classée...

Jeu de donnéesa_Tikala_regionalmod_populationa_sitesa04_settlementsa_El_Pilar
a_regional60%58%64%63%60%61%
mod_population47%52%77%83%82%56%
Table 9: efficacités de prédiction pour quelques jeux de sites, selon l'entraînement choisi

La table 9 présente les efficacités de prédiction (ou de classification) calculées pour un certain nombre de jeux de données afin de comparer les deux résultats. Ces pourcentages correspondent aux proportions de sites se trouvant dans une zone dont la valeur de probabilité a posteriori est plus importante que celle a priori. Cela n'est cependant pas tout à fait satisfaisant dans ce cas puisqu'il faut garder à l'esprit que l'indépendance conditionnelle n'est pas établie : les motifs sont bons, les probabilités en revanche peuvent être faussées.

Illustration 37: "croix" de Tikal sur fond de probabilités

La seconde version du modèle régional de probabilités produite à partir des points du modèle local apporte une efficacité de prédiction plus importante pour les jeux de données correspondant à l'échelle locale, ce qui était prévisible puisque les points d'entraînement sont similaires. Il apparaît également qu'elle est plus sélective que celle calculée en premier, ce qui est un paramètre très important. Il est ainsi très clair que les motifs correspondent plus à la réalité constatée au niveau local.

Il est possible de remarquer que la « croix » de lever des sites de Tikal est bien expliquée (Illustration 37), les sites étant clairement absents dans les branches au niveau des zones de faible probabilité. Le fait que certains « paquets » de points se retrouvent décalés par rapport aux limites des zones peut sans doute venir de l'imprécision de certains paramètres, mais le résultat général est extrêmement satisfaisant.

Il est difficile de faire des choix supplémentaires, le modèle étant clairement limité par la qualité des données de drainage et fertilité. Les classes où se trouvent les points de Tikal comportent visiblement de nombreux points régionaux, ce qui pourrait indiquer que leurs probabilités devraient être plus élevées. En même temps, la frontière entre le Bélize et le Guatemala fait passer de celles-ci aux classes de fortes probabilités : une reclassification pourrait ramener à la même généralisation que pour l'entraînement avec les points régionaux.

Illustration 38: points régionaux et "croix" de Tikal sur fond de probabilités
css Copyright © 2018 Sébastien Merlet (Sebeto) xhtml