|EN
[+][–]4-3 | Méthode de classification pour la construction de la périodisation : hclustcompro

Benzécri 1973
Benzécri J.-P. – L’analyse des Données, Vol. II. L’analyse des Correspondances, Dunod, Paris.

Escofier et Pagès 1998
Escofier B. et Pagès J. – Analyses factorielles simples et multiples (3e éd.), Dunod, Paris.

Bellanger, Coulon et Husi 2021a
Bellanger L., Coulon A. et Husi P. – PerioClust: a new Hierarchical agglomerative clustering method including temporal or spatial ordering contraints, in : Chatzipantelis Th. et al. (ed.), Data Analysis and Rationality in a Complex World, XXIII, Springer International Publishing (Springer Series, Studies in Classification, Data Analysis, and Knowledge Organization).

Bellanger, Coulon et Husi 2021c
Bellanger L., Coulon A. et Husi P. – Une méthode de classification ascendante hiérarchique par compromis : hclustcompro, 9e Conférence Internationale Francophone sur la Science des Données (CIFSD), CIFSD, Mohamed QUAFAFOU, Jun 2021, Marseille, France.

Nakache et Confais 2005
Nakache J.-P. et Confais J. – Approche pragmatique de la Classification, Éditions Technip, Paris.

Everitt et al. 2001
Everitt B.S., Landau S. et Morven L. – Cluster Analysis, 4th ed., Oxford University Press Inc., Arnold, Londres.

Kaufman et Rousseeuw 2005
Kaufman L. et Rousseeuw P. – Finding Groups in Data: An Introduction to Cluster Analysis, Wiley-Interscience, New York.

Rousseeuw 1987
Rousseeuw P. J. – Silhouettes: A graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics, 20 : 53-65.

Rand 1971
Rand W. M. – Objective criteria for the evaluation of clustering methods, Journal of the American Statistical Association, 66 : 846–850.

Steinley 2004
Steinley D. – Properties of the Hubert-Arabie Adjusted Rand Index, Psychological Methods, 9(3), 386-396.

Bellanger, Coulon et Husi 2021b
Bellanger L., Coulon A. et Husi P. – Determination of cultural areas based on medieval pottery using an original divisive hierarchical clustering method with geographical constraint (MapClust), Journal of Archaeological Science, Volume 132.

Chavent et al. 2018
Chavent M., Kuentz-Simonet V., Labenne A. et Saracco J. – ClustGeo: an R package for hierarchical clustering with spatial constraints, Computational Statistics, 33 [En ligne].

Woillez et al. 2009
Woillez M., Rivoirard J. et Petitgas P. – Notes on survey-based spatial indicators for monitoring fish populations, Aquatic Living Resources, 22 :155-164.

Hartigan 1981
Hartigan J.A. – Consistency of single linkage for high-density clusters, Journal of the American Statistical Association, 76(374) : 388-394.

Parzen 1962
Parzen E. – On estimation of a probability density function and mode, Annals of Mathematical Statistics, 33 : 1065-1076.

Bloc 4 | Les méthodes archéo-statistiques SPARTAAS

Lise Bellanger, Arthur Coulon et Philippe Husi

Bloc 4 | Les méthodes archéo-statistiques

4-1 | Présentation de la démarche scientifique

L’importance du corpus de la céramique impose le développement de méthodes statistiques adaptées au traitement de données mobilières en archéologie. Les questions d’ordre socio-économique, fonctionnel et culturel auxquelles ces données peuvent répondre ici à l’échelle du Bassin de la Loire Moyenne (BLM) s’inscrivent dans le temps et dans l’espace, cadre indispensable à la compréhension de la transformation des tels phénomènes dans la longue durée. Le corpus de données comprend les sites archéologiques les plus fiables d’un point de vue chrono-stratigraphique, dont les assemblages de céramiques sont suffisamment importants pour répondre à la problématique posée. Ces sites sont centrés sur le BLM, avec quelques autres aux marches de cet espace. Ces sites sont constitués d’ensembles stratigraphiques, dont les assemblages de céramiques qui les constituent sont représentés par catégories de céramiques. L’apport d’une analyse statistique des données céramiques croisant ensembles et catégories est double.

D’abord, il s’agit d’une aide à la construction à l’échelle du BLM d’une périodisation générale des ensembles stratigraphiques regroupés en fonction de la proximité structurelle des assemblages de céramiques qui les constituent (Bloc 1-1). Dans une démarche archéologique traditionnelle, la datation des ensembles stratigraphiques repose sur : (i) l’analyse des assemblages de céramiques à partir d’un référentiel local ou régional, (ii) une datation individuelle des ensembles proposée par les archéologues en fonction de la connaissance précise du contexte local se résumant à une fourchette chronologique avec un pas temporel en quart de siècle. Afin d’éviter d’accorder un poids trop important à cette datation individuelle et locale des ensembles, il a donc semblé prudent d’adopter, parallèlement à cette approche traditionnelle, une démarche statistique plus globale. Il s’agit de comparer statistiquement les ensembles stratigraphiques à leurs faciès céramologiques. Ces derniers se définissent par la structure des assemblages qui les constituent, fondée sur le nombre d’individus quantifiés par catégorie de céramique selon trois techniques en usage dans la discipline : NMI, NTI, NIF.

Une fois cette périodisation générale établie, elle sert de cadre chronologique pour répondre aux questions économiques, sociales et fonctionnelles. Ces questions se présentent sous la forme d’une série de propositions logicistes hiérarchisées (Intro 3-2 ; Bloc 2 ; Intro 3-3 ; Bloc 3). Une majorité de propositions, fondées sur des sous-jeux de données céramiques découlant de la nature de la question, demande une analyse statistique des données. Ces analyses statistiques sont une aide à la compréhension de questions : (i) spatiales si le but est de déterminer des aires économiques ou culturelles au sein du BLM, (ii) socio-fonctionnelles si le but est d’aider à la détermination de l’usage des récipients, la nature des sites ou la hiérarchisation sociale de leurs occupants.

La démarche mise en œuvre pour l’analyse statistique des données archéologiques mobilières, exposée dans ce Bloc 4 (Intro 3-4), se décline de la manière suivante : (i) une phase de pré-traitement des données, de nettoyage du corpus initial ; (ii) une présentation d’une première méthode de classification (hclustcompro) utilisée pour la construction de la périodisation générale du BLM ; (iii) une seconde méthode de classification (mapclust), mise en œuvre pour répondre aux questions spatiales des propositions logicistes. Ces méthodes statistiques intègrent un plus vaste projet interdisciplinaire dédié au traitement des données mobilières en archéologie, dont les outils sont implémentés dans le package R SPARTAAS (Statistical PAttern Recognition and daTing using Archaeological Artefacts assemblageS).

Le protocole de la démarche archéo-statistique peut se résumer sous la forme du schéma suivant.

Fig. 1 - Schéma des principales étapes du protocole archéo-statistique.

4-2 | Pré-traitement des données et construction du corpus statistique

L’étape de pré-traitement des données est une étape cruciale pour la suite de l’analyse. En effet, le jeu de données initial peut contenir des informations peu fiables, susceptibles d’impacter les résultats statistiques et donc les interprétations archéologiques ultérieures. Par conséquent, il est capital de commencer par sélectionner le corpus de travail, issu du jeu de données initial filtré des éléments douteux. La procédure de sélection adoptée combine des règles statistiques spécifiques ainsi que la connaissance de l’archéologue. A cet effet, le pré-traitement des données est réalisé sur une sélection géographique et temporelle de sites archéologiques structurés en ensembles stratigraphiques correspondant à autant d’assemblages composés de différentes catégories de céramiques. En d’autres termes, le corpus de données mobilisé pour le traitement statistique est structuré par ensembles/assemblages (variable 1) et catégories de céramiques (variable 2). Les données correspondent à un nombre d’individus par ensemble et catégorie quantifiée selon trois techniques : le Nombre Minimum d’Individus (NMI = Groupes Techniques), le Nombre Typologique d’Individus (NTI = Types de récipients) et le Nombre d’Individus par Forme (NIF) (Bloc 1-1 ; Bloc 1-3). Ainsi le corpus global d’étude est composé de trois jeux de données (NMI ; NTI et NIF) mobilisés distinctement suivant la nature de la question archéologie posée.

Trois filtres sont appliqués au corpus d’origine pour construire les trois jeux de données utiles à la démarche archéo-statistique (Fig. 1) : (i) une sélection de sites et d’ensembles en fonction de critères géographiques et temporels (ii) une suppression des ensembles et/ou des catégories céramiques faiblement représentés (iii) une suppression des ensembles et/ou des catégories céramiques aberrantes ou outliers.

4-2-1 | Démarche de sélection des données

Filtre 1 : Sélection des sites et des ensembles sur critères géographiques et temporels

Le jeu de données primaire retenu pour les analyses statistiques est centré sur l’espace géographique du BLM, en laissant de côté certains sites limitrophes de cet espace ou lui appartenant mais à diffusion trop locale (Intro 3-4). Ces sites non pris en compte à cette étape sont intégrés en tant que corpus secondaire de comparaison pour certaines questions d’ordre socio-économique et fonctionnel ne demandant pas de traitements statistiques particuliers.

Tous les ensembles constituant le corpus initial possèdent une datation individuelle, sous forme d’une fourchette chronologique en quart de siècles (désignés par les lettres a,b,c,d), proposée par les archéologues en fonction de la connaissance précise du contexte local. Les ensembles pour lesquels cette datation individuelle est trop imprécise et dépasse une fourchette de 200 ans ont été écartés du corpus pris en compte pour l’analyse statistique.

Filtre 2 : Suppression des ensembles ou catégories de céramiques peu représentés

Pour éviter la présence d’ensembles ou de catégories trop faiblement représentés, nous avons imposé que la somme des éléments de chaque ensemble (ligne) ou de chaque catégorie céramique (colonne) soit strictement supérieure à 5. Cette condition devra être testée après chaque modification du jeu de données, retrait d’une ligne (ensemble), ou d’une colonne (céramique) pouvant intervenir avant chaque nouvelle analyse. Ce choix permet ici de fixer les dimensions des trois tables de contingence (NMI, NTI et NIF) sélectionnées.

Filtre 3 : Suppression des outliers (données aberrantes)

Chacun des trois corpus céramiques (NMI, NTI et NIF) est assimilable à une table de contingence qui peut être décrite à l’aide d’une Analyse Factorielle des Correspondances (en abrégé AFC) (Benzécri, 1973). Cette méthode descriptive multivariée, extension de l’analyse en Composantes Principales, fournit une vision synthétique de chaque table de contingence en projetant les profils lignes (ensembles) et les profils colonnes (catégories céramiques) dans un espace de dimension réduite représentant au mieux les données. Elle utilise la distance du Chi-deux et a l’avantage de proposer une représentation simultanée des profils-lignes et des profils-colonnes dans les différents plans factoriels. Dans notre cas, l’analyse des coordonnées des profils dans le plan factoriel 1-2 permet d’identifier des éléments (ensembles ou catégories) isolés des autres dans le plan factoriel, donc potentiellement atypiques ou aberrants.

4-2-2 | Résultats pour la construction des trois jeux de données

Corpus en Nombre Minimum d’Individus (NMI)

Résultats filtres 1 et 2 sur NMI
Quantification en NMIEnsembles × catégories céramiques
Dimension corpus initial (global)346 × 375
Dimension après Filtre 1 (critères géographiques et temporels)251 × 291
Dimension après Filtre 2 (somme ligne ou colonne > 5 individus)229 × 186

Fig. 2 - Dimensions des corpus de données NMI

Résultats filtre 3 sur NMI
Fig. 3 - AFC sur données NMI : Plan factoriel 1-2.

La figure 3 représentant le plan 1-2 de l’AFC sur données NMI, traduit la présence d’outliers : un ensemble (Ensemble 5.01 > site Chambray-lès-Tours), point bleu) et deux groupes techniques 06u et 16m (points rouges) (Fig. 3). Leurs comportements sont très différents des autres. En effet, cet ensemble n’est représenté que par les deux groupes techniques 06u et 16m, eux-mêmes présents quasiment uniquement sur ce site, le choix a été fait de les éliminer du corpus.

Fig. 4 - AFC sur données NMI : Plan factoriel 1-2 (suppression de l’ensemble5.01).

Une deuxième AFC est alors effectuée sur le nouveau jeu de données (Fig. 4). Deux groupes se détachent du nuage de points principal. Le premier cercle (en haut) correspond à des ensembles qui ont un profil céramique atypique (146.01 et 146.02 > site d’Avrillé) et seront supprimés par la suite. Le second cercle (en bas) correspond aux nombreux ensembles de la ville de Blois qui seront conservés dans le corpus final : leur regroupement, isolé des autres, provient d’un effet géographique dont il faudra tenir compte ultérieurement pour des ensembles dont la qualité des données n’est pas à remettre en cause.

Fig. 5 - AFC sur données NMI : Plan factoriel 1-2 (suppression des ensembles 5.01146.01 et 146.02).

Le plan factoriel 1-2 ne présente plus d’outliers (Fig. 5), mis à part la présence excentrée des sites de Blois, interprétée précédemment. Les différentes AFC réalisées ont permis d’aboutir à un corpus de données NMI, croisant ensembles et groupes techniques, dépourvu des potentielles observations aberrantes.

Corpus en Nombre Typologique d’Individus (NTI)

Résultats filtres 1 et 2 sur NTI
Quantification en NTIEnsembles × catégories céramiques
Dimension corpus initial (global)335 × 2148
Dimension après Filtre 1 (critères géographiques et temporels)245 × 1681
Dimension après Filtre 2 (somme ligne ou colonne > 5 individus)158 × 273

Fig. 6 - Dimensions des corpus de données NTI

Résultats filtre 3 sur NTI
Fig. 7 - AFC sur données NTI : Plan factoriel 1-2.

La figure 7 représentant le plan 1-2 de l’AFC réalisée sur les données NTI permet de détecter quelques ensembles et groupes techniques très différents par leur profil du reste du jeu de données (Fig. 7). Il s’agit des ensembles 5.01 (site de Chambray-lès-Tours, cercle du haut), et 146.01 et 146.02 (Site d’Avrillé, cercle du bas) uniquement représentés par quelques types de récipients inconnus par ailleurs. Les ensembles de ces deux sites sont donc éliminés du corpus.

Fig. 8 - AFC sur données NTI : Plan factoriel 1-2 (après suppression des ensembles 5.01146.01 et 146.02).

Sur ce plan factoriel 1-2 (Fig. 8), l’ensemble 3.01 (Bourges, cercle du haut) très distant des autres a été éliminé avec comme conséquence la suppression de deux types de récipients uniquement présents dans cet ensemble (pot 2y/17ao et pot 2z/17ao).

Fig. 9 - AFC sur données NTI : Plan factoriel 1-2 (après suppression des ensembles 5.01146.01146.02 et 3.01).

La figure 9 montre des résultats proches de ceux obtenus à partir des données en NMI (Fig. 5). Le regroupement isolé des ensembles de Blois est lié à un effet géographique visible sur le plan 1-2 de l’AFC (cercle du bas) ; ces ensembles de qualité sont comme précédemment conservés dans le corpus d’étude.

Corpus en nombre d’individus par Forme (NIF)

Résultats filtres 1 et 2 sur NIF
Quantification en NIFEnsembles × catégories céramiques
Dimension corpus initial (global)335 × 347
Dimension après Filtre 1 (critères géographiques et temporels)245 × 298
Dimension après Filtre 2 (somme ligne ou colonne > 5 individus)191 × 123

Fig. 10 - Dimensions des corpus de données NIF

Résultats filtre 3 sur NIF
Fig. 11 - AFC sur données NIF : Plan factoriel 1-2.

Comme pour le corpus issu des deux techniques de quantification précédentes, la représentation dans le plan 1-2 de l’AFC des données NIF, permet ici de mettre en évidence quelques ensembles et formes de récipients atypiques (Fig. 11). Il s’agit des ensembles 12.01 (site de La Riche, cercle le plus haut) et 47.01 (site d’Asnières-sur-Vègre, cercle le plus bas) avec des formes uniques ne se retrouvant dans aucun autre ensemble du corpus.

Fig. 12 - AFC sur données NIF : Plan factoriel 1-2 (suppression des ensembles 12.01 et 47.01).

La figure 12 met alors en évidence dans le plan 1-2 l’ensemble 3.01 (Site Avaricum à Bourges) isolé ainsi que les quelques formes uniquement présentes dans cet ensemble ; tous sont supprimés.

Fig. 13 - AFC sur données NIF : Plan factoriel 1-2 (suppression des ensembles 12.0147.01 et 3.01.).

L’ensemble atypique 23.05 de la ville de Blois est éliminé pour les mêmes raisons que précédemment (Fig. 13).

Fig. 14 - AFC sur données NIF : Plan factoriel 1-2 (suppression des ensembles 12.0147.013.01 et 23.05).

La figure 14 du plan 1-2 de l’AFC sur données NIF nettoyées, met en évidence un effet Gutmann, encore appelé effet en fer à cheval. Ce phénomène apparaît dans les AFC « lorsqu’il existe une structure d’ordre à la fois sur l’ensemble des lignes et sur celui des colonnes et que ces structures sont associées » (Escofier et Pagès 1998). Il révèle ici une sériation temporelle des données.

L’AFC appliquée respectivement aux trois jeux de données issus des trois techniques de quantification, permet d’écarter sept ensembles qui sont peu fiables parfois dans plusieurs des jeux de données. Une contrainte supplémentaire impose, après chaque retrait, de vérifier que les jeux de données respectent toujours les conditions nécessaires à une bonne application de l’AFC c’est-à-dire un effectif choisi ici supérieur à 5 individus (lignes/colonnes). Pour les NMI et les NTI, ce nouveau nettoyage des données ne concerne qu’un nombre restreint d’ensembles (lignes) et de catégories céramiques (colonnes), alors qu’il a fortement impacté la quantification par forme (NIF).

Synthèse des résultats après nettoyage des données


  NMI
  

  NTI
  

  NIF
  

  Dimension corpus initial (global)

  346 × 375
  

  335 × 2148
  

  335 × 347
  

  Dimension après Filtre 1 (critères géographiques et temporels)

  251 × 291
  

  245 × 1681
  

  245 × 298
  

  Dimension après Filtre 2 (somme ligne ou colonne > 5 individus)

  229 × 186
  

  158 × 273
  

  191 × 123
  

  Dimension après Filtre 3 (suppression des ensembles outliers)
  226 x 183
ensembles 5.01
  146.01
  146.02  
  154 x 266
ensembles 5.01
  146.01
  146.02
  3.01
  187 x 113
ensembles 12.01
  47.01
  3.01
  23.05
Fig. 15 - Dimension des jeux de données après application des différentes étapes de filtrage.

4-3 | Méthode de classification pour la construction de la périodisation : hclustcompro

L’un des objectifs de ce travail est de construire une périodisation des ensembles stratigraphiques à partir des deux sources d’information disponibles pour chaque ensemble : la céramique et la datation individuelle. La notion de périodisation en archéologie peut renvoyer à celle de classification en statistique. Nous avons donc imaginé une méthode de classification ascendante hiérarchique spécifique : hclustcompro, nommé perioclust lors de sa publication (Bellanger, Coulon et Husi 2021a ; 2021c). Cette méthode permet de réaliser une classification en trouvant le compromis adéquat entre les deux classifications possibles issues des deux sources d'informations.

Cette méthode permet de réaliser une Classification Ascendante Hiérarchique (en abrégé CAH, voir (Nakache et Confais 2005 ; Everitt et al. 2001) compromis entre plusieurs possibles, construite comme une aide à l’élaboration de la périodisation en archéologie. Elle a pour originalité de tenir compte des deux sources principales d’information, potentiellement sujettes à des incertitudes mais associées aux mêmes observations : les datations individuelles des ensembles stratigraphiques et les assemblages céramiques qui leur sont associés. Elle conduit à déterminer des classes d’ensembles qui peuvent être vues comme un compromis entre celles associées à chaque source d’information prise séparément. Les classes ainsi formées, serviront à définir la périodisation des ensembles stratigraphiques (Bloc 1-1) puis la chrono-typologie du BLM (Bloc 1-2).

La démarche de construction de la périodisation comprend les étapes suivantes : (i) comparaison des dendrogrammes associés à chaque source d’information (ii) partitionnement des ensembles par hclustcompro appliquée à chaque technique de quantification (NMI, NTI, NIF) (iii) construction des périodisations intermédiaires découlant de chacune des trois techniques de quantification et enfin (iv) construction de la périodisation générale par comparaison des périodisations intermédiaires.

4-3-1 | démarche statistique

La construction d’un arbre hiérarchique ascendant nécessite de munir l’ensemble des éléments à classifier (ici les ensembles stratigraphiques) d’une mesure de distances. Avant de détailler la méthode de compromis entre classification hclustcompro, commençons par décrire les distances entre ensembles associées à chacune des deux sources d’information (céramiques et datation individuelle). En effet, hclustcompro consiste à réaliser une CAH à partir d’une matrice des distances correspondant à une moyenne pondérée des matrices de distances associées à chacune des sources.

Matrices de dissimilarités \(D_1\) et \(D_2\) associées à chaque source d’information


- Construction de \(D_1\) : information sur la céramique

La matrice de distances entre les différents ensembles, notée \(D_1\), est obtenue en calculant la matrice de distances euclidiennes normalisées entre coordonnées des ensembles sur les k premiers axes d’une AFC réalisée sur corpus céramique (NMI ou NTI ou NIF) après l’étape de pré-traitement. (Bloc 4-2). Le nombre k d’axes à conserver s’effectue en regardant le pourcentage cumulé d’inertie expliquée et en appliquant la règle du coude : on choisit le nombre d’axes de sorte que l’ajout d’un autre axe n’augmente pas beaucoup l’inertie cumulée.


- Construction de \(D_2\) : Information sur les datations individuelles

Dans le cas présent, les datations individuelles sont des fourchettes/plages temporelles connues pour chaque ensemble. La dissimilarité entre plages temporelles est calculée à partir du ratio du Recouvrement des plages temporelles (Eloignement dans le cas où les deux plages sont disjointes) par l’étendue cumulée des deux. La figure 16 présente la construction de cet indice.

Fig. 16 - Indice de recouvrement entre plages temporelles.

L’algorithme 1 détaille les étapes nécessaires pour transformer cet indice de recouvrement en indice de dissimilarité entre ensembles valant 0 si les deux plages temporelles sont identiques et 1 quand elles sont éloignées de manière infinie. Cette dissimilarité traduit la proximité temporelle entre deux ensembles. La matrice notée \(D_2\) contient l’ensemble des valeurs normalisées.

Algorithme 1

Comparaison des arbres hiérarchiques ascendants associés à \(D_1\) et \(D_2\)

Avant de vouloir combiner l’information associée à \(D_1\) et \(D_2\) pour classifier les ensembles, il est important d’observer dans quelle mesure chaque source (céramique et datations individuelles) prise séparément conduit ou non à un arbre hiérarchique ascendant (encore appelé dendrogramme) plus au moins similaire. Ainsi, si les dendrogrammes obtenus sont différents, on peut considérer que l’information apportée par chaque source diffère ; tenir compte des deux sources ne pourra qu’enrichir la classification.

Une CAH est réalisée à partir de \(D_1\) et \(D_2\) séparément. Les deux dendrogrammes sont alors comparés à l’aide d’un traquogramme et de deux indices : l’entanglement et la corrélation cophénétique. L’entanglement correspond à l’enchevêtrement entre les deux dendrogrammes. Il prend des valeurs entre 0 et 1 ; plus il est proche de 0, plus les dendrogrammes sont semblables. La corrélation cophénétique se définit comme la corrélation entre les distances cophénétiques (Everitt et al. 2001) issues des deux dendrogrammes. La distance cophénétique entre deux individus (ici ensembles) est la hauteur nécessaire sur le dendrogramme afin de les réunir dans un même groupe. On calcule le coefficient de corrélation linéaire entre ces deux matrices de distances ; plus la corrélation est proche de 1, plus les dendrogrammes sont similaires.

Si à la suite de cette étape, les deux dendrogrammes s’avèrent différents, il y a donc un intérêt à tenter de combiner les sources d’information pour classifier les ensembles à l’aide d’une méthode adaptée.

Compromis entre classification : la méthode hclustcompro

Description de la méthode

hclustcompro (Bellanger, Coulon et Husi 2021a ; 2021c) est un algorithme de compromis entre classification ascendante hiérarchique (CAH). Il a été développé pour répondre à des problématiques archéologiques impliquant les notions d’ordre, ici chronologique, mais son utilisation peut également s’étendre à d’autres domaines (ex : écologie, santé). Cet algorithme d’apprentissage semi supervisé prend en compte deux types d’information. Dans notre cas, pour chaque ensemble, la première source d’information correspond aux données céramiques quantifiées (NMI, NTI, NIF) et la seconde à la datation proposée par les archéologues en fonction de leur connaissance du contexte local. Le principe de hclustcompro est de déterminer la matrice de dissimilarité D, meilleure combinaison linéaire convexe des matrices de dissimilarités \(D_1\) et \(D_2\) associées aux deux sources d’information.

\(D_\alpha\) , moyenne pondérée des dissimilarités, est définie par :

$$ D_\alpha = \alpha D_1 + (1-\alpha ) D_2 \qquad \textrm{(4.1)} $$

où \(\alpha∈[0;1]\) ; \(D_1\) représente la matrice de dissimilarités entre ensembles associée à l’information céramique et \(D_2\) représente la matrice de dissimilarités entre ensembles associée à l’information sur les datations. Ainsi, \(\alpha=1\) (resp. \(\alpha=0\)) correspond au cas où \(D_\alpha=D_1\) (resp. \(D_\alpha=D_2\)), pour lequel l’algorithme de CAH ne prend en compte que l’information sur la céramique représentée par \(D_1\) (resp. sur la datation avec \(D_2\)).

La détermination du paramètre \(\alpha\) dans (4.1) est le point-clé de la méthode hclustcompro. En effet, une fois ce choix effectué, un algorithme CAH classique est appliqué à \(D_\alpha\). L’obtention d’une partition avec hclustcompro nécessite donc de fixer : (i) la stratégie d’agrégation de la CAH, (ii) le paramètre de mélange \(\alpha\) puis (iii) le nombre de classes.

Stratégie d’agrégation dans la CAH : choix du critère de Ward

Il existe différentes stratégies d’agrégation de la CAH (Nakache et Confais 2005 ; Everitt et al. 2001). Le coefficient d’agrégation \(Ag\) (aussi appelé coefficient d'agglomération) (Kaufman et Rousseeuw 2005) est un indicateur qui mesure la qualité de la hiérarchie ; c’est l’un des paramètres permettant de décider de la stratégie à adopter en fonction des données étudiées. Dans notre cas, \(Ag\) obtient les valeurs plus élevées avec le critère de Ward. C’est donc la stratégie d’agrégation qui sera mise en œuvre pour l’ensemble des CAH.

Détermination du paramètre de mélange \(\alpha\) dans (4.1)

Comme évoqué précédemment, la détermination du paramètre est le point-clé de la méthode hclustcompro. Ce paramètre traduit l’importance prise par chaque source d’information dans la procédure de classification au travers la matrice de dissimilarité \(D_\alpha\). Il peut prendre toutes les valeurs réelles entre 0 et 1 : quand il vaut 1, les datations individuelles ne sont pas prises en compte ; quand il vaut 0, les assemblages céramiques ne sont pas pris en compte. La sélection du paramètre \(\alpha\) se fait à partir du critère (4.2) que l’on cherchera à minimiser pour obtenir une valeur estimée de (4.3) :

$$ {CorCrit}_\alpha=|Cor(\mathbf{D}_\alpha^{coph},\mathbf{D}_1)-Cor(\mathbf{D}_\alpha^{coph},\mathbf{D}_2)| \qquad \textrm{(4.2)} $$

où \(D_\alpha=\alpha D_1+(1-\alpha)D_2\) et \(D_\alpha^{coph}\) est la distance cophénétique (Everitt et al. 2001) calculée à partir de la CAH avec \(D_\alpha\).

$$\DeclareMathOperator*{\argmin}{argmin} \widehat\alpha = \argmin_{\alpha}({CorCrit}_\alpha) \qquad \textrm{(4.3)} $$

En d’autres termes, \(\widehat\alpha\) minimise la différence en valeur absolue entre deux corrélations : la corrélation entre \(D_1\) et \(D_\alpha^{coph}\) et la corrélation entre \(D_2\) et \(D_\alpha^{coph}\). Ce critère conduit à retenir la valeur de \(\alpha\) associé à un arbre hiérarchique ascendant dont les distances cophénétiques sont autant liées à \(D_1\) qu’à \(D_2\) en termes de corrélation. On peut donc interpréter l’arbre obtenu comme le résultat d’un compromis entre les distances \(D_1\) et \(D_2\).

Afin d’obtenir également une estimation par intervalle de confiance pour le paramètre \(\alpha\), une procédure de ré-échantillonnage a été adaptée aux données et un intervalle de confiance à 95 % a été déterminé par la méthode des percentiles (cf. algorithme 2). A chaque étape de la procédure de ré-échantillonnage, un clone est ajouté aux données. Un clone c de l’observation i se définit comme la copie de l’observation i, avec les mêmes valeurs de dissimilarités dans la matrice \(D_1\) ; mais des valeurs différentes dans la matrice \(D_2\). Cette variation apportée aux données permet de calculer une valeur \(\widehat\alpha^{(c)}\) de \(\alpha\) (réplication) pour l’ensemble des clones c puis d’en déduire un intervalle de confiance par la méthode des percentiles.

Algorithme 2

L’obtention d’un intervalle de confiance permet de fixer une valeur de \(\alpha\) appartenant à cet l’intervalle, interprétable par l’archéologue.

Une fois la valeur de \(\alpha\) fixée, un algorithme CAH avec critère de Ward est appliqué à \(D_\alpha\), un dendrogramme est obtenu. Reste alors à couper le dendrogramme par une droite horizontale pour déterminer le nombre de classes à retenir.

Sélection du nombre de classes à retenir

Plusieurs critères existent pour déterminer le nombre de classes à retenir. Deux indices ont été retenus : la moyenne des silhouettes et la variabilité intra-groupes (en anglais : WSS). L’expertise de l’archéologue, découlant de sa connaissance de la nature du contexte et des données est également prise en compte dans la détermination du nombre de classes.

Moyenne globale des silhouettes

L’indice de silhouette (Rousseeuw 1987) est un indice calculé pour chaque observation (ensemble). Il décrit la bonne appartenance à une classe ou non et prend des valeurs comprises entre -1 (mal classé) et 1 (bien classé). La moyenne des indices de silhouette définit la moyenne globale des silhouettes dans les différentes classes qui composent la partition. Pour déterminer le nombre de classes à retenir, on coupe le dendrogramme à différents niveaux qui fournissent différentes partitions puis on calcule la moyenne globale des silhouettes pour chaque partition possible. On retiendra la partition qui maximise cet indice de qualité.

Variabilité intra-groupe (Within Sum of Square, WSS)

La variabilité intra-groupes mesure le degré d’homogénéité entre les objets appartenant à une même classe. L’objectif est d’obtenir des classes les plus homogènes possible et donc de rendre la variabilité entre les objets d’une même classe la plus faible possible. Pour déterminer le nombre de classes à retenir, on calcule WSS en fonction du nombre de classes sélectionnées puis on choisit le nombre de classes de sorte que l’ajout d’une autre classe n’améliore (diminue) pas beaucoup WSS. Autrement dit, après avoir tracé la courbe de WSS en fonction du nombre de classes, on observe l’emplacement des fortes réductions ("coudes") de WSS sur la courbe pour déterminer un nombre de classes.

hclustcompro est appliquée aux jeux de données issus de chacune des 3 techniques de quantification (NMI, NTI, NIF).

Représentation des périodisations intermédiaires

La partition des ensembles par hclustcompro en fonction des données quantifiées en NMI, NTI et NIF se traduit archéologiquement par la définition de 3 périodisations intermédiaires en grande partie construite sur les classes issues de hclustcompro. Une analyse critique de la classification par l’archéologue peut, à l’aune de ces connaissances, aboutir à une subdivision de certaines classes en périodes différentes. Pour faciliter la lecture, les résultats sont synthétisés dans un graphique des étendues temporelles (Timerange) représentant les datations individuelles des ensembles répartis dans leurs différentes classes. Un timerange a été réalisé pour chaque périodisation intermédiaire (Bloc 4-3-2 : Timerange NMI ; NTI ; NIF).

Le Timerange contient en abscisse les ensembles et en ordonnée les plages de datations. Les ensembles sont ré-ordonnés au sein des classes (périodes) du plus ancien au plus récent. Ce graphe facilite la lecture en fonction de l’échelle temporelle. Un intervalle interdécile, représentant la zone centrale de la population comprenant 80 % de la série des datations dans chaque groupe, est aussi ajouté et limité par deux traits horizontaux (noirs). Ces derniers correspondent respectivement (i) à la date au-dessus de laquelle se trouve 10 % des bornes chronologiques les plus anciennes de chaque plage de datations individuelles (traits du bas), (ii) à la date en dessous de laquelle se trouve 90 % des bornes chronologiques les plus récentes (traits du haut).

Périodisation générale par comparaison des périodisations intermédiaires

Comparaison des résultats obtenus à l’aide des différentes techniques de quantification

L’indice de Rand ajusté (ARI) (Rand 1971 et Steinley 2004) permet de mesurer le degré de similitude entre périodisations intermédiaires. Par construction, l’ARI prend des valeurs au plus égales à 1 ; plus il est proche de 1 plus les partitions sont identiques (0 dans le cas d'une concordance aléatoire, 1 cas d'un accord parfait). Il peut prendre des valeurs négatives lorsque les partitions sont peu liées. Il est ici utilisé pour mesurer la cohérence entre les trois périodisations intermédiaires devenant ainsi une aide à la construction d’une périodisation générale fondée sur les résultats des trois périodisations intermédiaires (Bloc 1-1 ; TGP).

4-3-2 | Application aux données

Matrices de dissimilarités \(D_1\) et \(D_2\) associées à chaque source d’information

Construction de \(D_1\) : données céramiques

Pour les données NMI nous retenons les coordonnées des ensembles sur les 4 premiers axes de l’AFC (soit 21 % de l’inertie totale du nuage de points) ; 3 axes pour les données NTI (9 % de l’inertie totale du nuage de points) et Formes (18.5 % de l’inertie total du nuage de points). Les distances sont ensuite normalisées, en divisant par la distance maximale afin de les ramener entre 0 et 1.

Construction de \(D_2\) : datations

La matrice de dissimilarités \(D_2\) est construite à partir des ensembles datés individuellement (tableau) selon la méthode décrite précédemment (Bloc 4-3-1). Le tableau ci-dessous renvoie à des matrices de dissimilarité différente suivant la technique de quantification choisie (Fig. 18).

NMINTINIF
Dimensions \(D_1\) et \(D_2\)226 × 226154 × 154187 × 187

Fig. 18 - Dimension \(D_1\) et \(D_2\) selon la méthode de quantification

Données en Nombre Minimum d’Individus (NMI)

226 ensembles et 183 groupes techniques équivalent à 19 077 individus.

Comparaison des arbres hiérarchiques ascendants : données NMI et Datations

Avant de prendre en compte chacune des deux sources d’information dans la classification hclustcompro, nous débutons l’analyse en comparant les arbres hiérarchiques ascendants sur les données de céramiques (ici en NMI) et sur les datations individuelles à l’aide d’un Traquogramme (Fig. 19).

Fig. 19 - Données NMI : Traquogramme de l’association entre les jeux de données NMI (à gauche) et Datation individuelle (à droite).

L’indice d’entanglement est faible (0.14) et la corrélation entre distances cophénétiques est proche de 0.5 (0.43). On peut en déduire que les deux dendrogrammes sont proches, sans être identiques. Cela conforte l’idée que les deux sources d’information (céramique et datation individuelle) contiennent une information temporelle un peu différente et qu’une classification non supervisée tenant compte des deux sources est justifiée.

hclustcompro est mis en œuvre sur les données NMI, ce qui nécessite de définir les poids que prendront les deux sources d’information et le nombre de classes ensuite retenues.

hclustcompro : Sélection du paramètre \(\alpha\)

Afin de pondérer les deux sources d’information nous regardons le critère \(CorCrit_\alpha\).

Fig. 20 - Données NMI : critère \(CorCrit_{\alpha}\) en fonction de la valeur de \(\alpha\) (courbe violette). Cette courbe est la différence entre la corrélation entre \(D_1\) et \(D_{\alpha}^{coph}\) et la corrélation entre \(D_2\) et \(D_{\alpha}^{coph}\) (courbes en pointillé gris). Les bornes de l’intervalle de confiance à 95 %, déterminées par la méthode des percentiles (cf. algorithme 2), sont matérialisées par les deux traits verticaux.

La valeur 0.6 est retenue pour le paramètre \(\alpha\), valeur qui minimise le critère (Fig. 20). La CAH se fera donc à partir de la matrice \(D_{0.6}=0.6×D_1+0.4×D_2\) , moyenne pondérée des distances (60 % pour les distances associées aux données céramiques en NMI et 40 % pour les datations individuelles).

hclustcompro : Sélection du nombre de classes

Fig. 21 - Données NMI : moyenne des largeurs des silhouettes (gauche) ; variabilité intra-groupes (droite) en fonction du nombre de classes.

La largeur moyenne des silhouettes favorise une partition entre 5 et 7 classes ; la variabilité intra-groupes donne les meilleurs résultats entre 6 et 7 classes (Fig. 21). Le choix final se porte sur une partition en 7 classes avec une subdivision ultérieure de la classe G (Figs. 22 et 32).

hclustcompro : Partition retenue

Fig. 22 - Données NMI : dendrogramme avec 7 classes dont une (G) subdivisée en 2 sous-classes.

Périodisation intermédiaire NMI : Timerange

Données en Nombre Typologique d’Individus (NTI)

154 ensembles et 266 types de récipients (forme/groupe technique) équivalent à 6 713 individus

Comparaison des arbres hiérarchiques ascendants : données NTI et Datations

Avant de prendre en compte chacune des deux sources d’information dans la classification hclustcompro, l’analyse débute par une comparaison des arbres hiérarchiques ascendants sur les données céramiques (ici en NTI) et sur les datations individuelles à l’aide d’un Traquogramme. (Fig. 24).

Fig. 24 - Données NTI : Traquogramme de l’association entre les jeux de données NTI (à gauche) et Datation individuelle (à droite).

Pour les données NTI, l’indice d’entanglement est moins faible que dans le cas de NMI mais reste inférieur à 0.5 (0.37). La corrélation entre distances cophénétiques est plus basse (0.32). On peut comme dans le cas de NMI en déduire que les deux dendrogrammes sont proches sans être identiques. Cela conforte l’idée que les deux sources d’information (céramique et datation individuelle) contiennent bien une dimension temporelle mais différente et qu’une analyse tenant compte des deux sources est justifiée.

hclustcompro est mis en œuvre sur les données NTI, ce qui nécessite de définir les poids que prendront les deux sources d’information et le nombre de classes ensuite retenues..

hclustcompro : Sélection du paramètre \(\alpha\)

Afin de pondérer les deux sources d’information nous regardons le critère \(CorCrit_\alpha\).

Fig. 25 - Données NTI : critère \(CorCrit_{\alpha}\) en fonction de la valeur de \(\alpha\) (courbe violette). Cette courbe est la différence entre la corrélation entre \(D_1\) et \(D_{\alpha}^{coph}\) et la corrélation entre \(D_2\) et \(D_{\alpha}^{coph}\) (courbes en pointillé gris). Les bornes de l’intervalle de confiance à 95 %, déterminées par la méthode des percentiles (cf. algorithme 2), sont matérialisées par les deux traits verticaux.

La valeur 0.54 est retenue pour le paramètre \(\alpha\), valeur qui minimise le critère (Fig. 25). La CAH se fera donc à partir de la matrice \(D_{0.54}=0.54×D_1+0.46×D_2\) , moyenne pondérée des distances (54 % pour les distances associées aux données céramiques en NMI et 46 % pour les datations individuelles).

hclustcompro : Sélection du nombre de classes

Fig. 26 - Données NTI : moyenne des largeurs des silhouettes (gauche) ; variabilité intra-groupes (droite) en fonction du nombre de classes.

Ici l’indice moyen de silhouette n’est pas d’une grande aide car relativement stable à partir de 3 classes. En revanche, la variabilité intra-groupes favorise une partition en 6 ou 7 classes (Fig. 26). Nous retenons 6 classes avec une subdivision des classes A et F (Figs. 27 et 28).

hclustcompro : Partition retenue

Fig. 27 - Données NTI : dendrogramme avec 6 classes dont deux (A et F) subdivisées en 2 sous-classes.

Périodisation intermédiaire NTI : Timerange

Données en nombre d’individus par forme (NIF)

187 ensembles et 113 formes équivalent à 8 534 individus.

Comparaison des arbres hiérarchiques ascendants : données NIF et Datations

Avant de prendre en compte chacune des deux sources d’information dans la classification hclustcompro, l’analyse débute en comparant les arbres hiérarchiques ascendants sur les données céramiques (ici en NIF) et sur les datations individuelles à l’aide d’un Traquogramme. (Fig. 29).

Fig. 29 - Données NIF : Traquogramme de l’association entre les jeux de données NIF (à gauche) et Datations individuelles (à droite).

Pour les données en NIF l’indice d’entanglement est faible (0.16) et la corrélation entre distances cophénétiques élevée (0.62). On peut en déduire que les deux dendrogrammes sont proches sans être identiques. Cela conforte l’idée que les deux sources d’information (NIF et datation individuelle) contiennent bien une dimension temporelle mais différente et qu’une analyse tenant compte des deux sources est justifiée.

hclustcompro est mis en œuvre sur les données NIF, ce qui nécessite de définir les poids que prendront les deux sources d’information et le nombre de classes qui sera retenu à la fin.

hclustcompro : Sélection du paramètre \(\alpha\)

Afin de pondérer les deux sources d’information nous regardons le critère \(CorCrit_\alpha\).

Fig. 30 - Données NIF : critère \(CorCrit_{\alpha}\) en fonction de la valeur de \(\alpha\) (courbe violette). Cette courbe est la différence entre la corrélation entre \(D_1\) et \(D_{\alpha}^{coph}\) et la corrélation entre \(D_2\) et \(D_{\alpha}^{coph}\) (courbes en pointillé gris). Les bornes de l’intervalle de confiance à 95 %, déterminées par la méthode des percentiles (cf. algorithme 2), sont matérialisées par les deux traits verticaux.

La valeur 0.6 est retenue pour le paramètre \(\alpha\), valeur qui minimise le critère (Fig. 30). La CAH se fera donc à partir de la matrice \(D_{0.6}=0.6 × D_1 + 0.4 × D_2\), moyenne pondérée des distances (60 % pour les distances associées aux données céramiques en NMI et 40 % pour les datations individuelles).

hclustcompro : Sélection du nombre de classes

Fig. 31 - Données NIF : moyenne des largeurs des silhouettes (gauche) ; inertie intragroupe (droite) en fonction du nombre de classes.

L’indice moyen de silhouette favorise légèrement une partition en 3 classes (Fig. 31). Les connaissances archéologiques et la variabilité intra-groupes conduisent à choisir une partition en 6 classes. Les classes A et F sont ensuite subdivisées (Figs. 32 et 33).

hclustcompro : Partition retenue

Fig. 32 - Données NIF : dendrogramme avec 6 classes dont 2 (A et F) subdivisées en 2 sous-classes.

Périodisation intermédiaire NIF : Timerange

4-3-3 | De la synthèse des partitions (NMI, NTI et NIF) au tableau général de périodisation

Les résultats sont globalement stables, exception faite du nombre d’ensembles du jeu de données NMI (226) par rapport à celui des jeux de données NTI et NIF (306). Cette différence vient de l’obligation d’un effectif supérieur à 5 individus (ligne/colonne) imposé par la méthode qui impacte plus fortement le jeu de données NMI. Cela n’affecte pas le nombre identique de 8 classes constitutives des trois périodisations intermédiaires (Fig. 34).

NMINTINIF
Nb d'ensembles226154187
\(\alpha\)60 %54 %60 %
Nb de classes : hclustcompro766
Nb de classes : périodisation intermédiaire888
Fig. 34 – Synthèse des résultats hclustcompro et des périodisations archéologiques.

Pour compléter ce résultat, les trois partitions hclustcompro peuvent également être comparées à l’aide de l’indice de Rand ajusté (ARI) (Fig. 35). Plus cet indice est proche de 1 et plus les partitions sont structurellement proches.

ARINMINTINIF
NMI10.750.51
NTI0.7510.58
NIF0.510.581
Fig. 35 - Comparaison des partitions hclustcompro : Indice de Rand ajusté.

Alors que les partitions NMI et NTI sont les plus proches avec un coefficient ARI de 0.75, on constate que la classification prenant en compte le jeu de données NIF se différencie légèrement des deux autres avec un coefficient un peu inférieur (Fig. 35).

Une analyse fine des ensembles composants les classes, qui n’est pas présentée ici pour ne pas alourdir le discours, a permis de montrer la bonne robustesse des partitions (NMI, NTI, NIF). Ainsi, ces partitions présentant de grandes similitudes peuvent servir de manière combinée à construire une périodisation générale à l’échelle du BLM, fondée sur les résultats des trois périodisations intermédiaires (Bloc 1-1). Cette synthèse des résultats est résumée dans le Tableau Général de Périodisation (TGP).

4-4 | Méthode de classification pour les analyses spatiales : MapClust

Une fois le cadre chronologique fixé, il est possible d’interroger la céramique pour répondre aux questions socio-économiques et fonctionnelles qui passent fréquemment par une analyse spatiale des données mobilières. C’est dans ce sens qu’a été développé l’outil mapclust (Bellanger, Coulon et Husi 2021b) qui se définit comme une méthode de classification hiérarchique descendante sous contrainte de proximité géographique.

4-4-1 | La méthode de classification pour l’analyse spatiale : mapclust

La classification hiérarchique d’individus, méthode très répandue, conduit à une chaîne de partitions emboîtées que l’on peut représenter par un dendrogramme. Deux approches existent pour créer une partition hiérarchique (Everitt et al. 2001) : (i) l’approche ascendante, (ii) l’approche descendante. Elle peut être envisagée en introduisant des contraintes géographiques qui permettent de prendre en compte les proximités géographiques. Une approche ascendante a été développée par Chavent et al. (2018). L’algorithme mapclust adopte une approche hiérarchique descendante sous contrainte de proximité géographie basée sur des indicateurs spatiaux (centre de gravité et patchs spatiaux). L’utilisation d’indicateurs spatiaux (Woillez et al. 2009) permet (i) de décrire et visualiser la distribution spatiale de la variable d’intérêt ; (ii) d’identifier des regroupements spatiaux de lieux (patchs).

Indicateurs spatiaux

Différents indicateurs spatiaux peuvent être utilisés pour décrire, de façon simple, les schémas spatiaux de distribution d’un ensemble d’individus. Ils permettent entre autres de caractériser la position (centre de gravité et patchs spatiaux). Woillez et al. (2009) les décrit en détails, dans le cadre d’une population halieutique. La variable d’intérêt, notée z, peut s’apparenter à un comptage, une fréquence ou une variable réelle positive.

Le centre de gravité (\(CG\) est défini comme la position moyenne du phénomène étudié dans l’espace. Notant \(s_i=(x_i,y_i ),i=1,…,N\) les points de l’espace à deux dimensions et \(z(s_i)\) la valeur de la variable régionalisée \(z\) mesurée en \(s_i\), on définit en pratique \(CG\) par :

$$ CG=\frac{\sum_{i=1}^{N}s_i z(s_i)}{\sum_{i=1}^{N}z(s_i)}~~~~(4.4) $$

La répartition spatiale des données peut être hétérogène et présenter des agrégations locales ou patchs. P. Petitgas a proposé un algorithme qui permet de les identifier : un point si est attribué à un patch selon sa valeur z(si) et sa distance aux autres patchs existants. La position d’un patch est alors déterminée par son centre de gravité. L’algorithme commence par la plus grande valeur de z et considère ensuite chaque observation par ordre décroissant de valeur de z. La plus forte valeur initie le premier patch. Puis, l’observation considérée est attribuée au patch le plus proche, à condition que sa distance avec le centre de gravité du patch soit plus petite que la distance seuil (notée dlim : distance limite). Sinon, l’observation forme un nouveau patch (Fig. 36).

Fig. 36 : Algorithme de détermination des patchs spatiaux extrait de Woillez et al. 2009.

Les résultats sur les patchs spatiaux sont bien sûr influencés par le choix du seuil dlim et la localisation des valeurs les plus élevées de z.

Le principe de mapclust

Afin de mieux comprendre l’imbrication des espaces, la construction de patchs spatiaux est appliquée de manière hiérarchique en faisant varier la distance maximale acceptable (\(dlim\) entre points d’observation \(s_i\) et centre de gravité d’un patch. Cette approche, conduit à une Classification Descendante Hiérarchique (Everitt 2001) basée à chaque étape sur une approche k-means : chaque nœud (patch parent) de la hiérarchie est divisé en deux patchs (nœud fils) jusqu’à ce que l’on obtienne une seule observation par groupe (Fig. 37) (Cf. Algorithme 3).

Fig. 37 : Dendrogramme obtenu avec la méthode MapClust.

Si la variable d’intérêt régionalisée \(z\) ne prend pas des valeurs positives tel un comptage ou n’est pas univariée, \(z\) est alors remplacée par sa densité estimée \(\widehat{f}(z)\) dans l’algorithme de classification mapclust (Cf. Algorithme 1). Cette extension de mapclust, basée sur la transformation de \(z\) en \(\widehat{f}(z)\) à valeurs réelles comprises entre 0 et 1, s’inspire de la méthode de classification basée sur la densité proposée par Hartigan (1981). L’estimation de la densité de probabilité \(f\) est obtenue par la méthode du noyau (Parzen 1962) en chaque point d’observation \(z(s_i)\). L’équation (4.4) est alors modifiée pour calculer \(CG\) :

$$ CG=\frac{\sum_{i=1}^{N}s_i \widehat{f}(z(s_i))}{\sum_{i=1}^{N}\widehat{f}(z(s_i))}~~~~(4.5)$$
Algorithme 3 : mapclust

La méthode de classification mapclust conduit à un arbre hiérarchique descendant qui se lit de haut en bas.

Reste alors à couper le dendrogramme par une droite horizontale pour déterminer le nombre de classes à retenir. L’évaluation du nombre de classes de la partition à retenir est fondée sur deux indices de qualité : la variabilité intra-groupes (WSS) et la moyenne globale des largeurs des silhouettes (Bloc 4-3-1). Comme pour hclustcompro, l’expertise de l’archéologue est ici également prise en compte pour déterminer le nombre de classes à retenir.

4-4-2 | Application aux données associées aux propositions logicistes {P0} et {P1}

Dans le cadre de cette publication, la méthode de classification mapclust est mise en œuvre pour répondre aux questions spatiales des propositions logicistes (Bloc 2 et Bloc 3). Le prérequis à la démarche logiciste est que les propositions initiales {P0} mobilisent la totalité des données et ont comme objectif de répondre à une question précise à partir d’un sous-jeu de données ciblé. Les propositions de niveaux supérieurs {P1 à Pn} n’introduisent donc pas de nouvelles données, mais peuvent faire l’objet en {P1} d’analyses du même type à partir des résultats acquis en {P0} (Intro 3-2 ; Intro 3-3).

Lorsque les propositions {P0} abordent des questions spatiales, elles ne se réfèrent qu’à un seul critère, par exemple la répartition spatiale des céramiques de couleur blanc-beige dans le BLM (Bloc 3 Section 1 : P0-20). Dans ce cas, le sous-jeu de données retenu croise les ensembles étudiés avec l’unique modalité étudiée (eg couleur blanc-beige). mapclust utilise alors la formule 4.4 pour le calcul du Centre de Gravité (CG) puisque la variable d’intérêt s’apparente à un comptage ou une fréquence.

Les résultats de plusieurs propositions de niveau initial {P0} peuvent nourrir une proposition de niveau supérieur {P1}. Bien que déjà perçu à partir d’un seul critère en {P0}, il est possible d’observer des tendances ou des mécanismes plus structurants à partir de différents critères en {P1} (plusieurs critères issus de {P0}) comme par exemple la répartition spatiale des céramiques de couleur blanc-beige et ocre-rouge dans le BLM (Bloc 3 Section 1 : P2-1 (I)). Dans ce cas, on passe d’une approche unidimensionnelle (une modalité d’une variable) à multidimensionnelle (plusieurs modalités d’une ou plusieurs variables). mapclust utilise alors, pour le calcul du Centre de Gravité (CG), la formule 4.5 qui utilise comme variable d’intérêt \(\widehat{f}\) la densité estimée associée aux premières composantes d’une AFC calculée sur le sous-jeu de données croisant les ensembles étudiés et les modalités retenues pour la comparaison. Cette transformation est nécessaire pour obtenir une variable d’intérêt (i) à partir de données multidimensionnelles, (ii) à valeurs positives ou nulles.

Fermer

Synthèse historique de la section 1

Définir les aires économiques et culturelles à partir de la céramique impose d’aborder la question : (i) sous l’angle des traditions de fabrication, relevant des innovations, des effets de mode ou de la concurrence entre produits ; (ii) sous l’angle des flux commerciaux régis par les relations entre espaces au sein du BLM et par celles entretenues avec l’extérieur. En effet, la porosité entre espaces de traditions différentes s’observe à partir des échanges de vaisselle dont la capacité de pénétration innovante ou esthétique reste insuffisante pour devenir concurrentielle et donc remettre en cause la structure même des espaces préalablement définis. On peut alors admettre que la céramique, au même titre que d’autres sources matérielles ou écrites, participe à la construction d’aires culturelles pour lesquels les acteurs développent un sentiment d’appartenance, tout en conservant des relations avec l’extérieur.

Pour une compréhension globale de la démarche, en suivant un raisonnement hypothético-déductif, d’inférence déduite des prémisses (de droite à gauche du diagramme), cette section est structurée autour de cette double entrée : (i) tradition de fabrication (Proposition P4-1 et déduites de niveaux inférieurs jusqu’aux P0-1 à P0-59) ; (ii) flux commerciaux (Proposition P3-2 et déduites de niveaux inférieurs jusqu’aux P0-60 à P0-78). En outre, l’ordre donc la lecture des propositions P0 et induites de niveaux supérieurs est autant que possible chronologique, permettant de suivre la transformation des aires culturelles dans le temps long.

Inversement, la courte synthèse historique ci-après suit une lecture empirico-inductif, d’inférence par généralisation des observations (de gauche à droite du diagramme). S’agissant de présenter le raisonnement et les principaux résultats, nous avons fait ici le choix de ne pas remonter jusqu’aux nombreuses données primaires des propositions P0 directement accessibles par ce menu comme preuves du discours.

Traditions de fabrication de la céramique

Les changements dans les traditions de fabrication de la vaisselle en terre cuite entre le 6e et le 17e s. donnent une première image des aires culturelles qui structurent de BLM. Alors que l’héritage antique est encore prégnant jusqu’au milieu du 7e s. (P1-1), c’est à partir de cette date qu’il devient pertinent de parler d’une vaisselle médiévale avec des techniques et des formes génériques qui perdurent pour certaines jusqu’à la période moderne (P1-2). Les transformations techno-typologiques et stylistiques observées à partir du 7e s. et jusqu’au 10e s. redessinent un espace du BLM auparavant assez homogène (P1-1), en deux aires fondées sur des traditions de fabrication distinctes : (i) l’une du sud-ouest avec la Touraine, le Haut-Poitou et plus marginalement le Berry, dont les productions sont de couleur blanc-beige, pour certaines décorées de peinture en bandes et parfois d’une glaçure plombifère ; (ii) l’autre du nord-est avec le Blésois et l’Orléanais dont les productions sont de couleur ocre-rouge, parfois engobées et lissées, mais sans glaçure. La limite entre ces deux espaces passe par une ligne nord-sud quasi-perpendiculaire à la Loire située entre Tours et Blois (P2-1).

Bien que la vaisselle change à partir du 11e s. (P1-5), cette partition en deux aires, blanc-beige et ocre-rouge (P1-3) perdure jusqu’au 15e s. (P3-1). Elle se distingue également au travers des mécanismes de production des récipients (P1-4) avec probablement de petits ateliers pour l’espace sud-ouest et de manière certaine de grands centres de production comme Saran pour l’espace nord-est. En revanche, avec l’apparition de nouvelles traditions céramiques dans le Berry, le Haut Poitou ou le pays Chartrain surtout à partir du 13e s., on assiste à un recentrage progressivement d’un faciès céramique propre au BLM le long de la vallée de la Loire au détriment des espaces limitrophes (P2-2).

Un nouveau changement important dans la vaisselle intervient à l’aube de la période moderne à la fin du 15e s. (P1-6), phénomène qui s’accentue au 17e s. avec l’apparition du grès puis de la faïence (P1-7) donnant l’image d’un espace culturel plus homogène comparé aux périodes précédentes (P2-3). Bien qu’inscrites au moins depuis le début du haut Moyen Âge dans la mouvance d’une tradition céramique de l’Europe du nord-ouest, les multiples transformations des aires fondées sur la céramique du 6e au 17e s. montrent que le changement le plus marquant intervient entre la fin du 15e s. et le début du 16e s. Cette rupture dans les traditions de fabrication annonce un véritable décloisonnement de l’espace du BLM qui s’observe notamment avec la disparition de la partition sud-ouest et nord-est prégnante depuis le 8e s., conséquence de la concurrence de nouveaux produits issus de grands ateliers extrarégionaux (P4-1).

Commerce, flux et échanges de la céramique

En se référant maintenant aux récipients en terre cuite qui ont circulé et non plus comme précédemment aux traditions de fabrication communes à un ou plusieurs espaces du BLM, il est possible d’appréhender le commerce de la vaisselle et indirectement celui de certaines denrées alimentaires en l’occurrence le beurre et secondairement le sucre à partir des emballages utiles à leur transport et à leur conservation.

Les mécanismes d’approvisionnement, notamment des principaux centres de consommation que sont les villes du BLM, révèlent des aires économiques essentiellement locales, ne dépassant gère 40 km (P0-65) et pour les apports exogènes dépendant fortement de la plus ou moins grande proximité des ateliers. Ne sont importés des ateliers les plus lointains, que les récipients les plus ostentatoires ou originaux de leurs productions pour la vaisselle (P1-9) ou ceux adaptés au transport et à la conservation des denrées alimentaires (P1-8).

On observe une certaine stabilité des aires économiques, les réseaux d’échanges n’attestant que de faibles contacts entre la partie sud-est Touraine/Haut Poitou et nord-est Blésois/Orléanais jusqu’à la fin du 15e s., moment où le cloisonnement micro-régional s’estompe pour laisser place à un espace de la Loire moyenne plus ouvert (P2-5). En effet, le commerce de vaisselle majoritairement centré sur la Loire n’entretient de relations qu’avec les régions limitrophes du BLM jusqu’à la fin du 15e s. (P2-6). A cette date, l’apport des productions issues de grands ateliers extra-régionaux parfois lointains comme ceux du Beauvaisis ou de la Puisaye pour la vaisselle (P0-70), de la Normandie et de la Mayenne pour le beurre, d’un espace Loire plus large pour le sucre (P2-4) modifie profondément les réseaux d’approvisionnement à longue distance, le BLM étant alors résolument ouvert sur l’extérieur (P3-2).

Pour conclure et en se référant aux traditions de fabrication comme aux réseaux commerciaux se dessinent des aires économiques locales autour des villes constitutives de deux aires culturelles plus vastes, sud-ouest et nord-est structurant le BLM entre la fin du 7e et la fin du 15e s. Cette image d’espaces cloisonnés d’amont en aval de la Loire moyenne inscrite dans la longue durée est en contradiction avec l’idée d’un fleuve représentant un axe de communication suffisamment important pour lisser tout particularisme culturel local. Il faut attendre la fin du 15e s. pour que s’estompent progressivement ces spécificités principalement locales, le BLM s’inscrivant alors durablement dans les réseaux d’échanges de l’Europe du nord-ouest (P5-1).

Synthèse historique de la section 2

Le mobilier archéologique étant globalement considéré comme un bon marqueur social, il s’agit ici d’évaluer la place de la céramique, vaisselle et emballage, en regard des autres objets à notre disposition comme indicateur du statut des populations résidents sur les sites mobilisés. Bien sûr, les pièges sont nombreux. Pris dans sa globalité le mobilier ne reflète pas vraiment une population socialement homogène mais souvent la présence parmi d’autres d’une population particulière plus aisée avec la présence de mobilier luxueux souvent ostentatoire.

Nous faisons ici le choix d’un classement fonctionnel des sites, préalable à l’analyse de la céramique et plus globalement du mobilier, en quatre grandes catégories : castral-résidentiel, monastique, civil urbain, civil rural. Un autre choix consiste à réaliser une étude diachronique du 6e au 19e s., sans tenir compte d’un découpage en grandes périodes, l’objectif étant ici d’évaluer globalement l’apport de la céramique comme source d’interprétation sociale. Fonder l’analyse sur un corpus périodisé aurait eu pour conséquence d’introduire une grande disparité, une atomisation, voire une quasi-absence de données pour certains types de sites, choix plus négatif que source d’explication pour identifier des grandes tendances entre sites.

La courte synthèse historique suit une lecture empirico-inductif, d’inférence par généralisation des observations (de gauche à droite du diagramme). L’analyse d’abord de la vaisselle en terre cuite à partir des techniques utilisées (P0-1) des décors ostentatoires (P0-2), de la fonction et de l’éventail des formes de récipients (P0-3 ; P0-6), mais également de la présence de récipients en verre et très secondairement en métal (P0-4 ; P0-5) montrent que la vaisselle de qualité se retrouve essentiellement sur les sites monastiques, puis castraux au détriment des autres sites urbains et ruraux (P1-1). L’étude de la consommation du beurre importé de Normandie dont témoignent les emballages retrouvés dans les sites de consommation du BLM va dans le même sens avec une concentration de ces récipients sur les sites castraux puis monastiques (P0-7). Les objets personnels de parures (P0-8), de divertissement (P0-9) parfois très luxueux, d’outillages (P0-10) attestent un clivage socio-fonctionnel des sites, proches de celui révélé par la vaisselle. Cependant, il existe une certaine nuance puisque la grande diversité des objets comme les plus luxueux d’entre eux sont principalement attestés sur les sites castraux au détriment des sites monastiques (P2-1). Bien que cette analyse aille dans le sens d’une hiérarchie sociale des sites largement pressentie, un apport intéressant de cette contribution est la pertinence de la vaisselle en terre cuite (P1-1) par rapport aux autres objets (P2-1) comme source explicative de la place non négligeable tenue par les sites monastiques dans cette hiérarchie, comparés aux sites castraux. Ce résultat est d’autant plus original qu’il est ici étayé par une analyse fine de données issues d’un large éventail de sites.