Dictionnaire de fréquence
des mots
de L'Astrée
L'homme ne peut chercher
ce qu'il ne cognoit pas,
pour ce qu'il ne scait que chercher.
Equicola,
Les Six livres, Livre 6, f° 344 recto.
1 Orientation
Ce DICTIONNAIRE traite les quatre premières parties de L'Astrée sous leur forme Fonctionnelle. Dérivé d'Hyperbase (QUASTRE), c'est un document téléchargeable en format Microsoft Excel (8 Moctets).
La colonne A liste tous les Mots de L'Astrée.
La colonne B introduit des Notes pour distinguer les homonymes.
La colonne C, Total, donne la somme des quatre colonnes suivantes, celles qui contiennent le nombre d'occurrences dans la première, deuxième, troisième et quatrième partie.
Le tableau indique aussi le Nombre de mots dans le roman et dans chacune de ses parties.
Consultez la dernière version de dictionnaire.xlsx pour les mises à jour.
Les cinq colonnes qui suivent (H-L) donnent les fréquences exprimées en millionième. Ce renseignement est important parce que les quatre parties sont de longueurs différentes. Ainsi, la première contient 24 % des mots, la deuxième 28 %, la troisième 34 % et la quatrième seulement 15% (voir plus bas).
Au bas du fichier dictionnaire.xlsx, des onglets donnent accès à d'autres configurations :
Dans les configurations Hiérarchique et Personnages, une colonne supplémentaire indique le classement hiérarchique.
Voici les premières lignes de la configuration Hiérarchique pour les quatre parties du roman :
Avec Excel, des classements différents sont possibles.
La configration Source, dissimulée, contient les informations utilisées dans toutes les configurations ainsi que des renseignements supplémentaires pour effectuer d'autres analyses. Ces configurations sont des copies. Changer les données de l'une ne change pas automatiquement les autres.
2-1 « Et alors ? »
« On a compté trois millions de mots chez Zola. Et alors ? », écrit Étienne Brunet (Comptes I, p. 151).
Que peut-on déduire de ces milliers de nombres ? Les caractéristiques de la langue d'Honoré d'Urfé, l'étendue de son érudition, et aussi ses centres d'intérêt, voire ses valeurs.
Examinons le statut d'un nom commun qui indique l'optimisme croissant du romancier, CONTENTEMENT η. Comment se compare-t-il avec DE, le mot le plus fréquent de L'Astrée et de la langue française ? DE revient 40 518 fois par million de mots dans le roman. CONTENTEMENT et son pluriel reviennent 629 + 67 = 696 fois par million de mots dans le roman : fréquence 696. Mais CONTENT et ses dérivés sont de plus en plus fréquents :
Comment CONTENTEMENT se compare-t-il avec son contraire, TRISTESSE ?
Même si l'on ajoute les six occurrences de ATTRISTER, CONTENTEMENT l'emporte haut la main.
2-2 Richesse du vocabulaireLa richesse du vocabulaire ne dépend pas seulement du nombre de mots, mais aussi du nombre de mots différents et du nombre de mots rares.
Pour voir les colonnes de calcul, utilisez les fonctions d'Excel.
La notion de 'mots différents' ne doit pas induire en erreur :
AIMER par exemple apparaît sous 37 formes différentes.
Hyperbase calcule les mots différents, mais arrive à d'autres résultats en suivant d'autres critères (voir plus bas).
Le DICTIONNAIRE calcule le nombre d'hapax (mots employés une seule fois) :
Ce calcul se fait au niveau des parties. Un mot qui n'apparaît qu'une fois dans une partie compte comme un hapax pour cette partie. Si ce mot revient dans une autre partie, il n'est pas considéré comme un hapax pour l'ensemble du roman. Par exemple, 'abandonné' n'apparait qu'une fois dans la première partie et dans la deuxième partie. C'est un hapax pour chacune de ces parties, mais ce n'est pas un hapax pour le roman, puisqu'il apparait deux fois. C'est pourquoi la somme des hapax des parties est bien plus élevée que la somme des hapax du roman.
Hyperbase, par contre, compte les hapax uniquement au niveau du roman :
2-3 Le cas particulier de la quatrième partie
La quatrième partie a un vocabulaire plus pauvre que les autres, ce qui souligne son statut de brouillon (Les Quatrièmes parties). Honoré d'Urfé n'avait pas encore ajouté les commentaires et agencements qui enrichissent les autres parties.
2-4 Les personnages les plus nommésL'onglet Personnages complète l'INDEX DES NOMS PROPRES. Alors que l'INDEX indique le nombre de femmes et d'hommes dans L'Astrée, le DICTIONNAIRE montre les occurrences. Il peut aussi classer les personnages selon la fréquence de leurs apparitions.
Attention : les nombres indiquent les occurrences par million de mots.
Quels sont les vingt personnages qui apparaissent le plus souvent dans le roman ? Les résultats surprennent, mais donnent en partie raison au perspicace Charles Sorel : « Trouve-on à propos que ce livre s'appelle l'Astrée, veu que dans tous les Volumes l'on parle plus de Diane, de Galathée, de Sylvie et des autres, que de ceste bergere ? » (p. 504).
Total des quatre parties
Diane et Silvandre sont incontestablement les héros. Céladon, attaché à Alexis, les supplante. Astrée reste en troisième position. Phillis et Hylas se joignent aux deux couples pour former le peloton de tête. Tous les autres personnages les suivent de loin, avec moins de la moitié des fréquences.
Les classements par parties diffèrent sensiblement :
Dans la première partie, Céladon se trouve en position de tête alors qu'Astrée est en septième position, peut-être parce que c'est elle qui raconte l'histoire du couple. Diane aussi raconte sa propre histoire ; elle dépasse quand même Astrée. La gentille Phillis qui porte secours à ses deux amies les devance. Les gens du château, nymphes ou chevaliers, jouissent d'une place qu'ils ne retrouveront jamais.
Première partie
Dans la deuxième partie, Silvandre, Phillis et Diane se partagent le podium : c'est le temps de la gageure. Céladon vit caché. Quel est le personnage historique le plus souvent nommé ? Valentinien III, l'empereur romain dont l'assassinat marque le début de la chute de l'empire.
Deuxième partie
Dans la troisième partie, Hylas prend la tête, infatigable narrateur de ses amours infinies. Diane et Silvandre apparaissent plus souvent qu'Astrée ou Alexis / Céladon. Ces derniers s'isolent pour échanger leurs secrets.
Troisième partie
Dans la quatrième partie, un couple prend la place prééminente : Diane et Silvandre. Hylas, finalement, s'essouffle loin derrière. Dorinde, une étrangère déguisée en bergère, supplante Astrée. Signes de l'inachèvement du roman ?
Quatrième partie
3 Retrouver un mot dans le roman
Pour retrouver un mot dans le contexte du roman, ouvrez la base PASTRE dans Hyperbase et cliquez sur . Demandez « chemin » par exemple, le système vous donnera les occurrences dans chaque livre.
Choisissez un livre pour suivre les occurrences du mot dans son contexte. Voir aussi l'Orientation d'Hyperbase.
4 Construction du DICTIONNAIRE
Voici la procédure suivie :
Dans QUASTRE, à partir de la fenêtre « Sommaire », la recherche d'un ouvre une fenêtre qui contient le bouton Éditer.
Ce bouton donne les choix suivants :
« Dictionnaire avec sous-fréquences » produit un fichier DICO.TXT dans c:\hyperbas.
Pour bâtir notre Dictionnaire, nous avons importé ce fichier dans Microsoft Excel. Nous l'avons ensuite modifié pour mieux représenter ce qui appartient au roman original.
1. Dans le DICTIONNAIRE de DEUX VISAGES DE L'ASTRÉE, Tables et Privilèges ne sont pas pris en compte ; Titres, Dédicaces et Épîtres préfacielles le sont.
2. Chiffres arabes et romains ne sont ni supprimés, ni inclus dans le DICTIONNAIRE.
3. Les vers italiens introduits dans la première préface sont remplacés par leur traduction η. Cependant, les mots latins ou celtes que le romancier propose pour indiquer l'étymologie subsistent (« Belenos », « vatodun », etc.).
4. Les mots coupés par une apostrophe ou séparés par un trait d'union sont reconstitués. C'est le cas par exemple de « aujourd'hui », de « prud'homie », ou de « pont-levis ». Les mots composés (comme entre-aimer ou m'amie) ne le sont plus dans le DICTIONNAIRE (entre/aimer, ma/mie).
5. Les abréviations sont développées. C'est ainsi que « V » et « M » sont réunis pour devenir « Votre Majesté », alors que les occurrences de « St » sont divisées entre « Saint » et « Stelle ».
6. J'ai rétabli les noms propres composés de deux termes ou plus (« Bonne déesse », « La Garde », « Champs Catalauniques », « Honoré d'Urfé », etc.).
7. Seuls les noms propres sont dotés d'une majuscule (ce n'est pas le cas dans les textes originaux). Le personnage et le mythe qui portent un même nom sont traités comme deux entrées distinctes dans le DICTIONNAIRE, mais non dans Hyperbase.
8. Le DICTIONNAIRE part d'un texte qui n'a pas été lemmatisé. Il faut donc se rappeler par exemple que « bien » est substantif ou adverbe et que « cour », « lit » ou « lettre » ont des homonymes.
9. Grâce à Hyperbase et à ce DICTIONNAIRE, les erreurs qui avaient pu se glisser dans la version fonctionnelle sont corrigées. Grand avantage des éditions électroniques, toujours capables d'évoluer !
10. La multitude de virgules, points, tirets, points d'interrogation, deux-points, points virgule et points d'exclamation affecte le calcul de fréquences des autres mots. Les signes de ponctuation sont donc éliminés parce qu'ils sont tous résolument modernes (Présentation des textes). Les NOTES rappellent l'incohérence de la ponctuation dans L'Astrée originale, et en particulier l'anarchie des signes doubles η.
Chaque auteur a son DICTIONNAIRE et sa manière ; il s'affectionne à des mots d'un certain son, d'une certaine couleur, d'une certaine forme, et à des tournures de style, à des coupes de phrase où l'on reconnaît sa main.
(J. Joubert cité dans Larousse du XIXe siècle, Article Dictionnaire).
Le « Dictionnaire de fréquence des mots de L'Astrée » ne prétend pas dénombrer toutes les caractéristiques linguistiques de ce roman richissime. Il offre simplement au lecteur un instrument pour effectuer des recherches précises.