Banderole
Première édition critique de L'Astrée d'Honoré d'Urfé
doigt_dConcordance - Vaganay



SignetIntroduction à Hyperbase©

Logiciel hypertexte
pour le traitement documentaire et statistique des corpus textuels

On a compté trois millions de mots chez Zola. Et alors ?

É. Brunet, Comptes I, p. 151.

1 Signet Étienne Brunet (Logometrie) m'a fait l'honneur et le plaisir d'entrer mon édition de L'Astrée dans son Hyperbase©. J'espère qu'il consacrera bientôt un de ses éblouissants « Comptes d'auteur » à Honoré d'Urfé. Pour avoir un avant-goût, lisez son « Flaubert », en ligne dans ce site.

Hyperbase© utilise la version moderne de L'Astrée : vocabulaire, majuscules et syntaxe conservés, noms propres uniformisés, graphie et ponctuation modernisées η. Hyperbase© offre un Index du vocabulaire, un Dictionnaire des fréquences et un calcul des Spécificités et des Coefficients de corrélation. Une mesure de la richesse lexicale et divers tests statistiques complètent le système.

Pour adapter les résultats aux littéraires comme aux statisticiens, Étienne Brunet a eu la générosité de proposer trois approches. Le chercheur pourra donc faire ses propres enquêtes en choisissant la méthode qui convient le mieux à sa démarche.

1. Hyperbase 9 condensée - L'Astrée moderne
Ce système réduit sera utilisé dans les exemples qui suivent parce qu'il convient fort bien aux analyses littéraires. Il n'offre pas de possibilités d'analyses grammaticales.

2. Hyperbase 10 - L'Astrée moderne
Ce système destiné aux linguistes et statisticiens doit être considéré en rodage. Le code grammatical est accessible en tant que tel. Les mots sont désambiguïsés et les homographes distingués, ce qui est intéressant puisque, semble-t-il, « un tiers des mots de la langue française est constitué d'homographes : Je porte une porte » (Guinot, 124-125, article de 2003).

3. Hyperbase 10 - Franstat
Analyse comparative de L'Astrée de Vaganay et de textes réunis dans Frantext (ARTFL).

divider

2 SignetHyperbase 9 condensée

SignetInstallation

Hyperbase© est gratuit. Une version condensée de la version 9 peut être téléchargée de mon site à partir de astree.exe (50 Moctets : Patientez !). Pour l'installer, exécutez le fichier et acceptez l'option par défaut :

Le système doit être installé impérativement dans le répertoire
c:\hyperbas.

L'installation se termine avec l'ouverture de cette fenêtre :

9aspart

Vous trouverez dans c:\hyperbas le fichier « manuel.doc ».
Les instructions que vous lisez constituent un extrait considérablement simplifié de ce manuel auquel il faut se reporter pour apprécier toutes les fonctions du système. Le glossaire fourni par Véronique Magri-Mourgues (Université Nice Sophia Antipolis) apporte de précieuses définitions.

Dans le répertoire c:\hyperbas se trouvent aussi des fichiers de démarrage pour deux bases : 9ASPART.tbk et 9ASLIVR.tbk.
Faites-en des raccourcis facilement accessibles.

Le base 9ASPART donne accès à L'Astrée moderne divisée en trois parties.
Le base 9ASLIVR donne accès à L'Astrée moderne divisée en livres.

9ASPART donne les résultats les plus prégnants parce qu'ils indiquent l'évolution chronologique du roman.

Dans la troisième partie, les CHEVAUX du roman d'aventures sont plus fréquents que les TROUPEAUX de la pastorale.

9ASLIVR donne des résultats plus aisés à exploiter rapidement.

HEUREUX est plus fréquent dans le livre 12 de la deuxième partie.

3 SignetInterface

L'écran qui apparaît à la fin de l'installation s'intitule « Sommaire ». L'interface comprend de nombreuses fenêtres qui renferment plusieurs boutons.

Vous pouvez toujours revenir au « Sommaire » en cliquant sur
le bouton sommaire qui se retrouve dans toutes les fenêtres.

Le bouton retour vous ramène à la fenêtre précédente et

le bouton quitter ferme le système.

antibulles En haut, à droite, cochez l'option offerte pour rétablir les
très utiles explications des boutons.

choix_base
Le bouton « Choix des bases » est délicat. Cliquez uniquement sur la flèche ; le menu se déroulera. Choisissez ensuite la base qui vous intéresse.

 

Le bouton biblio indique les sources du texte, des analyses et de l'image.

Le bouton lecture permet de lire une version de L'Astrée moderne formatée pour le développement d'un index et d'un dictionnaire.

lecture1

La base 9ASPART renferme quatre corpus. Les trois premiers (UN__, DEUX et TROIS) correspondent aux trois premières parties de L'Astrée. Le quatrième (LIMIN) est un artifice parce qu'Hyperbase© exige un minimum de quatre corpus pour certaines fonctions statistiques. LIMIN contient une copie des pages liminaires. Dans un proche avenir, la quatrième partie de L'Astrée prendra cette place.

La fenêtre indique des numéros de page créés artificiellement par Hyperbase© ; ils ne correspondent pas à la pagination de L'Astrée.
Travaillez avec la base 9ASLIVR pour que la recherche vous donne et le numéro de la partie et le numéro du livre.

Choisissez UN__ et utilisez les flèches noires

fleches_noires

pour naviguer jusqu'à la page 6 que voici :

lecture_page

Notez que les numéros de pages originaux ont été supprimés, des paragraphes ont été raccourcis et des espaces ajoutés pour mieux séparer les mots.

Si une page d'Hyperbase© est plus longue que l'écran, utilisez les boutons de défilement de Windows© pour naviguer. Il faudra combiner la navigation d'Hyperbase© (flèches noires) et le défilement de Windows© pour circuler dans les autres fenêtres aussi.

La loupe loupe change la taille des caractères et le bouton cherche_local découvre un mot dans la page affichée. Une recherche plus puissante se fait à partir de la page « Sommaire ».

4 Signet« Dictionnaire », « Index » et « Recherche d'un mot »

Hyperbase© fournit un « Dictionnaire » des mots de L'Astrée avec leur fréquence. Ce document est accessible soit par index, soit par la recherche d'un mot.

Attention.
Hyperbase 9© ignore les majuscules, et interprète Œ et œ
comme OE ou oe.

« Index » ouvre une fenêtre qui liste les lettres de l'alphabet.
Choisir une lettre ouvre le « Dictionnaire » à cette lettre.
Chercher un « Mot » renvoie directement au mot.

Attention.
La lettre ou le mot seront sur la page Hyperbase© ouverte ;
il faut parfois un défilement Windows© pour les trouver.

1. Chercher un mot

Cherchez le mot AMOUR, la clef de voûte de L'Astrée :

amour

AMOUR apparaît 1 781 fois dans L'Astrée, dit Hyperbase©. Comme il s'agit de la base 9ASPART, les liminaires sont comptés deux fois. Il faut donc soustraire les 17 occurrences des liminaires pour avoir la bonne réponse 1 764.
Si vous cherchez AMOUR dans L'Astrée moderne avec la recherche simplifiée (Google©), vous trouverez 41 'résultats' - cela signifie que AMOUR se trouve dans 41 documents (y compris privilèges et tables). C'est une différence majeure entre les moteurs de recherche que propose Deux visages de L'Astrée.
Par ailleurs, le « Dictionnaire de fréquence » (dérivé du Dictionnaire d'Hyperbase©) aboutit aussi à 1 764 occurrences de AMOUR, mais réparties entre substantif (1 348) et nom propre (416).

La recherche du mot AMOUR dans Hyperbase 9© a ouvert la fenêtre suivante :

amour_fenetre

Vous pouvez ainsi choisir une des parties et suivre les occurrences du mot.

2. Bouton « Graphique »

De retour à la fenêtre ouverte lors de la recherche d'un mot, cliquez sur le bouton graphique

amour_graphique

Ce graphique indique la fréquence relative du mot AMOUR dans les trois parties ; la troisième partie contient relativement moins de AMOUR parce qu'elle renferme le plus grand nombre de mots.

3. Bouton « Index hiérarchique »

Dans la fenêtre ouverte lors de la recherche d'un mot, le bouton index_hier produit une liste des cent mots les plus fréquents de L'Astrée moderne dans un ordre décroissant. Un index hiérarchique de tous les mots se trouve dans Dictionnaire.

Ici comme dans bien d'autres textes français les mots les plus fréquents sont les mots outils (de, le, et, etc.). La capitalisation est ignorée. La ponctuation se taille la part du lion, mais il ne faut pas en tenir compte puisqu'elle est modernisée dans cette édition.

Attention.
Hyperbase 9© ne distingue pas
LA article de LA pronom.
Pour ces distinctions, il faut aller à Hyperbase 10©.

Les fenêtres d'Hyperbase© offrent de multiples options de recherche. Pour les interpréter, consultez « manuel.doc » dans c:\hyperbas.

5 Signet« Contexte » et « Concordance »

Ces deux boutons, dans la fenêtre « Sommaire », ne diffèrent que par le mode de présentation des résultats. Cliquez sur « Contexte » :

context

Demandez les mots qui commencent par CHEMIN (bouton « Initial »). Vous obtiendrez les paragraphes qui contiennent ce substantif mais aussi le verbe CHEMINER :

context1

Le même exercice avec « Concordance » produit :

concordance

Dans « Concordance », demander les « Lemmes » du verbe BOIRE :

concordance1

Le résultat n'est pas fiable puisque les substantifs sont confondus avec les verbes. Passer par un BOIS, avoir un BUT et BOIRE ne sont liés que dans l'esprit d'un ivrogne. L'intelligence artificielle a ses limites. Hyperbase 10© permet de distinguer quelques catégories grammaticales.

Si les résultats obtenus par une recherche sont trop longs, Hyperbase© n'en montrera qu'une partie sur l'écran. La liste complète se trouve dans le répertoire c:\hyperbas : concord.txt ou contexte.txt.

Attention.
Une recherche efface celle qui l'a précédée. Changez donc les noms des fichiers que vous désirez conserver.

Pressez sur « Alt » pour interrompre une recherche.

6 SignetExploitation statistique

Hyperbase© offre plusieurs outils statistiques ; le menu vertical à gauche de la page « Sommaire » y donne accès. Ces statistiques peuvent caractériser la richesse du vocabulaire, et en particulier dénombrer les hapax (mots employés une seule fois).

Dans la fenêtre distribution, on rencontre le bouton hapax.

La complexité et l'originalité du vocabulaire de L'Astrée sont illustrées par l'augmentation progressive des hapax :

hapax

La description de tous les outils offerts par Hyperbase© dépasse les limites de ces instructions. Les précisions, y compris l'explication des formules mathématiques, se trouvent dans « manuel.doc ».

divider

7 SignetHyperbase 10© - L'Astrée moderne

Hyperbase 10© est la version la plus récente et la plus complexe. Elle emploie une lemmatisation puissante. Malheureusement, rien n'est parfait, et la lemmatisation trahit parfois le texte original. Dans l'énoncé « la possession du bien désiré », BIEN compte comme adverbe ! Le pauvre « Céladon » est parfois nom propre et parfois adjectif ! « Qui lemmatise dilemme attise », reconnaît Étienne Brunet lui-même dans ce site. Il explique alors que « la statistique [...] aime les grands nombres et ne répugne pas à l'impureté » (p. 4). Certains soupireront peut-être avec Cotgrave : « Qui a besoing de feu le cerche avec le doigt (He that wants necessaries must take any paines for them) » (Article Cercher). Les résultats obtenus grâce à Hyperbase 10© vont dérouter les littéraires, mais enchanter ceux qui pratiquent la lexicométrie littéraire ou la statistique stylistique.

8 SignetInstallation

L'Astrée moderne traitée par Hyperbase 10© doit être téléchargée du site http://logometrie.unice.fr. Allez à l'onglet « Bases », choisissez « Littérature » et téléchargez le fichier LASTREE.EXE. Attention, c'est un fichier de 500 Moctets. Il installera des bases qui utilisent L'Astrée moderne avec la lemmatisation de
Cordial, CORrecteur D'Imprécisions et Analyseur Lexico-syntaxique.

Étienne Brunet explique ce qu'il offre généreusement aux lecteurs de L'Astrée :

« [Le fichier] contient aussi les programmes HYPERBAS.tbk et HYPERNEW.tbk pour créer de nouvelles bases, lemmatisées ou non.
On y trouve encore des bases statistiques reliées à FRANTEXT comme AUTEURS, CHRONO, THIEF et FRANSTAT.
Enfin il permet le chargement automatique et l'exploitation de n'importe quelle base créée au labo (il y en plus de 50).
J'y ai mis aussi l'énorme base GOOFRE2 issue de Google Books »
(message du 10 février 2016).

Cette version d'Hyperbase© s'installera dans le même répertoire que la précédente soit c:\hyperbas. Acceptez d'écraser les vieux fichiers.

L'installation d'Hyperbase 10© ouvrira :

lemme

9 SignetBases disponibles

Hyperbase 10© traite les œuvres de plusieurs écrivains.

Deux boutons à droite de l'écran renvoient à L'Astrée moderne lemmatisée (en livres ou en parties).

À partir de c:\hyperbas,
- le fichier menu.tbk ouvre la fenêtre ci-dessus,
- les fichiers de lancement LASPART.tbk et LASLIVR.TBK donnent accès aux bases lemmatisées.

10 SignetCarte globale de la cooccurrence

Les fichiers LASPART.pdf et LASLIVR.pdf illustrent les cooccurrences des mots. Le texte est divisé en sections et les mots qui sont dans la même section sont considérés voisins.

Voici un extrait des graphes :

voisinage

Les lignes relient les mots voisins ; ceux qui ont le plus de liens sont en gros caratères.

Amour, affection et amitié ont beaucoup de voisins. De plus, puisqu'ils sont proches, ils ont les mêmes voisins. Par contre, erreur, au bas du diagramme, relativement isolé, n'est relié qu'à faute, effet et honte. Il est interessant de noter que beauté a plus de voisins que esprit, et que raison et mérite se chevauchent.

Pour exploiter toutes les fonctions d'Hyperbase 10©, les instructions données pour Hyperbase 9© vous seront utiles. Pour plus de renseignements, lisez « manuel.doc » et « FonctionsNouvelles.doc ».

divider

11 SignetHyperbase 10© - FRANSTAT©

Deux des bases disponibles dans le site http://logometrie.unice.fr présentent l'œuvre d'Honoré d'Urfé :

- Urfe : Analyse comparative de
L'Astrée de Vaganay (quatrième partie de Baro) : « 1, 2, 3, 4 Urfe»
et de La Sylvanire : « 5 Urfe ».

- Urfealii : Analyse comparative de L'Astrée de Vaganay et de textes composés par des contemporains d'Honoré d'Urfé et réunis dans Frantext (ARTFL) (fonctions statistiques seulement).

CODE
AUTEUR
TITRE
DATE
NB. DE MOTS η
1Audiguier AUDIGUIER (Vital d') Histoire trage-comique de nostre temps, sous les noms de Lysandre et de Caliste 1615 117 168
2Audiguier AUDIGUIER (Vital d') Les Amours d'Aristandre et de Cleonice 1626 60 455
Beroalde BÉROALDE DE VERVILLE (François) Le Moyen de parvenir. 1610 83 390
1Bertaut BERTAUT (Jean) Recueil de quelques vers amoureux.
1606 39 426
2Bertaut BERTAUT (Jean) Les Œuvres poétiques. 1620 94 398
1Camus CAMUS (Jean-Pierre) Homélies des États-Généraux. 1615 48 824
2Camus CAMUS (Jean-Pierre) Agathonphile : récit de Philargyrippe. [1621] 1951 η 39 511
3Camus CAMUS (Jean-Pierre) Palombe ou la Femme honnorable.
1625 71 952
Charron CHARRON (Pierre) De la sagesse : trois livres en 1 volume.
1601 79 995
1Fauchet FAUCHET (Claude) Fleur de la maison de Charlemaigne.
1601 99 063
2Fauchet FAUCHET (Claude) Declin de la maison de Charlemagne. 1602 93 861
François FRANÇOIS DE SALES Introduction à la vie dévote. 1619 109 842
1Urf HONORÉ D'URFÉ L'Astrée I [1607] η 72 006
2Urf HONORÉ D'URFÉ L'Astrée II [1610] η 85 073
3Urf HONORÉ D'URFÉ L'Astrée III [1619] η 75 489
4Urf HONORÉ D'URFÉ [Baro] L'Astrée IV [1624] η 106 386
5Urf HONORÉ D'URFÉ La Sylvanire [1625]η 64 655
         
  NOMBRE DE MOTS DANS LE CORPUS DE TRAVAIL 1 341 494

Ceux qui souhaitent poursuivre ce type de recherche liront avec intérêt l'article consacré à Franstat© par Étienne Brunet η.

12 SignetAnalyse arborée

Parmi les nombreuses méthodes statistiques offertes par Hyperbase©, j'ai jugé que l'analyse arborée était la plus prometteuse. Cette technique compare deux œuvres en calculant la distance qui sépare leur vocabulaire. Réduire l'analyse à un chiffre peut paraître simpliste. C'est pourtant une technique statistique appliquée couramment dans d'autres domaines. En biologie, par exemple, l'analyse arborée investigue l'évolution d'une espèce pour déterminer sa lignée.

Analyse arborée de la base urfealii :

arbre

À partir d'un tableau de distances entre les œuvres, un algorithme mathématique produit ce graphe. Les branches en rouge sont partagées et les branches en bleu sont spécifiques à une seule œuvre.

La distance entre deux œuvres est représentée par la longueur des branches qui les relient. Il faut noter que seule la topologie des branches est significative - ce qui veut dire qu'une œuvre peut être déplacée tant que son branchage n'est pas modifié.

Le choix des nœuds et des branches est fait par l'algorithme pour minimiser les longueurs des branches spécifiques. Deux œuvres qui partagent beaucoup de lignes rouges ont des vocabulaires similaires, par exemple les deux livres de Fauchet sur Charlemagne, les deux romans d'Audiguier et, dans une moindre mesure, les œuvres de Charron et de François de Sales, des traités.

Les deux premières parties de L'Astrée (1URF et 2URF) se ressemblent alors que la troisième (3URF) utilise un vocabulaire différent (nouvelles historiques dans les livres 3, 4 et 12 par exemple). La quatrième partie (4URF), œuvre posthume et hybride comme on sait, réside encore plus loin. La Sylvanire (5URF) en vers libres voisine avec un receuil de poèmes de Bertaut. Notons que certaines œuvres du même auteur sont curieusement séparées (les deux receuils poétiques de Bertaut), ce qui indique les limites, voire les périls, de ce schéma qui doit évidemment être complété par d'autres études.

divider

13 Signet« Et alors ? »

(É. Brunet, Comptes I, p. 151).

Les trois premières parties de L'Astrée comprennent plus de 700 000 mots - plus que le Berger extravagant et la Vraye histoire comique de Francion de Sorel réunis, plus que les Misérables de Victor Hugo. Avec un nouvel outillage aussi efficace qu'Hyperbase©, le chercheur ira de surprise en ébahissement. La liste des fréquences fait passer IL avant ELLE, VOUS avant JE. Après ÊTRE et AVOIR, viennent DIRE et FAIRE, non AIMER. L'adjectif le plus fréquent n'est pas un qualificatif mais un démonstratif, CE. Ces résultats engagent à nuancer les caractéristiques traditionnellement attribuées aux romans de l'époque baroque.

Les statistiques démontrent ce que tout lecteur sans idée préconçue soupçonne : le prétendu « règne d'Astrée » est un leurre η. CÉLADON est le personnage primordial. Il apparaît 1 016 fois puisqu'il figure aussi sous les noms d'ALEXIS, LUCINDE et ORITHIE. ASTRÉE en revanche apparaît 817 fois, alors que son nom désigne et l'héroïne, et la déesse de la Justice, et le roman entier - 20 % de moins que son partenaire donc.

On sait que d'Urfé se plaît à confondre « amour » et « amitié » η. Qui aurait cru que la célèbre honnÊte amitiÉ du titre ne survenait qu'une seule fois dans le corps du roman, et sans l'ombre d'un commentaire ? Le romancier jongle avec la pastorale, le roman de chevalerie et le roman sentimental. Le ROUGE (sang) est plus fréquent que le VERT (nature). Le GRAND (historique) survient plus souvent que le BEAU (esthétique et romanesque) (Graphe). Ces chiffres requièrent évidemment des analyses : si ÊTRE est trois fois plus souvent auxiliaire que verbe, est-ce parce que les descriptions renferment peu d'adjectifs ? Et que dire de l'omniprésent SORTE qui souligne l'indétermination et l'à-peu-près ? SORTE est beaucoup plus fréquent chez Honoré d'Urfé que chez ses contemporains nous dit Hyperbase© (Graphe). Notez le statut particulier de La Sylvanire.

AMOUR ET AMITIÉ donnent des résultats étranges si on compare d'Urfé et ses contemporains. Les vers de Bertaut sont plus riches en AMOUR alors que L'Astrée les dépasse en AMITIÉ (Graphe).

Étienne Brunet nous apprend que, dans l'œuvre de Chateaubriand, les noms propres sont particulièrement fréquents - 1 / 23, et que c'est une propriété du roman historique (I, p. 93). La proportion dans L'Astrée est encore plus élevée : 1 / 20. Honoré d'Urfé est un érudit féru de mythologie, de géographie et d'histoire η, ses continuateurs ne sauront pas bien l'imiter.

Étienne Brunet signale aussi que HOMME, JOUR et FEMME sont les trois substantifs que FRANTEXT place en tête dans le corpus littéraire français (II, p. 325). Qu'en est-il dans L'Astrée ?
HOMME vient après DIEU, JOUR vient après TEMPS, et FEMME vient après MAÎTRESSE. Les chiffres restent cependant en deçà de la vérité, car Honoré d'Urfé désigne ses personnages surtout par leur classe sociale : chevalier, druide, berger, ou bien dame, nymphe et bergÈre. Dans cette société stratifiée - du moins nominalement - les HOMMES restent deux fois plus nombreux que les FEMMES, mais déguisements et travestissements brouillent les cartes η.

La mise en garde prudente qui découle de ces constatations appartient également à Étienne Brunet : « Aucun indice quantitatif n’est en soi une preuve, mais une présomption au moins quand les indices convergent » (II, p. 225).

divider

14SignetVoir mon édition de L'Astrée disséquée par Hyperbase© est le couronnement le plus heureux, le plus fructueux et, je le confesse, le plus valorisant. Je rends grâce à Christine de Buzon qui m'a encouragée à faire appel à l'illustre spécialiste des statistiques littéraires françaises. Je remercie chaleureusement Étienne Brunet pour sa longue patience et son indulgence. Merci aussi à mon frère qui m'a aidée à exploiter des informations qui dépassaient mes compétences.

Quelques critiques reprochent à l'édition électronique d'étouffer une œuvre originale sous de multiples observations, commentaires, gloses et autres scolies sans jamais « faire parler le texte » (Lermigeaux, Chronique de l'@ 11). Deux visages de L'Astrée juxtapose plusieurs reproductions du roman d'Honoré d'Urfé et les relie aux analyses, Hyperbase© ensuite vient donner une voix aux mots, inviter les interrogations et suggérer questions et solutions.

C'est à cause de l'imbrication de la question et de la réponse que les vertus d'Hyperbase© me font penser à la polysémie du sphinx. Au XVIe siècle, Claude d'Urfé, grand-père d'Honoré, a voulu que ce monstre souriant trône à l'entrée de la Bastie d'Urfé et porte une maxime cicéronienne énigmatique, sphingem habe domi, « Garde un sphinx dans ta demeure ». La statue et sa devise ont étonné et divisé quelques lecteurs de L'Astrée. Le sphinx de Cicéron désigne à la fois l'énigme et sa solution, le sphinx de la Bastie renchérit et proclame ses pouvoirs (Henein, pp. 149-150 ).

sphinx_pt
Reconstitué aujourd'hui, ce sphinx se trouve dans Wikimedia (21 janvier 2015).

Hyperbase© décompose L'Astrée en mettant le roman en chiffres. En matière de statistique, les réponses doivent leur validité à la fiabilité du texte sondé et à la richesse du logiciel d'exploitation. De plus, ces réponses elles-mêmes doivent leur intérêt aux questions significatives. Au chercheur donc d'interpeler L'Astrée moderne. Ne sera désappointé que celui qui pose de mauvaises questions. « Tu ne me chercherais pas si tu ne m'avais trouvé » (Pascal, p. 212. Brunschvicg 553).