Introduction à
Hyperbase
Logiciel hypertexte
pour le traitement documentaire et statistique des corpus textuels
Aucun indice quantitatif n'est en soi une preuve,
mais une présomption au moins
quand
les indices convergent.
Étienne Brunet,
Comptes, II, p. 225.
1 Étienne Brunet, l'un des créateurs des Humanités numériques françaises, a conçu plusieurs bases consacrées à des écrivains et réunies dans Logometrie. Il m'a fait l'honneur et le plaisir de traiter mon édition de L'Astrée avec son Hyperbase et de l'entrer dans Logometrie. J'espère qu'il consacrera bientôt un de ses éblouissants « Comptes d'auteur » à Honoré d'Urfé. Pour avoir un avant-goût, téléchargez son « Flaubert » (PDF dans ce site 31 octobre 2020).
Hyperbase traite la version fonctionnelle de L'Astrée : vocabulaire, majuscules et syntaxe conservés, noms propres uniformisés, graphie et ponctuation modernisées. Hyperbase offre un Index du vocabulaire, un Dictionnaire des fréquences et un calcul des Spécificités et des Coefficients de corrélation. Une mesure de la richesse lexicale et divers tests statistiques complètent le système.
Pour adapter les résultats aux lecteurs de L'Astrée, Étienne Brunet a accepté de proposer des bases non-lemmatisées.
PASTRE | Les quatre parties éditées ici | Hyperbase (version simplifiée). Recherche par livre |
QUASTRE | Les quatre parties éditées ici | Hyperbase (version simplifiée). Recherche par partie |
URFE | L'Astrée de Vaganay et La Sylvanire | FRANSTAT η. Statistique seulement |
URFEalii | L'Astrée de Vaganay et des contemporains d'Honoré d'Urfé η | FRANSTAT η. Statistique seulement |
1. Hyperbase, version simplifiée PASTRE, QUASTRE
Ces deux bases ont un système d'exploitation réduit. Il sera utilisé dans les exemples qui suivent parce qu'il convient aux critères et à la démarche de la plupart des littéraires. Ce système n'offre pas de possibilités d'analyses grammaticales.
2. FRANSTAT URFE, URFEalii
Ces deux bases présentent des textes tirées de FRANTEXT (ARTFL). La première permet d'étudier les quatre premiers livres de L'Astrée de Vaganay ainsi que La Sylvanire. La deuxième permet de comparer Honoré d'Urfé et certains de ses contemporains η.
2 Hyperbase version simplifiée
Installation
Hyperbase est gratuit. Une version condensée doit être téléchargée de mon site à partir de astree.exe (60 Moctets). Pour l'installer, exécutez le fichier et acceptez l'option par défaut :
c:\hyperbas.
L'installation se termine avec l'ouverture de cette fenêtre : le Jugement de Pâris de Cranach l'Ancien annonce PASTRE, les quatre parties de L'Astrée divisées en livres.
« Manuel.doc » se trouve dans c:\hyperbas.
Les instructions que vous lisez constituent un extrait considérablement simplifié de ce manuel auquel il faut se reporter pour apprécier toutes les fonctions du système.
Dans le répertoire c:\hyperbas se trouvent des fichiers de démarrage pour deux bases :
PASTRE.tbk et QUASTRE.tbk.
Faites-en des raccourcis facilement accessibles.
QUASTRE = quatre parties. PASTRE = quarante et un livres.
QUASTRE donne des résultats prégnants parce qu'ils indiquent l'évolution du roman.
PASTRE donne des résultats plus pointus.
Pourquoi ? à cause de
l'Histoire de Doris et Palemon.
3 Interface
L'écran qui apparaît à la fin de l'installation s'intitule « Sommaire ». L'interface comprend de nombreuses fenêtres et plusieurs boutons.
Vous pouvez toujours revenir au « Sommaire » en cliquant sur
le bouton qui se retrouve dans toutes les fenêtres.
Le bouton vous ramène à la fenêtre précédente et
le bouton ferme le système.
En haut, à droite, cochez l'option offerte pour rétablir
les très utiles explications des boutons.
Le bouton « Choix des bases » est délicat. Il vaut mieux utiliser « Choix du corpus ». Cliquez sur la flèche ; le menu se déroulera et vous pourrez choisir la base qui vous intéresse.
Le bouton ouvre un fichier où vous trouverez les sources du texte et des images.
Le bouton permet de lire la version fonctionnelle de L'Astrée.
QUASTRE ouvre :
Choisissez, par exemple, la première partie et utilisez les flèches noires pour naviguer
Notez que des espaces supplémentaires isolent les mots et la ponctuation. Le numéro qui est au haut de l'écran (Page 5) ne correspond pas au vrai numéro de page qui, lui, est dans le texte [ I, 1, 1 recto ].
À la page 7 vous lirez :
Cliquez sur un mot pour trouver ses occurrences puis ses contextes. DELECTABLES par exemple :
DÉLECTABLES sont les RIVIÈRES et les COLLINES.
« ALT » ferme cette fenêtre. « Retour » revient au texte.
Dans la fenêtre ouverte lors de la recherche d'un mot, cliquez sur le bouton .
« Graphique » montre la variation de la fréquence d'un mot. L'option « Double » ne compare que la variation de ces fréquences.
Si une page d'Hyperbase est plus longue que l'écran, utilisez les boutons de défilement de Windows pour naviguer. Il faudra combiner la navigation d'Hyperbase (flèches noires) et le défilement de Windows pour circuler dans les autres fenêtres aussi.
La loupe change la taille des caractères et le bouton découvre un mot dans la page affichée. Une recherche plus puissante se fait à partir de la page « Sommaire ».
4 « Dictionnaire original », « Index original » et « Recherche d'un mot »
J'ajoute le qualificatif « original » pour distinguer les fichiers que fournit Hyperbase des deux fichiers élaborés à partir d'Hyperbase, puis amendés :
Index des noms propres et Dictionnaire des fréquences.
Le « Dictionnaire original » des mots de L'Astrée est accessible avec la recherche d'un .
Hyperbase interprète Œ et œ
comme OE ou oe
et ignore les majuscules
(ce n'est pas le cas de FRANSTAT).
L'« Index original » ouvre une fenêtre qui liste les lettres de l'alphabet.
Choisir une lettre ouvre le « Dictionnaire » à cette lettre.
Chercher un « Mot » renvoie directement au mot.
La lettre ou le mot seront sur la page Hyperbase ouverte ;
il faut parfois un défilement Windows pour les trouver.
1. Chercher un mot
Cherchez le mot AMOUR, la clef de voûte de L'Astrée :
AMOUR apparaît 1 927 fois dans L'Astrée, dit Hyperbase .
Si vous cherchez AMOUR dans la version fonctionnelle du roman avec la recherche simplifiée (Google), vous trouverez 44 'résultats' - cela signifie que AMOUR se trouve dans 44 documents.
C'est une différence majeure entre les moteurs de recherche que propose Deux visages de L'Astrée.
Le « Dictionnaire de fréquence » dérivé de celui d'Hyperbase aboutit aussi à 1 927 occurrences, mais distingue le nom commun (1 497) de la divinité mythique (430).
Voir Orientation du Dictionnaire de fréquence.
La recherche du mot AMOUR dans QUASTRE a ouvert la fenêtre suivante :
2. Bouton « Graphique »
AMOUR est plus fréquent dans les deux premières parties.Ce graphique indique la fréquence relative du mot AMOUR ; la troisième partie contient relativement moins de AMOUR surtout parce qu'elle renferme le plus grand nombre de mots. C'est la quatrième partie inachevée qui témoigne clairement du recul de AMOUR.
Situation inverse pour les occurrences de ROI :
3. Bouton « Index hiérarchique »
Dans la fenêtre ouverte lors de la recherche d'un mot, le bouton produit une liste des cent mots les plus fréquents de L'Astrée dans un ordre décroissant. Il ne faut pas tenir compte de la ponctuation, qui est modernisée dans la version fonctionnelle de L'Astrée.
Hyperbase ne distingue pas
LA article de LA pronom.
Ici, comme dans bien d'autres textes français les mots les plus fréquents sont les mots outils (DE, QUE, ET, etc.). AMOUR est le premier substantif (N° 78), suivi par SORTE (N° 81) et par TEMPS (N° 95).
Les résultats sont différents dans le Dictionnaire des fréquences élaboré à partir du Dictionnaire d'Hyperbase. La ponctuation est ignorée, tous les mots sont classés soit dans l'ordre alphabétique soit dans l'ordre hiérarchique, et les noms propres sont distingués des noms communs (amour et dieu Amour). On notera avec une certaine surprise que le premier nom de personnage porte le N° 102 (DIANE). Valentinien, le personnage historique le plus souvent nommé, N° 764, passe avant Gondebaud (N° 832), MÉrovÉe (N° 909), et bien sûr Euric (N° 939). BERGER, N° 99, revient plus souvent que BERGÈRE, N° 132 ; la différence entre les deux sexes se maintient au pluriel.
Les fenêtres d'Hyperbase offrent plusieurs autres options de recherche. Pour les interpréter, consultez « manuel.doc » dans c:\hyperbas.
5 « Contexte » ou « Concordance » ?
Ces deux boutons, dans la fenêtre « Sommaire », diffèrent par le mode de présentation des résultats. Cliquez sur « Contexte » :
Demandez les mots qui commencent par CHEMIN (bouton « Initial »). Vous obtiendrez les paragraphes qui contiennent ce substantif, mais aussi le verbe CHEMINER :
Le même exercice avec « Concordance » ne donne pas le verbe :
Dans « Concordance », demander les « Lemmes » du verbe BOIRE :
Les substantifs sont confondus avec les verbes. Passer par un BOIS, avoir un BUT et BOIRE ne sont liés que dans l'esprit d'un ivrogne. L'intelligence artificielle a ses limites.
Si les résultats obtenus par une recherche sont trop longs, Hyperbase n'en montrera qu'une partie sur l'écran. La liste complète se trouve dans le répertoire c:\hyperbas : concord.txt ou contexte.txt.
Une recherche efface celle qui l'a précédée. Changez donc les noms des fichiers que vous désirez conserver.
Pressez sur « ALT » pour interrompre une recherche.
6 Exploitation statistique
Hyperbase offre de nombreux outils statistiques ; le menu vertical à gauche (page « Sommaire ») y donne accès. Ces statistiques peuvent caractériser la richesse du vocabulaire, et en particulier dénombrer les hapax (mots employés une seule fois).
Dans la fenêtre , on rencontre le bouton .
La complexité et l'originalité du vocabulaire de L'Astrée sont illustrées par l'augmentation progressive des hapax :
Les quatre parties de L'Astrée comprennent 890 559 mots - plus que le Berger extravagant et la Vraye histoire comique de Francion de Sorel réunis, plus que les Misérables de Victor Hugo. Avec un nouvel outillage aussi efficace qu'Hyperbase, le chercheur peut aller de surprise en ébahissement.
La liste des fréquences fait passer IL avant ELLE, VOUS avant JE. Après ÊTRE et AVOIR, viennent DIRE et FAIRE, non AIMER. L'adjectif le plus fréquent n'est pas un qualificatif mais un démonstratif, CE. Ces résultats engagent à nuancer les caractéristiques traditionnellement attribuées aux romans de l'époque baroque.
Les statistiques démontrent ce que tout lecteur sans idée préconçue soupçonne : le prétendu « règne d'Astrée » est un leurre (Pleins feux). CÉLADON est le personnage primordial. Il apparaît 1 232 fois puisqu'il figure aussi sous les noms d'ALEXIS, LUCINDE et ORITHIE. ASTRÉE en revanche apparaît 1 032 fois, alors que son nom désigne et l'héroïne, et la déesse de la Justice, et le roman entier - 16 % de moins que son partenaire donc. Ce pourcentage était de 20 % avant l'entrée de la quatrième partie dans cette édition critique ; la bergère se rapproche-t-elle de son partenaire ? Effectivement, les jeunes gens sont devenus inséparables.
Qui aurait cru que la célèbre « honnÊte amitiÉ » du titre ne survenait qu'une seule et unique fois dans le corps du roman, et sans l'ombre d'un commentaire ?
Honoré d'Urfé, tout au long de son œuvre, jongle avec la pastorale, le roman de chevalerie et le roman sentimental. Le GRAND (historique) survient plus souvent que le BEAU (esthétique et romanesque) :
Ces chiffres requièrent évidemment des analyses plus poussées. Mais ils indiquent des tendances importantes.
11 FRANSTAT
Deux des bases disponibles dans le site http://logometrie.unice.fr présentent l'œuvre d'Honoré d'Urfé :
- Urfe : Analyse comparative de
L'Astrée de Vaganay (quatrième partie de Balthazar Baro) : « 1Urf, 2Urf, 3Urf, 4Urf »
et de La Sylvanire η : « 5Urf ».
- URFEalii :
Analyse comparative de L'Astrée de Vaganay et de textes
que j'ai choisis parmi les écrits des contemporains d'Honoré d'Urfé réunis dans FRANTEXT (ARTFL). Accès aux fonctions statistiques seulement.
CODE | AUTEUR | TITRE | DATE | NB. DE MOTS η |
1Audiguier | AUDIGUIER (Vital d') | Histoire trage-comique de nostre temps, sous les noms de Lysandre et de Caliste | 1615 | 117 168 |
2Audiguier | AUDIGUIER (Vital d') | Les Amours d'Aristandre et de Cleonice | 1626 | 60 455 |
Beroalde | BÉROALDE DE VERVILLE (François) | Le Moyen de parvenir. | 1610 | 83 390 |
1Bertaut | BERTAUT (Jean) | Recueil de quelques vers amoureux. |
1606 η | 39 426 |
2Bertaut | BERTAUT (Jean) | Les Œuvres poétiques. | 1620 | 94 398 |
1Camus | CAMUS (Jean-Pierre) | Homélies des États-Généraux. | 1615 | 48 824 |
2Camus | CAMUS (Jean-Pierre) | Agathonphile : récit de Philargyrippe. | 1621 [1951] η | 39 511 |
3Camus | CAMUS (Jean-Pierre) | Palombe ou la Femme honnorable. |
1625 | 71 952 |
Charron | CHARRON (Pierre) | De la sagesse : trois livres en 1 volume. |
1601 | 79 995 |
1Fauchet | FAUCHET (Claude) | Fleur de la maison de Charlemaigne. |
1601 | 99 063 |
2Fauchet | FAUCHET (Claude) | Declin de la maison de Charlemagne. | 1602 | 93 861 |
François | FRANÇOIS DE SALES | Introduction à la vie dévote. | 1619 | 109 842 |
1Urf | HONORÉ D'URFÉ | L'Astrée I | [1607] η | 72 006 |
2Urf | HONORÉ D'URFÉ | L'Astrée II | [1610] η | 85 073 |
3Urf | HONORÉ D'URFÉ | L'Astrée III | [1619] η | 75 489 |
4Urf | HONORÉ D'URFÉ [Baro] | L'Astrée IV | [1624] η | 106 386 |
5Urf | HONORÉ D'URFÉ | La Sylvanire | [1625] η | 64 655 |
NOMBRE DE MOTS DANS LE CORPUS DE TRAVAIL | 1 341 494 |
Commencez par « Choix du corpus » (bouton vert). Passez ensuite à « Mot » et « Graphique » dans la colonne de droite.
- l'accent circonflexe même apparaît et disparaît.
En comparant d'Urfé et ses contemporains, on est frappé par une caractéristique de la langue de L'Astrée, l'imprécision. Le romancier favorise deux adjectifs indéfinis, QUELQUE (Graphe) et TELLE (Graphe). Pour le masculin, TEL, Bertaut l'emporte, mais pour le pluriel, QUELQUES, d'Urfé reste en tête (Graphe). Comment ignorer surtout l'omniprésent SORTE (N° 70 dans le Dictionnaire hiérarchique) qui souligne l'indétermination et l'à-peu-près ? L'expression indéfinie donne une extension indéfinie (Lathuillère, p. 399). SORTE est beaucoup plus fréquent chez Honoré d'Urfé que chez ses contemporains (Graphe), malgré le statut particulier de La Sylvanire η (5URF).
On sait que d'Urfé se plaît à confondre « amour » et « amitié » η. AMOUR ET AMITIÉ donnent des résultats instructifs si on compare d'Urfé et ses contemporains. Les vers de Bertaut η sont plus riches en AMOUR alors que L'Astrée les dépasse en AMITIÉ (Graphe). En revanche, s'il s'agit de la JALOUSIE et des JALOUX, d'Urfé dépasse Bertaut - surtout dans la deuxième partie du roman (Graphe).
Étienne Brunet nous apprend que, dans l'œuvre de Chateaubriand, les noms propres sont particulièrement fréquents - 1 / 23, et que c'est une propriété du roman historique (I, p. 93). La proportion dans L'Astrée est similaire : 1 / 22 (en incluant la quatrième partie embryonnaire). Honoré d'Urfé est un érudit féru de mythologie, de géographie et d'histoire (Répertoire), ses continuateurs ne sauront pas bien l'imiter.
Étienne Brunet signale aussi que HOMME, JOUR et FEMME sont les trois substantifs que FRANTEXT place en tête dans le corpus littéraire français (II, p. 325). Qu'en est-il dans L'Astrée ?
HOMME vient après DIEU, JOUR vient après TEMPS, et FEMME vient après MAÎTRESSE.
Les chiffres restent cependant en deçà de la vérité, car Honoré d'Urfé désigne ses personnages surtout par leur classe sociale : chevalier, druide, berger, ou bien dame, nymphe et bergère. Dans cette société stratifiée - du moins nominalement -,
les HOMMES restent deux fois plus nombreux que les FEMMES, mais déguisements et travestissements brouillent les cartes (Personnages).
Les outils offerts sont nombreux. Leur description dépasse les limites de ces instructions. Les informations, y compris l'explication des formules mathématiques, se trouvent dans « manuel.doc ».
12 Analyse arborée
Parmi les nombreuses méthodes statistiques offertes par Hyperbase , j'ai jugé que l'analyse arborée était à la fois la plus aisée et la plus prometteuse. Cette technique compare deux œuvres en calculant la distance qui sépare leur vocabulaire. Réduire l'analyse à un chiffre peut paraître simpliste aux littéraires. C'est pourtant une technique statistique appliquée couramment dans d'autres domaines. En biologie, par exemple, l'analyse arborée investigue l'évolution d'une espèce pour déterminer sa lignée.
Analyse arborée de la base URFEalii :
À partir d'un tableau de distances entre les œuvres, un algorithme mathématique produit ce graphe. Les branches en rouge sont partagées et les branches en bleu sont spécifiques à une seule œuvre.
La distance entre deux œuvres est représentée par la longueur des branches qui les relient. Il faut noter que seule la topologie des branches est significative - ce qui veut dire qu'une œuvre peut être déplacée tant que son branchage n'est pas modifié.
Le choix des nœuds et des branches est fait par l'algorithme pour minimiser les longueurs des branches spécifiques. Deux œuvres qui partagent beaucoup de lignes rouges ont des vocabulaires similaires, par exemple les deux livres de Fauchet sur Charlemagne, les deux romans d'Audiguier et, dans une moindre mesure, les œuvres de Charron et de François de Sales, des traités.
Les deux premières parties de L'Astrée (1URF et 2URF) se ressemblent alors que la troisième (3URF) utilise un vocabulaire différent (nouvelles historiques dans les livres 3, 4 et 12 par exemple). La quatrième partie (4URF), œuvre posthume et hybride comme on sait, réside plus loin. La Sylvanire η (5URF) qui est en vers libres voisine avec le Receuil de Vers amoureux de Bertaut η. Cependant, cette même Sylvanire η s'est réincarnée dans un des douze livres de 4URF (Voir Quatrièmes parties) ... Cela ne suffit pas pour que l'analyse arborée relie la pastorale dramatique au roman.
Des écrits d'un même auteur sont séparés parce qu'ils traitent de thèmes différents. Ils appartiennent pourtant au même genre littéraire et, grosso modo, à la même époque. Cela dénote les limites, voire les périls, de l'analyse arborée qui doit évidemment être complétée par un examen méticuleux.
Le cas de Jean Bertaut η est éloquent.
1Bertaut indique le Recueil de quelques vers amoureux : des poèmes composés entre 1576 et 1606 réunis dans une édition critique établie par Louis Terreaux en 1970. Si ce livre est proche de La Sylvanire η d'Honoré d'Urfé, « fable bocagere », c'est surtout à cause de la forme lyrique, semble-t-il.
2Bertaut renvoie à un livre intitulé Œuvres poétiques η. Ce sont des pièces de circonstance que Toussaint Du Bray rassemble et publie en 1620. On notera - avec un sourire - que Fortune revient plus souvent que Amour dans ces textes qui traitent peu de relations sentimentales. Ce volume voisine avec les Homélies de Jean-Pierre Camus η ; cette fois, ce sont les caractéristiques de l'éloquence religieuse qui justifient les rapprochements.
14Voir mon édition de L'Astrée disséquée par Hyperbase en 2016 est le couronnement le plus heureux, le plus fructueux et, je le confesse, le plus valorisant. Je rends grâce à Christine de Buzon qui m'a encouragée à faire appel à un célèbre spécialiste des statistiques littéraires françaises. Je remercie chaleureusement Étienne Brunet pour sa longue patience et son indulgence. Merci aussi à mon frère qui m'a aidée à exploiter des informations qui dépassaient mes compétences.
Quelques critiques reprochent à l'édition numérique d'étouffer une œuvre originale sous de multiples observations, commentaires, gloses et autres scolies sans jamais « faire parler le texte » (Lermigeaux, Chronique de l'@ 11). Deux visages de L'Astrée juxtapose plusieurs reproductions du roman d'Honoré d'Urfé et les relie aux analyses, Hyperbase ensuite vient donner une voix aux mots, inviter les interrogations et suggérer questions et solutions.
C'est à cause de l'imbrication de la question et de la réponse que les vertus d'Hyperbase me font penser à la polysémie du sphinx.
Au XVIe siècle, Claude d'Urfé, grand-père d'Honoré d'Urfé, a voulu que ce monstre souriant trône devant la Bastie d'Urfé pour demander aux visiteurs de chercher le sens du programme décoratif de sa demeure (Claude d'Urfé, p. 175). Pourquoi, d'entrée de jeu, cette maxime cicéronienne énigmatique, sphingem habe domi, « Garde un sphinx dans ta demeure » ? La statue et sa devise ont étonné et divisé certains lecteurs de L'Astrée, qui les ont interprétées de diverses manières. L'analyse de Joseph Déchelette me semble la plus pertinente. Elle se fonde sur l'origine de la maxime, un trait d'esprit cité par Plutarque dans la Vie de Cicéron (XX). Dans une plaidoirie contre un avocat accusé de prévarication, Cicéron s'est adressé à cet homme qui possédait frauduleusement un sphinx en ivoire en lui disant qu'il aurait dû comprendre les reproches voilés, lui qui avait chez lui un objet qui symbolisait et l'énigme et la capacité de résoudre l'énigme.
Claude d'Urfé, gouverneur du fils de François Ier, amateur de codes et d'herméneutique, savant et fier de l'être, a compris que celui qui garde un sphinx dissimulé dans sa demeure est un voleur ignorant. Celui qui, au contraire, exhibe ce « simulacre » (comme on disait alors), celui qui s'en vante, déclare - par une icône et par sa légende - qu'il a appris, qu'il a compris, et qu'il publie ce qu'il sait (Henein, pp. 149-150).
Reconstitué aujourd'hui, ce sphinx se trouve dans Wikimedia (21 janvier 2015).
Hyperbase décompose L'Astrée en mettant le roman en chiffres. En matière de statistique, les réponses doivent leur validité à la fiabilité du texte sondé et à la richesse du logiciel d'exploitation. De plus, ces réponses elles-mêmes doivent leur intérêt aux questions significatives. Au chercheur donc d'interpeler la version fonctionnelle de L'Astrée. Ne sera désappointé que celui qui pose de mauvaises questions. « Tu ne me chercherais pas si tu ne m'avais trouvé » (Pascal, p. 212. Brunschvicg 553).