Sommaire
Nous présentons ici le site web http://valery.item.ens.fr/, qui est destiné à l’étude des Cahiers de Paul Valéry. 1 Nous indiquons tout d’abord les facilités qu’offre d’ores et déjà ce site, puis décrivons des projets dont la réalisation permettrait des analyses du texte qui seraient impossibles sans l’aide de l’informatique.
Contenu du site
Le site http://valery.item.ens.fr/ donne actuellement accès à deux types d’information : d’une part une version typographique (partielle) du texte des Cahiers, et d’autre part un index du texte informatique.
Le texte
L’apparence typographique du texte disponible2 sur le site suit de très près celle de l’édition Cahiers 1894-1914 en cours de publication chez Gallimard (sous la direction de Nicole Celeyrette-Pietri et Robert Pickering). Ainsi sont reproduits (au format HTML) les soulignements, les italiques, les colonnes multiples, certains caractères grecs, les exposants, les indices, etc. [Voir la Figure 1.]
Le texte mis sur le web provient de la saisie effectuée pour cette première édition typographique chronologique des Cahiers. Cette saisie3 est réalisée à la main à partir du fac-simile du CNRS. (Nous n’utilisons pas l’édition de la Pléiade pour convertir le texte au format informatique via une reconnaissance automatique de caractères, car cette dernière édition contient des fragments et non le texte complet dans l’ordre du fac-simile.) Plus de mille pages sont actuellement sur le web ; les pages entrées pour l’édition Gallimard sont progressivement transférées sur le site, qui s’étoffe ainsi de façon permanente.
Malgré l’immensité des 30 000 pages de texte des Cahiers en fac-simile, leur transcription peut en principe être visualisée à partir d’un ordinateur actuel même modeste : il lui suffit d’être connecté au web et de disposer d’un programme de navigation quelconque (presque tous sont gratuits) ; taille mémoire et vitesse de calcul sont d’une importance négligeable pour l’utilisation du site des Cahiers, ce qui en rend l’accès aisé.
À terme, nous envisageons de mettre les pages sur internet immédiatement après leur saisie. Ceci permettrait aux chercheurs travaillant sur l’édition Gallimard d’utiliser les outils disponibles sur le site avant même les réunions d’étude des nouvelles pages. De plus, inclure certains dessins, croquis, formules ou graphes des Cahiers sous forme de graphiques informatiques permettrait d’utilement compléter le texte, en le rapprochant encore plus du manuscrit original. L’extension du site à d’autres textes de Valéry que celui des Cahiers serait aussi d’une grande utilité pour les études valéryennes ; il reste à en trouver ou en créer des versions électroniques.
L’index
La seconde composante du site web actuel est un index exhaustif du texte décrit plus haut. Cette exhaustivité a ses avantages, mais aussi ses inconvénients : l’index (généré par programme informatique) ne comporte aucune distinction entre plusieurs usages d’un même mot (par exemple, l’entrée « son » recouvre tous les sens de ce mot). En revanche, trouver plusieurs mots de même racine est aisé, puisque de tels mots apparaissent souvent côte à côte dans la liste alphabétique présentée par l’ordinateur.
La recherche d’une entrée de l’index se réalise simplement en quelques clics, de même que l’affichage des pages où se trouve un mot donné. Par exemple, « machine » s’obtient en sélectionnant « M » puis « MA », puis en parcourant l’index des mots commençant par « MA », qui est alors affiché.[Voir la Figure 2.] L’entrée « machine » est suivie d’une liste de toutes les pages où apparaît au moins une occurrence de ce mot. En cliquant sur un numéro de page listé dans l’index, la page correspondante s’affiche et les occurrences du mot « machine » apparaissent surlignées sur l’écran, facilitant ainsi le repérage dans le texte. [Voir la Figure 3.]
L’utilité d’un index des Cahiers ne fait aucun doute. Grâce à un tel outil, il est plus facile de se repérer dans le foisonnement des thèmes abordés au fil des jours par Valéry, thèmes qui peuvent changer d’une page à l’autre, voire d’un paragraphe au suivant. D’ailleurs, un index est publié tous les trois tomes dans l’édition Gallimard Cahiers 1894-1914. L’avantage de l’index informatique est qu’il couvre l’ensemble du texte mis en ligne.
Le repérage de mots et leur visualisation au sein des pages est plus pratique au travers du web qu’avec une édition papier des Cahiers : le volume même du texte rend toute édition imprimée moins maniable que sa contrepartie électronique.
Projets d’extension du site : nouveaux outils informatiques
Plusieurs projets d’amélioration du site sont en cours d’élaboration, dans le but d’offrir aux chercheurs (voire aux curieux) des outils performants et irremplaçables pour l’étude des Cahiers.
Il est ainsi envisageable de demander à l’ordinateur un classement des mots par fréquence (liste des mots, en commençant par les plus courants). Ce classement pourrait être restreint à un intervalle de pages, afin de faciliter l’étude de certains cahiers, ou de certaines époques, de repérer plus facilement les grandes évolutions des centres d’intérêt de Valéry, de son vocabulaire, etc.
Pour compléter l’index, il serait utile d’autre part d’offrir la possibilité d’effectuer des requêtes plus complexes que celles du type « trouver les occurrences du mot « machine » » qui sont actuellement permises. Ainsi, on pourrait demander à l’ordinateur :
Trouver « fonction continue » ou « fonctions continues »
entre les pages 100 et 200 du tome 3
Trouver « temps » mais pas « de temps en temps »
Trouver « poésie » à moins de 50 mots de « Mallarmé ».
Il est ainsi envisageable de chercher toutes les pages contenant, par exemple, un ensemble de mots utilisés en science, afin d’étudier les passages correspondants aux thèmes qu’ils recouvrent.
Deux façons d’afficher les résultats d’une recherche et d’aller y trouver rapidement les passages les plus pertinents sont à l’étude. Premièrement, il serait possible d’afficher une bande de niveaux de gris représentant les pages des Cahiers [Voir la Figure 4.] : première page à gauche, dernière page à droite. Le noir indiquerait une zone du texte où les mots cherchés apparaissent souvent (i. e. avec une grande densité) et le blanc indiquerait une zone où peu de mots cherchés se trouvent (faible densité) ; les gris intermédiaires indiqueraient la densité plus ou moins grande des mots étudiés au fil des pages du texte. Un deuxième système de présentation des résultats d’une recherche de mots ressemblerait à ce qu’affichent actuellement les moteurs de recherche sur le web (Google, Yahoo,…) : les résultats sont classés par ordre de pertinence et les mots cherchés apparaissent dans le contexte des phrases où ils apparaissent (un tel projet offre des difficultés supplémentaires par rapport à celles rencontrées par les moteurs de recherche sur le web : les pages des Cahiers ne contiennent pas de « méta-données » — indications explicites des titres, sous-titres, liens hypertextes, etc. —, contrairement aux pages du web).
Conclusion
Le site web des Cahiers, qui contient déjà de nombreuses pages et un index exhaustif de ces pages, devrait être étendu dans deux directions : d’une part l’inclusion rapide de nouvelles pages du texte, enrichies de graphiques, et d’autre part la mise à disposition d’outils puissants d’étude de ce texte. Le but actuel de cette entreprise est d’offrir aux chercheurs travaillant sur Valéry des moyens que seule l’informatique peut apporter ; le texte est inaccessible au grand public, pour des raisons de droits d’auteur, mais tous les outils de recherche dans le texte du site sont mis à disposition aussi bien des professionnels que des curieux.
Figure 1 : le texte des Cahiers inclus sur le site web se rapproche, par sa présentation et sa typographie, du manuscrit. Sont ainsi reproduits les soulignements, les colonnes, les exposants, les indices, etc.
Figure 2 : l’index des Cahiers permet un accès très rapide à toutes les occurrences d’un mot. Ainsi, quelques clics de souris suffisent à trouver le mot « machine », comme dans l’exemple ci-dessus.
Figure 3 : après un simple clic sur l’un des numéros de page de l’index, la page concernée du texte des Cahiers apparaît à l’écran et l’entrée correspondante s’affiche en en surligné. Ceci facilite le repérage des mots cherchés.
Figure 4 : ces bandes de niveaux de gris variés forment un exemple (à l’étude) de présentation des résultats d’une recherche de mots. Les pages où apparaissent souvent les mots cherchés sont désignées par des teintes proches du noir, alors que les zones du texte contenant peu des mots cherchés apparaissent en plus clair. Ainsi, sur cet exemple, le voisinage de la page 250 représente un passage d’un intérêt tout particulier (vis-à-vis des mots cherchés).
1 Ce site est hébergé par Fabula, association de recherches en littérature (http://www.fabula.org). Nous tenons à remercier tout particulièrement François Lermigeaux, sans qui ce projet n’aurait pu être concrétisé si rapidement.
2 Pour des raisons de droits d’auteur, le texte n’est accessible qu’après authentification par mot de passe personnel. Pour demander l’ouverture d’un compte, écrire à E.-O. L. (eric.lebigot@normalesup.org), qui transmettra.
3 La saisie des pages actuellement disponibles sur le web a été réalisée sous Microsoft Word par Valérie Grossetête. Le texte a été automatiquement transformé au format du web (HTML) et découpé en pages individuelles reliées par des hyperliens.