Le livre numérique en questions

Interview de Jean-François Cauche pour une discussion autour du web et les données ...

Où l'on cause de son observatoire numérique baptisé OpenCorpus et des pratiques, enjeux et dérives de l'information numérique.

Le livre numérique : questions et réponses

Pas que du livre numérique mais du rapport que nous avons tous avec le texte, celui qui est passé de l'imprimerie des siècles passés aux pixels de nos écrans de plus en plus plats ... Interview !

OpenCorpus c'est qui et ça parle de quoi ?

OpenCorpus, c'est un pseudo de "guerre" pour un curieux, un touche-à-tout du numérique aka Jean-François Cauche, titulaire d'une thèse en Histoire Médiévale et Sciences de l'Information et membre de diverses associations liées au monde du logiciel libre (OLPC-France, Chtinux...). C'est un profil un peu "bâtard". Il me fallait et me faut encore beaucoup de temps en général pour expliquer ma thèse car pour la majorité des gens l'Histoire médiévale, c'est l'ancien, et donc incompatible avec les nouvelles technologies. L'idée de base, qui était juste un complément à la thèse, était de proposer une version numérique des textes utilisés. Cela a fini par devenir la pièce centrale, l'objet de tous mes désirs, et a impulsé la passion du livre numérique, de l'édition électronique scientifique et l'envie de communiquer sur ce sujet. Un peu iconoclaste mais c'est le bon moyen pour mutualiser plusieurs de mes sujets favoris.

Est ce que le principe du moteur de recherche à la manière de Google vous semble le meilleur moyen pour trouver une réponse sur le web ?

Je reste accro au moteur de recherche (et incidemment à Google), mais il faut bien reconnaître une forte évolution du contenu sur Internet. Cela a toujours été plus ou moins complexe de trouver de l'information pertinente sur le web mais c'est devenu actuellement une véritable science. Les portes d'entrée vers l'information sont multiples, les enjeux extrêmement importants, au point de voir apparaître parfois de véritables guerres de l'information. Le moteur de recherche a tendance à devenir un peu brouillon si l'on n'a pas reçu une formation basique et si l'on recherche de l'information plutôt pointue. Mais cela représente à mes yeux le far-west du web, la liberté, un lieu de rencontre formidable où la sérendipité peut exploser, un lieu où on peut être autant déçu qu'émerveillé. Cela dépend des usages, mais pour ma part, le moteur de recherche reste mon réflexe premier et pour peu qu'on s'y plonge véritablement je pense que nous avons encore facilement des chances de trouver ce que l'on veut avec un moteur de recherche.

Les métadonnées que nous laissons sur les réseaux sociaux sont enfouies dans le secret de l'architecture de bases de données. Est ce que la publication des shémas de ces bases de données serait une bonne idée selon vous ?

Je milite beaucoup pour les données ouvertes. Nous devrions avoir le choix des traces que nous laissons. Sur le net comme dans la vie réelle, cela devient de moins en moins possible. Par exemple, dans bien des magasins, on vous ouvre un dossier client même si l'on y fait un achat ponctuel ; je pense par exemple aux services de livraison à domicile. Les services web aiment beaucoup ce fichage. Ok pour vous offrir tel ou tel service, mais en échange, il va falloir s'abonner, même gratuitement. C'est une forme d'aliénation. La publicité ne me dérange pas, mais beaucoup plus le traçage. J'ai laissé ainsi tomber Deezer le jour où il a fallu s'abonner. Autant suivre des webradios qui ne me demandent rien ...

Nous devrions donc avoir accès à ces bases de données, tout au moins à leurs schémas, savoir qu'en allant sur tel ou tel site nous allons laisser telle ou telle trace. Paradoxalement, cela constitue d'une part un respect de la vie privée, d'autre part un formidable accès, si l'on est consentant, à un nombre important de données. Nous ne pouvons actuellement que difficilement étudier et mettre en corrélation ces ensembles hétéroclites de métadonnées, alors qu'au final c'est un peu de l'Histoire contemporaine. L'Histoire ne fait en effet rien d'autre que s'intéresser aux métadonnées des documents passés, alors pourquoi pas les actuels ?

Catégoriser une information avec des tags comme sur les blogs ou les outils de favoris en ligne, c'est une bonne conception pour classer des sources ?

Mon premier rapport avec les tags a été au travers d'un réseau social américain (dont j'ai malheureusement oublié le nom) qui proposait d'associer un profil à des tags, une sorte de facebook avant l'heure où l'on pouvait se tagguer mais aussi tagguer les autres et donc se faire tagguer. Je trouvais cela assez révolutionnaire car les réseaux sociaux c'est avant tout donner une image de soi, bien évidemment la meilleure possible. Sur ce réseau, le fait de pouvoir se faire tagguer rendait une part à la réalité. Vous pouvez vous présenter comme quelqu'un de génial. Mais si le réseau taggue autrement, cela ne marche pas. Même si on peut craindre de possibles dérives, la liberté de choix des tags reste très créatrice et influente.

Le tag représente cependant uniquement ma vision des choses et les risques sont alors grands de produire des tags peu clairs et donc de noyer l'information ou de participer à une standardisation, de faire ce que j'appellerais du "mass-tagging". On a pu le constater sur des services comme FlickR par exemple où le tag reste un outil de recherche extrêmement puissant, mais parfois désespérant, voire surprenant avec la prolifération de contenus et de tags variés. Dernièrement, j'avais en tête un certain type d'images que je souhaitais trouver sur FlickR pour illustrer mon propos lors d'un cours. Ma première recherche m'a amené sur des contenus extrêmement variés et ne reflétant absolument pas ma pensée. Il a fallu préciser énormément les tags et cela m'a pris pas mal de temps avant de trouver des images qui me convenaient. Un vrai dédale...

Quel est la lacune principale du livre numérique actuel ?

De n'être que numérique... Ce serait bien qu'on ait un livre numérique "avec des vrais morceaux de numérique dedans". A mon sens, le livre numérique doit apporter une dimension supérieure à la simple lecture, tout en offrant la possibilité de désactiver cette dimension pour en rester au texte, au livre. Le web s'anime, échange, partage, communique, se transforme, se module, crée des objets transversaux, ce que ne fait pas actuellement le livre numérique. Le livre numérique peut aussi suggérer en offrant des compléments lorsque par exemple l'auteur plante le décor, cite une musique que les personnages entendent, sans imposer, sinon autant regarder un film...

La plupart des livres numériques que j'ai pu consulter sont, à mon sens, des textes dont le support a changé. C'est pourquoi j'espère beaucoup dans les quelques initiatives qu'on peut voir actuellement autour du design, notamment sur les tablettes, ou vis-à-vis des expérimentations lancées actuellement au sein du LaboBnF auquel j'ai le plaisir de participer. Cela ne concerne d'ailleurs pas que la lecture. Il y a aussi besoin de repenser l'écriture.

OpenCorpus, c'est un projet de thèse avec un "open" : une wikithèse avec les idées des internautes ?

Je vais paraître décevant sur ce coup-là, tout au moins au premier abord. La thèse est derrière moi, mais c'est l'après-thèse qui s'avére le plus intéressant. La thèse amène toujours à un produit fini dont on a déterminé les contours à la base, notamment au mémoire dont la rédaction reste particulièrement difficile. Une fois libéré de ces contraintes, soit on abandonne, soit on en fait un jeu en explorant tout ce que l'on n'a pas pu faire par manque de temps ou hors-sujet, situé aux marges. Au départ, le sujet concernait l'analyse des sources d'une seigneurie de l'an mil au milieu du XIIIéme siècle grâce à l'utilisation d'une base de données textuelles. Très rapidement, dès ma rencontre avec le langage XML, le projet a évolué vers une traduction numérique de l'ensemble des textes, traduction et non transcription car prenant en compte l'ensemble des caractères du document (texte, support, graphie...), transformant l'objet historique en numérique communicant, pouvant être analysé, transformé, intégré et non pas un simple texte.

Un simple exemple : sur un corpus d'un peu moins de 500 textes que j'avais à analyser, connaître les créanciers d'un personnage, le montant de ses dettes année par année, effectuer des statistiques sur ces données, cela relève encore de la technologie "criterium - tableur". Intégrer toutes les métadonnées d'un texte, les compléter, les analyser permet d'effectuer ces calculs et opérations en quelques clics. La transcription des documents médiévaux reste humaine car il n'y a pas encore d'OCR suffisamment développée dans ce domaine, mais une fois l'analyse effectuée le gain de temps est extrêmement appréciable. J'aime cette idée de pouvoir faire du texte, du document historique un objet que je plie à mes besoins, mes intérêts. Après création d'un premier écosystème en XML, d'une première plateforme, je me penche actuellement sur le développement d'une plateforme de démonstration ouverte au public et la publication de mon mémoire de thèse sous une forme véritablement numérique, c'est-à-dire enrichie, modulable et communicante.

Le coté open, c'est pour l'aspect collaboration. L'écosystème XML est sous licence GPL et le mémoire sera sous licence CC-BY-SA à première vue. Je ne compte pas en faire de publication classique. La participation des internautes m'intéresse plus au sein d'un projet que j'aimerais prochainement mettre en place, une sorte de réseau social dédié aux étudiants où chacun pourrait placer ses sources, ses textes et transcriptions, profitant ainsi des analyses, validations et corrections de la communauté. Cela permettrait des rapprochements intéressants dans les sources, la possibilité d'exhumer des textes aujourd'hui peu connus et surtout d'éviter de réinventer la roue systématiquement. Il arrive souvent que plusieurs étudiants travaillent de manière cloisonnée sur des textes parfois déjà édités par méconnaissance du travail antérieur et l'inexistence d'un réseau adéquat.

Pensez-vous que nous sommes arrivés aux premiers moments de l'histoire où l'on pratique une écriture sans buts précis ?

C'est la préhistoire de l'écriture et du livre numériques. Pour l'instant, je dirais sommairement qu'on ne sait pas. On se pose sur des modèles existants sans réellement savoir dans quelle direction aller. Quand on y réfléchit bien, on peut même se dire qu'on ne sait pas ce qu'est un livre numérique. Pour ma part, je suis satisfait de ne pas le savoir car cela signifie que l'écriture a encore de beaux jours devant elle. Nous sommes un peu des humanistes, comme le rappelait Milad Doueihi lors de la conférence du LaboBnF du 31 janvier . Pour ce qui est d'écrire sans but, la plupart des livres procèdent d'une écriture fractionnée, sans véritable cohérence si ce n'est de transmettre un sentiment, une idée. Cela finit par former un livre. Écrire pour écrire... Les nouveaux modes de recollection de l'information par intelligence artificielle nous promettent de belle surprises pour peu que l'on scrute les blogs ou leurs commentaires. La motivation actuelle de l'écriture reste bien souvent le partage et je pense sincérement que l'intelligence humaine et à défaut artificielle finira par en faire sortir des livres bien peu ordinaires.

Les projets de Google concernant l'indexation massive de tout ce que produit l'édition, vous en pensez quoi ?

Basiquement, ça dépend... Je reste un peu sur l'expectative. En bon historien, je sais qu'une information qui ne m'intéresse pas actuellement et que je pense inutile peut s'avérer hautement importante pour d'autres chercheurs, demain, dans un mois, dans un an, dans 100 ans. Si cette indexation permet de recouper au maximum les informations et d'en déduire des analyses pertinentes, pourquoi pas ? Il faut que le projet ait une finalité, que ce ne soit pas de l'indexation pour l'indexation, de l'archivage pour l'archivage et que l'on dispose des outils adéquats pour exploiter cette nouvelle forme d'information.

L'indexation massive s'est d'abord faite dans le cloud de l'internet et j'espère qu'on pourra la voir un jour déborder de son environnement strictement numérique. Tagguer, indexer le monde qui nous entoure, ça peut être un beau rêve. Je suis assez fasciné par les théories de Jim Spohrer d'IBM Research avec qui j'avais eu l'occasion de converser une fois par téléphone. Le projet "Worldboard" actuellement en gestation prône le "world as a wiki", c'est-à-dire pouvoir apposer de l'information dans l'espace, pouvoir la géolocaliser. Les possibilités sont multiples : laisser de l'information sur une plante, un arbre, un monument historique pour les curieux, tagguer son voyage, sa balade, appliquer de l'information préventive, laisser des poêmes, des coeurs dans l'espace sans dégrader lesarbres... Le rêve est là mais pas encore la solution technique.

Des données additionnelles complétent désormais les écrits sur les blogs. Les commentaires contribuent à projeter tous les textes dans le temps et à actualiser les savoirs en permanence. Une information sans fin est-t-elle toujours une information ?

Je reste assez sceptique sur les commentaires, ayant parfois décrit ceux-ci comme le plus bel échec d'internet, tant les commentaires reflétent actuellement la société et beaucoup trop de points négatifs, de polémiques, de messages-défouloirs. Mais c'est une vision pessimiste. Ca a au moins le mérite de réveiller l'information, de la maintenir en vie. Jusque quand ? La question est là. Le web ne fait pas encore la distinction entre l'information éphémère, comme le journal du matin, et l'information durable comme le livre. Mais ça reste de l'information. Seul hic : on ne sait pas encore quoi en faire.

Les outils qui jouent avec les données et leurs connexions vont beaucoup plus vite que l'éducation du grand public à ces notions ... Dewey à l'école, une bonne idée ?

Cela ira toujours beaucoup plus vite. Certains diraient même trop vite. Et tant mieux ! Cela nous laisse un espace de liberté, de créativité, d'inventivité, un espace de hacking dans le bon sens du terme et pas celui que de trop nombreux médias galvaudent à tout-va. La formation reste encore trop institutionnelle et frileuse. Il n'y a quà constater le décalage entre les acquis du B2I et les pratiques des jeunes. L'éducation stagne souvent au niveau de l'expérimentation. Heureusement il y a des initiatives privées venant d'enseignants qui sont réellement encourageantes. Je pense notamment aux participants de l'Educamp 2010 ( http://web.me.com/educamp/educamp/Accueil.html). Alors Dewey à l'école, non... Cela me paraît trop "catégorisé", trop institutionnel, mais apprendre à apprivoiser les données, à les manipuler et même à imaginer leur utilisation future, oui ! Apprendre à connaître, protéger et partager ses données, plus que jamais...

Actuellement, à l'IUT B de Tourcoing, nous expérimentons avec les étudiants en Métiers du Livre de deuxième année un premier cours technique sur l'édition numérique. Cela comprend des aspects théoriques. Leur apprendre à faire un epub pour faire un epub, cela ne m'intéresse guère, mais beaucoup plus réfléchir avec eux en parallèle à la forme du livre, à son futur, aux nouvelles manières d'écrire... On peut par exemple se demander si l'écriture web, au-delà du concept de la pyramide inversée actuellement un peu dépassé, est un futur possible pour l'écriture du livre numérique. On peut s'interroger sur l'écosystème du livre numérique, objet isolé ou communicant avec de nombreux autres livres, objets numériques... Ils sont futurs libraires ou éditeurs et c'est intéressant de discuter de tout cela avec eux, de réapprendre à rêver le livre numérique.

Quel est selon vous la meilleure source francophone sur le livre et l'édition numérique ?

Sans surprise, je citerai les divers blogs de Bruno Rives de Tebaldo, le spécialiste du livre numérique français, en particulier les blogs Papier électronique et celui du LaboBnF et l'excellent eBouquin. J'aime aussi beaucoup les réflexions de François Bon dans Le Tiers Livre

Faites plaisir à vos amis : partagez !

Auteur : Simon Tripnaux

Blogueur lifestyle - Content manager & expert SEO. Mon job, rendre visible et lisible vos projets par les mots. Adepte de l'écriture depuis 1978.

Twitter Facebook LinkedIn

Blogueur ? Auteur ? Rejoignez la rédaction !

Et aussi ...

Blog : plus c'est long, plus c'est bon ?
Le blogging est en débat et tous les nombrils de la blogosphère sont passés en revue en ce moment ! Zoom sur un que j'aime bien, le mien :) Avec cette question qui revient de temps en temps dans le courrier du coeur : "t'as pas honte de parler de...

Regarder dans le passé
Un très bel exercice de style photographique ! Jason Powell prend des photos de photographies anciennes en les replaçant dans leurs lieux d'origine ... Regardez ! Toutes les photos : Looking Into the Past

Qwant Music arrive sur nos écrans !
Le moteur de recherche qui monte vient d'annoncer le lancement de Qwant Music, un espace de recherche dédié à la musique dans toute sa splendeur ! L'annonce vient d'être faite en cette journée de #CrueParis sous le soleil timide de la French Riviera...

Que feriez-vous pour un million de dollars ?
Bonne question... une nouvelle boîte ? Une webagency à Bruxelles tiens !

Ajoutez votre avis !

2 avis lumineux

Mercure

Merci pour votre vision très ouverte du liv_num. Et beaucoup apprécié le passage Dewey

Http://www.g

Merci de nous faire partager cette article, il faut dire que le livre numérique va faire mal a l'imprimerie papier mais c'est plus écologique !

Autres trucs à lire :

– Social tragédie Tragédies sur Twitter
– #SoNiceTweet #Nice06 #SoNiceTweet
– #AllSheNeedsIsLove ? Faire plaisir à une femme : chiche !
– Le blog Who cares ? par Anthony