Quelques mots pour accompagner la présentation
"Publier pour le web et braconner"
que j'ai faite au Comité Scientifique
d'Alea le 31 janvier.
Je me place dans le cadre de la recherche et la publication en maths/info,
mais plusieurs idées peuvent sans doute se transposer à d'autres disciplines.
Tout d'abord, le mode de publication actuel reste orienté "papier"
(le format des articles est principalement le PDF), et calqué sur
des parutions de journaux à la mode du 20ème siècle:
revue par les pairs avant publication, périodicité imposée,
format imposé, ...
Le mode de publication actuel pose tout un tas de problèmes connus,
je renvoie à cette
conférence de Jean-Claude Guédon qui en donne une bonnée idée.
Enfin, on peut dire qu'il s'agit de publier sur
le web, et non pour le web:
l'utilisation de documents PDF comme support n'est qu'un calquage
des anciennes pratiques, simple numérisation des processus antérieurs.
Les nouvelles possibilités offertes par le web et les documents
numériques ne sont pas utilisées.
Le web est notamment basé sur des formats de documents standardisés
par le W3C (comme HTML, CSS,
RDF, ...) et sur la notion de liens entre ces documents.
Sur le web, chacun peut publier, c'est-à-dire rendre publics des documents,
pour peu qu'il puisse les déposer sur un serveur visible à tous
à une adresse (url) donnée.
Un article pour le web, notamment au format HTML, peut être bien
plus riche qu'une simple transposition du papier: on peut y inclure,
en plus du texte, des vidéos, des animations, des sons,
de l'interaction, ... A titre d'exemple, on pourra consulter
cette page
Il est également possible de fournir plusieurs niveaux de lecture, par
exemple:
- afficher ou masquer une preuve à l'aide d'un bouton, comme dans cet article,
- afficher ou masquer des détails comme dans cet article.
Il s'agit là d'exemples simples, mais l'on peut imaginer des types d'affichages
encore plus variés.
On peut également référencer un bloc précis d'un document (c'est-à-dire un noeud
précis dans l'arbre du document HTML): Par exemple nous pouvons référencer
une équation précise.
Nous verrons plus loin l'importance de cette possibilité.
Le web sémantique désigne le fait de décrire des relations entre
des ressources afin de donner du sens à un ensemble de ressources.
Une ressource est référencée par un identifiant, qui est (en gros) une URL
comme on en utilise dans les navigateurs. Ainsi, l'URL
http://open-alea.net/articles/1 identifie un article sur le site
http://open-alea.net. Idéalement, naviguer à l'adresse identifiant
l'article permet d'y accéder.
Pour abréger la notation des ressources, on utilise souvent un namespace,
par exemple si l'on définit oa comme namespace pour
http://open-alea.net/, on pourra noter l'adresse de l'article ci-dessus
par oa:articles/1.
Les relations entre ressources sont décrites par des triplets (sujet, prédicat, objet).
Par exemple:

oa:articles/1 ns:hasAuthor http://chauvin.perso.math.cnrs.fr/
oa:articles/1 ns:hasAuthor http://pouyanne.perso.math.cnrs.fr/
oa:articles/1 ns:hasTitle "Uncommon suffix tries"
Le prédicat (la relation entre le sujet et l'objet) est également exprimée par
un identifiant de ressource (une url), qui peut également être notée en abrégée.
L'objet peut être une ressource ou bien une chaîne ou un entier1.
Les trois triplets ci-dessus indiquent donc que l'article en question a deux auteurs,
dont on donne des identifiants, ainsi qu'un titre "Uncommon suffix tries".
Un ensemble de triplets décrit donc un graphe de relations, appelé graphe RDF,
pour Ressource Description Framework. A l'aide de triplets comme ceux ci-dessus,
on peut obtenir un graphe comme celui-ci:
Les documents HTML ont une structure arborescente: chaque noeud possède
des sous-noeuds, etc., ce qui permet de refléter notamment la structure usuelle
des documents: section, sous-section, ...
Il est possible d'attribuer un identifiant à certains noeuds, avec l'attribut
id. Exemple:

<html> ... <div class="theorem" id="theorem1"> [définition du théorème 1] </div> ... <div class="proof" id="proof5"> ... </div> ... </html>
Si le document ci-dessus est à l'adresse oa:/articles/1, il devient
possible de référencer le théorème 1 par
oa:/articles/1#theorem1, c'est-à-dire l'adresse de l'article suivie
de # puis de l'identifiant du noeud dans le document.
Avec cette possibilité, nous pouvons donc définir des triplets décrivant des relations
non plus seulement entre documents, mais entre noeuds de documents, pour signifier
par exemple qu'un bloc d'un article est une preuve d'une proposition de cet article,
ou qu'une preuve d'un article utilise un théorème d'un autre article. On peut voir
ce genre de relations sur le graphe RDF suivant:
Avec un tel graphe, il devient possible de poser des questions comme:
- Où est appliqué le théorème oa:articles/1#theorem1 ?
- Où sont exprimés des désaccords avec tel article ?
- Quels articles s'appuient sur les résultats de tel article ?
- Où sont les reviews de cet article, et qui en sont les auteurs ?
- ...
Dans cette partie,
je soutiens que, pour faire face à la stratégie gestionnaire
qui occupe le territoire de la recherche, il convient d'adopter une tactique
pour changer la façon dont la recherche est organisée: s'affranchir des
éditeurs commerciaux d'une part, profiter des nouvelles possibilités du web
d'autre part. Et plutôt que d'essayer de convaincre par des mots, je pense qu'il
faut commencer petit pour montrer ce qu'il est possible de faire, afin de
susciter l'adoption par un plus grand nombre.
Je propose donc la création d'un site web pour une petite communauté de
chercheurs, en guise de prototype en quelque sorte.
Ce site web permettrait de publier des documents (articles de recherches, review,
articles de vulgarisation, cours, ...) mais également le graphe RDF représentant
les liens entre ces documents et ou des éléments de ces documents (preuves,
propositions, ...), ainsi que des liens vers des documents et autres ressources
extérieures au site (articles ailleurs, etc.).
Ce site serait une plateforme de publication pour le web,
et du type open access.
Par ailleurs, depuis plusieurs années, le travail de mise en forme est fait par les chercheurs,
notamment via l'utilisation largement répandue de LaTeX. Auparavant, ce travail
n'était pas fait par les chercheurs. Au besoin, et selon les capacités et les intérêts
de chacun, il faut prévoir un accompagnement pour ce nouveau mode de publication,
tout en développant des outils facilitant l'écriture pour le web (~HTML + RDF).
C'est le travail que j'ai commencé à titre personnel dans
Stog-rdf,
qui permet, dans un seul document, d'indiquer également des liens avec d'autres documents.
De plus, en imaginant que plusieurs sites de ce genre essaiment, avec leurs graphes
respectifs, il devient possible de fusionner les graphes des différents sites pour
les utiliser dans un moteur de recherche utilisant les relations déclarées entre
(les éléments) d'articles.
Plusieurs questions restent à discuter:
- Quid de la pérennité ? Ce type de publication à vocation durable pour le web sémantique nécessite que les url des documents ne changent pas (conservation du nom de domaine, de l'organisation des ressources publiées, ...),
- Quid et de la preuve d'antériorité ? Il serait possible de déposer les articles de recherche sur les plateformes ArXiv ou Hal, afin de conserver une preuve d'antériorité,
- Revue par les pairs ? On peut imaginer plusieurs politiques. S'appuyer par exemple sur episciences.org pour adosser un système de reviewing "classique" avec editorial board et referees. On peut également penser à une publication avant revue par les pairs, dans un état "non revu". La communauté se saisit alors de cet article et des membres en font des reviews publiées elle aussi, avec des liens entre les reviews et l'article. Après ce retour et des modifications, l'article peut être publié dans un état définitif. On peut voir dans cette deuxième approche une façon pour la communauté de prendre soin d'elle.
- Quid des liens avec les réseaux sociaux, puisque la discussion scientifique peut également prendre d'autres formes que des articles formels; permettre de citer facilement des documents ou parties de documents, afin de pouvoir chercher les commentaires et discussions associées à un article par exemple, rejoint la question des annotations en général.