Méthodes d’enquête numérique

Loin de moi l’audace d’aspirer au titre de « chercheur », en ce qui me concerne, je préfère parler d’enquêtes. Le titre de chercheur renvoie à un métier spécialisé (qui demande des diplômes et un but) : ce n’est pas le mien (et ce n’est pas celui de la plupart des intervenants dans le hobby, même ceux qui laissent planer un doute).

Va chercher, Lycos ! Photo INA.fr  https://www.youtube.com/watch?v=NahiFFd4bwk

Avant de rédiger un billet, il faut un minimum de « matière ». Il faut donc avoir réuni suffisamment d’informations pour que le sujet soit cohérent et un minimum intéressant. Et pour cela, il faut une certaine dose d’organisation et de méthode. Certains savent qu’ils peuvent me lancer toutes sortes de défis, en général, je leur réponds que « si c’est sur Internet, je le trouverai ». Et en général je m’en sors plutôt bien.
Il me semble qu’il n’y a rien de prodigieux et je vais vous expliquer comment je procède.

Il faut, de préférence : de la concentration, de la curiosité, l’envie d’apprendre, de la rigueur, de la mémoire et une sorte de minutie sélective et aussi une forme de naïveté – j’entends par naïveté la capacité à ne pas orienter ce que vous voyez, à ne pas se limiter à une seule fonction pour un objet « qui ressemble » à » (les zèbres qui lisent ces lignes voient déjà probablement de quoi  je parle). Si vous faites partie de ceux qui ne conçoivent pas qu’un puzzle puisse avoir moins de 5 000 pièces, vous serez avantagés.
La curiosité vous pousse à vous disperser, mais grâce à une mémoire photographique (pour l’inerte essentiellement : je ne reconnais que très difficilement les visages vivants) vous pouvez vous recentrer rapidement puis vous re-disperser, etc, l’important étant de ne pas perdre le fil, ou du moins de savoir y revenir.

Il faut également du temps. On ne va pas se mentir. Il faut beaucoup de temps. Du temps pour assimiler, pour classer, pour observer à nouveau, pour classer différemment pour capter les différences, les ressemblances, combiner différemment, analyser, recouper, comparer, etc.

Il faut également des outils. Des outils tout prêts, mais aussi des outils que l’on se fabrique s’ils n’existent pas.
Il faut également optimiser l’utilisation de ces outils.

Voilà pour les généralités, passons à la pratique.

Qui dit Internet, dit moteur de recherche. Google n’est pas la seule option mais c’est celle qui ratisse le plus large. Faites l’expérience vous-même : prenez un mot un peu rare et comparez les résultats retournés par Bing, Duckduckgo, Google et Qwant.

J’ai utilisé « muglias », qui est un mot utilisé en ancien français pour désigner le musc. Il faut savoir que les moteurs de recherche ont tendance à corriger vos fautes de frappe ou d’orthographe, donc les résultats fournis concerneront aussi tout ce qui ressemble à votre mot. Pour contrer un petit peu ce travers destiné à aider le « grand public », j’utilise les guillemets, pour forcer à chercher l’expression exacte, même s’il n’y a qu’un seul mot.
Les résultats de Bing, Qwant, et DDG sont décevant, commerciaux, alors que Goggle renvoie en premier vers le glossaire de Du Cange (qui n’est pas un dictionnaire, parce qu’il recense au lieu de décrire). Mais c’est comme tout : il faut varier, cela permet d’en découvrir plus.
A savoir que l’on peut exclure de la recherche un ou plusieurs mots en le précédant du signe moins, collé. Ainsi -pinterest permet de s’affranchir des multiples clones dans les tableaux Pinterest qui encombrent des pages et des pages de résultats, qu’importe le moteur de recherche.

Google offre aussi l’avantage de son filtre « scholar »[01]https://scholar.google.fr/ : cela permet d’éviter les résultats commerciaux ou populaires. Cela permet également d’accéder aux pdf d’Academia.edu sans avoir à se connecter (c’est peut-être un bug, ce sera peut-être un jour rectifié par Academia.edu mais cela fait des années que c’est ainsi et c’est fort pratique).

Il permet également de fouiller directement dans les livres[02]https://books.google.fr, scannés par google, même si le copyright est respecté et que le texte n’est pas affiché, on peut rechercher un mot dans un ouvrage (et se procurer l’ouvrage s’il est pertinent).

Google permet de faire des recherches à partir d’une image[03]https://images.google.fr/. J’ai remarqué qu’il y a souvent un descriptif automatiquement attaché à l’image (le nom même du fichier) ; ce descriptif par défaut oriente les résultats de Google, qui va ratisser très large et fournir des résultats idiots et/ou restreints au descriptif qu’il prend pour mot clé. Je n’ai pas trouvé comment me débarrasser de ce descriptif, alors je le surcharge systématiquement par « 789 », qui n’a aucun sens et peu de chance d’être le nom d’un fichier (en utilisant « 123 », les résultats incluent la chaîne de magasins de prêt à porter…).

Si c’est une recherche par image qui vous intéresse, il y a aussi Tineye[04]https://tineye.com/ (que je pratiquais longtemps avant que images.google n’arrive). Les deux recherches sont complémentaires et ne fournissent pas toujours les mêmes résultats. Parfois Tineye est le plus performant, parfois c’est Google. Et souvent, hélas, aucun des deux ne nous aide. Une paire de fois, c’est… Pinterest qui m’a aidée avec sa recherche de « photo similaire » : à force de comparer les origines, différentes, d’une même photo, j’ai fini par trouver un indice qui, fourni à Google, m’a permis de retrouver le site d’origine (un musée pour le dernier cas). Ce n’est pas toujours une ligne droite…

Organiser les résultats

Tous les résultats que vous trouverez méritent d’être enregistrés, ne serait-ce que pour ne pas avoir à recommencer la recherche. Le plus simple est le stockage sur disque dur ou clé USB.  Le plus simple, certes, mais pas le plus performant à ré-utiliser si le stockage est fait en vrac. Le plus efficace (et le plus contraignant) est de créer un système de dossiers pour stocker par thème. Quel que soit le contenu du fichier stocké (.txt, .pdf, .jpg…) il convient de mettre en place une certaine nomenclature pour s’y retrouver sans avoir à ouvrir le fichier. En ce qui me concerne, je commence par le siècle en chiffres romains, puis un tiret, puis le titre en camelback (il y a des majuscules au milieu des minuscules, sans espace). Petit apparté : sauvez votre stockage ! Dupliquez régulièrement le contenu de votre unité de stockage préférée : votre DD sur une clé USB, votre clé USB sur une autre clé USB, sur un serveur, sur un autre DD, sur un autre ordi, bref, méfiez-vous des pannes électroniques.

Parce que les tableaux Pinterest n’existaient pas,  et que je voulais classer mes documents tout en visualisant le contenu des fichiers image, tout en bénéficiant d’un moteur de recherche interne, et le tout sans développer de code, j’ai rapidement tout classé en exploitant une structure de forum et j’ai installé YaBB chez un hébergeur (c’est payant, mais c’est la contrepartie pour ne pas avoir de la publicité intrusive tous les deux messages) : c’est comme un disque dur mais c’est accessible de partout. Et l’hébergeur assure une sauvegarde de contenu au moins deux fois par jour. La notion de cloud n’existait pas (et j’en déteste le principe pour un usage individuel). Si je devais tout démarrer aujourd’hui, il est probable que j’exploiterais Pinterest mais pas exclusivement (le risque de tout perdre est à prendre en compte). 
Avec une alimentation continue depuis 2008, je dispose d’un bon volume de données ciblées et triées et qui ne sont pas trop soumises au caprices d’hébergeurs externes (ceux qui l’ont connue se souviendront de la déconvenue « aceboard » et de la perte de toutes les images qui y étaient stockées – idem avec « imageshack »).  Lorsque j’ai besoin d’une référence en particulier, c’est par là, par cette « linothèque » personnelle que je commence, avant même Google/Qwant/Bing. Si j’ai déjà un dossier ouvert, il y a de fortes chances que j’aie déjà des pistes d’enquête.

Un moteur de recherche ne passe pas partout, et je ne peux pas tout stocker en interne. Alors j’ai également constitué un répertoire de bases de données, de portails, de musées et de bibliothèques que je peux interroger directement sans repasser par un Google/Bing/Lycos. A force, les portails sont dans mes favoris de navigation et bien souvent, encore disponibles dans l’historique (vous verrez, cela vous arrivera également).
A vous de construire votre répertoire personnel en fonction de vos besoins, je ne fournirai pas les 500+ entrées du mien, seulement quelques incontournables : Gallica[05]http://gallica.bnf.fr/, le Metropolitan museum [06]https://www.metmuseum.org/, le Victoria & Albert museul[07]http://collections.vam.ac.uk/, la base photographique de la Réunion des musées nationaux[08]https://www.photo.rmn.fr/ et la bibliothèque Persée[09]https://www.persee.fr ; vous ajouterez surement la British Library, le Museum of London, les bibliothèques universitaires de Cambridge, Harvard, la bibliothèque mondiale, Biblissima, la Bibliothèque de Vienne, de Bavière, la base Imareal, la base Bildindex, la base Initiale, et bien d’autres.

Quelques mots à propos de Gallica : il est plus efficace de l’utiliser conjointement à la base Mandragore[10]http://mandragore.bnf.fr/html/accueil.html car c’est dans Mandragore que les scènes sont commentées. On consulte d’abord Mandragore, avec un mot clé, on repère la cote du manuscrit, on espère qu’il est disponible dans Gallica en couleur, et on recherche dans Gallica. Si la cote est un nombre de moins de trois chiffres il faudra probablement préciser le titre d’usage du manuscrit.

Pour ce qui est des textes, je n’oublie pas archive.org[11]https://archive.org/ et sa wayback machine qui permet parfois d’accéder à une capture de site ou de blog ayant disparu depuis plus ou moins longtemps. Archive.org héberge également une impressionnante bibliothèque de livres épuisés et tombés dans le domaine public[12]https://archive.org/details/books. Parfois, des scans illisibles sur Gallica sont parfaits sur Archive.org.

Il ne faut pas non plus hésiter à exploiter Pinterest. Cet outil de stockage d’images est parfois décrié, mais c’est plus en raison de l’insouciance (et clairement du jmenfoutisme) des utilisateurs que de l’outil lui-même, le principal reproche étant l’absence de légende pertinente ainsi que l’absence possible de la mention de l’origine de la capture. Décrier « les tableaux », c’est comme décrier « les blogs ». Tout dépend de l’auteur. Pour les légendes, on ne peut rien faire, c’est au bon vouloir du rédacteur (et lorsque l’on voit le niveau moyen des blogs du type « Mon vélo, mon chien, ma vie, mon oeuvre » on comprend que ce sont les mêmes qui animent des tableaux Pinterest). On ne peut pas demander  aux auteurs de blogs de citer leurs références ni leurs sources, on ne peut pas non plus l’attendre des utilisateurs de Pinterest.
Concernant l’origine des images, Pinterest vient récemment de verrouiller le champ « provenance » et l’alimente désormais systématiquement avec l’URL de provenance. Ceci dit, lorsque la provenance est un blog « Mon vélo, mon chien, ma vie, mon oeuvre » , on n’est pas plus avancé…
Mais il ne faut pas que la présence de boulets nous prive d’une recherche sur Pinterest, parce qu’avec un peu d’habitude, on arrive à y prélever des informations pertinentes. Un tableau Pinterest, c’est comme un blog. On arrive à faire le tri dans la jungle des blogs et sites inutiles, mal faits, mal conçus mal structurés, mal rédigés, mal renseignés : les informations pertinentes viennent souvent d’un nombre très restreint de blogs.  Il en va de même avec Pinterest : les noms de fournisseurs pertinents reviennent et on peut éliminer les autres. A vous de faire votre propre tri selon vos propres critères : c’est comme pour les blogs, et le reste de l’Internet : chacun ses critères d’exigence.
Une astuce, en passant, lorsque vos résultats sont principalement situés dans Pinterest et qu’il n’y a que cette piste pour en apprendre plus à propos d’une photo : observez les dimensions de l’image sélectionnée par le moteur de recherche. Toutes celles qui ont exactement la même taille sont des clones : inutile de les visiter toutes. Ciblez la taille la plus grande (les tailles inférieures pourraient n’être qu’une retouche, qu’une partie de l’image que vous cherchez, et vous aurez une perte d’information en même temps que la perte de définition), visitez la et partez de ce nouvel élément pour initier une nouvelle recherche, vous accrocherez peut-être des résultats différents.

Au chapitre des catalogues de photos, ne vous privez pas de flickr[13]https://www.flickr.com. Comme pour le reste (blog, site, tableau), tout dépend du sérieux du photographe, mais vous pouvez parfois obtenir une information supplémentaire qui vous permet de ré-enclencher le processus d’enquête  : le nom d’un musée, d’une exposition, un auteur, une année…

Un aspect important à ne pas négliger : la mise à jour. Les hébergements changent (même pour les institutions), l’organisation des bases de données internes également,  ainsi que les moteurs de recherche et le mode d’affichage. Par exemple, j’ai très récemment vu conseiller d’explorer « liber floridus » et « enluminures.culture.fr » . Ces deux bases sont inactive pour l’une (depuis peut être trois ans), et pour l’autre, archaïque, désormais incluse dans Initiale[14]http://initiale.irht.cnrs.fr/…. De même pour la base Joconde, incluse dans la plateforme POP[15]https://www.pop.culture.gouv.fr/. Si vous avez repéré et extrait des éléments de ces bases, il faudra penser à mettre à jour les URL : cela prend aussi du temps.

Que dire d’autre sur mon fonctionnement d’enquête numérique ?

Ah, oui. Commencer des dossiers sur tout, et… se rappeler que ces dossiers sont ouverts. Chaque examen de manuscrit (même archi connu), chaque visite de musée (virtuelle ou réelle), chaque lecture de texte est l’occasion d’alimenter au moins un dossier avec un détail. S’il ne sert pas sur le moment, il servira plus tard…

Et lorsque j’aurai achevé mon exemple pratique, je reviendrai sur la norme IIIF (International Image Interoperability Framework)[16]https://iiif.inha.fr/ , exemple en français -c’est important- d’utilisation concrète ici : https://digitalmuret.inha.fr/s/digital-muret/page/api-mode-emploi que l’on peut déjà approcher via l’outil de visualisation Mirador et qui est une belle promesse en terme de comparaison d’images et de compilation d’images (avec leurs références).

Transparence et open bar

 

Certains vantent l’ultra partage, la mise à disposition de toute compilation. Je n’en fais pas partie.

D’une part parce que ces dossiers, ces analyses (ce sont bien des analyses, pas seulement des juxtapositions, contrairement à ce qu’aimeraient (faire) croire certains) sont chronophages. Il faut du temps. Or, mon temps m’appartient, j’en fais ce qui me plaît, j’en offre la quantité qui me plaît dans les conditions qui me plaisent à qui bon me semble.
D’autre part, le plaisir de chercher soi-même est important et j’encourage chacun à découvrir le plus possible, sans limite, à explorer sans cadre, ce qui ne saurait se produire si tout vous est fourni en kit prédigéré : il faut entretenir la curiosité et encourager à fouiner car tous les jours de nouvelles oeuvres, de nouveaux ouvrages sont numérisés.
Autant si l’on me demande ici ou là « tu saurais où je peux trouver ceci ou d’où vient cela ? », j’aide volontiers à chercher l’élément manquant. Autant si l’on me réclame « je veux tout sur telle région telle période, où est-ce que je peux trouver », on trouvera porte close : mettez-y du vôtre, passez du temps, enquêtez, montrez que vous vous intéressez car je suis pas le pigeon de service et ne ferai pas votre travail à votre place… Je vous aiderai à chercher, mais je ne trouverai pas pour vous.

Une autre raison de discrétion est l’exploitation. Le hobby n’est ni plus transparent, ni plus honnête ni plus « bienveillant » que la vraie vie. Comme d’autres, j’ai vu de longues heures de compilation, comparaisons et classement pillées par des malhonnêtes qui ont exploité les résultats sans avoir la décence d’en créditer le repérage, l’analyse, la mise en forme et les rapprochements. Je l’ai expliqué à plusieurs reprises : les « sources » appartiennent à ceux qui les diffusent (musées, bibliothèques, etc.), elles ne sont pas miennes (ni vôtres !), nul ne peut les revendiquer. Cependant, les déductions, les rapprochements, le repérage de détails, la juxtaposition de détails, les hypothèses, cela est bien de de mon fait ; et tant que ces analyses ne sont pas consignées dans des billets ici-même, je les conserve à mon propre usage. Personne ne vous empêche de faire de même.

C’est pourquoi il y a une transparence maximale dans les billets de ce blog (« sources », références et liens s’il y a lieu). Mais il n’y aura pas open bar sur mes dossiers d’enquêtes ouverts, ni sur mon répertoire de liens favoris (si telle était votre attente, peut-être regrettez-vous votre lecture ? En fait, vous seriez bien embêtés si je vous livrais une liste brute de 500 URLs à explorer, sans vous orienter, sans les classer, sans expliquer dans quelles catégorie elles rendent service…).

Bien sûr, nous avons laissé de côté l’aspect « papier ». Il n’est pourtant pas à négliger. Un prochain billet pourrait présenter quelques ouvrages imprimés.

Back to Top