C’est le cas si, comme 95% des internautes, vous vous limitez à utiliser Google, MSN ou Yahoo pour vos recherches !
En effet, ces moteurs n’accèdent qu’à une très faible partie d’Internet : le Web Visible.
Si on utilise la métaphore de l’iceberg, la partie émergée, la plus petite, est constituée par le Web Visible tandis que celle qui est immergée, dénommée « le Web Invisible », est 500 fois plus volumineuse (environ 200 000 sites) !
Mais l’intérêt du « Web Invisible » ne se limite pas à la quantité d’informations qu’il recèle. C’est également une ressource de meilleure qualité car bien souvent validée et compilée par des documentalistes ou des experts.
Internet ne peut donc devenir la pierre angulaire de votre veille stratégique que si elle englobe cette partie « cachée ».
D’ailleurs, pourquoi est-elle cachée ? et... peut-on y accéder ?
Le Web Invisible n’est que la conséquence des limites des outils de recherche conventionnels. En effet, Google, MSN ou Yahoo ! ne peuvent pas indexer certaines parties d’Internet. Sans entrer dans des considérations techniques, disons simplement que c’est le cas quand les bases de données sont trop volumineuses ou qu’elles nécessitent une intervention humaine ou une autorisation pour y accéder.
La base PubMed de la National Library of Medecine, avec ses 15 millions d’articles, n’est pratiquement pas indexée car trop volumineuse en effet, Google et Yahoo ! n’archivent les pages que dans une limite de 500ko.
Les horaires des trains sur Voyages SNCF ne sont accessibles que via des pages dynamiques qui doivent être requêtées... par un être humain.
La liste de l’ensemble des périodiques vendus dans le monde ne sont accessibles sur le site EBSCO que si vous avez un identifiant et un mot de passe.
Au niveau de l’accès, il y a une bonne et... une mauvaise nouvelle.
Commençons par la bonne : 95% du contenu du « Web Invisible » est accessible à tous et tous les domaines sectoriels y sont représentés, de façon uniforme, de l’Agriculture à la Vente en ligne, en passant par la Santé, Médecine, Biologie ou les Sciences et Mathématiques.
La mauvaise nouvelle est que, pour y accéder, il est nécessaire d’utiliser des outils de recherche spécifiques, basés bien souvent sur une indexation manuelle.
Parmi les « moteurs de moteurs », ou répertoires horizontaux, qui recensent les activités transversales, mon préféré est Allsearchengines qui recense 500 moteurs spécialisés. Pour les répertoires spécialisés ce sont About.com ou Infomine. Enfin, Allinfo, avec sa visualisation graphique des domaines de recherche est un « must » en terme d’intuitivité.
Pour les bases de données interrogeables, l’Université de Lyon I avec l’URFIST propose une sélection de près de 800 bases de données gratuites (http://dadi.enssib.fr).
L’interrogation et la mise en veille de la partie « Invisible » du Web nécessitent des outils spécifiques afin d’automatiser, ne serait-ce que partiellement, ces tâches.
C’est sans doute l’un des chantiers les plus palpitants sur Internet pour ces prochaines années !
Bon surf !
Pour une étude du « Web Invisible » :
Cette étude de BrightPlanet date quelque peu (2001) mais fait toujours référence.
Pour les systèmes de veille du « Web Invisible » :
DigiMind
Jean-Paul CRENN, jpcrenn@webcolibri.com