![]() |
![]() |
|||||
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Par le Dr René Jarrousse, Juin 2003
La recherche d'informations médicales sur Internet est un sujet bien trop vaste pour chercher à être exhaustif. J'ai simplement voulu aider mes confrères en témoignant de mon expérience et en expliquant les outils que j'utilise. Il en existe beaucoup d'autres, sans doute, mais ceux que je cite me donnent entière satisfaction. En dehors des outils de recherche et de la stratégie, la validation des résultats est également un élément capital. S'il ne fallait retenir qu'une chose, c'est qu'un document non signé et non daté n'a aucune valeur.
La toute première question à se poser est quel type de documents pouvons nous trouver dans le domaine scientifique et médical. Ainsi que ce soit sur Internet ou dans une bibliothèque universitaire (BU), il faut savoir qu'il existe 2 types de documents :
- Documents primaires : Ce sont les publications des travaux de recherche, produits par des chercheurs surtout à l'intention de chercheurs. Ce sont les brevets, rapports, articles originaux de la presse spécialisée, conférences, livres, thèses et mémoires.
- la littérature grise, "qualifiée aussi de "non conventionnelle" ou de "souterraine", est constituée de la multitude de documents qui échappent aux circuits commerciaux traditionnels de l'édition (rapports de recherche, thèses, actes de congrès etc.). Ils ont la particularité de ne pas être ou d'être mal diffusés et mal répertoriée dans les bases bibliographiques.
- Les documents EBM (Evidence Based Medecine) constitués des consensus et recommandations entrent dans cette catégorie. Il s'agit de documents émanant d'instances officielles comme l'ANAES ou l'AFFSAPS ou semi officiels comme les sociétés savantes.
- Documents secondaires : Ce sont les données bibliographiques et les commentaires des documents primaires. Ils comprennent articles et livres reprenant et discutant des découvertes, des expériences, réinterprétation des idées dans des articles, livres, rapports, etc..
Résultats d'un travail de recherche
Défini par =>
Titre de la publication
Auteur : Nom, Prénom
Adresse professionnelle
Date de publication
Lieu de publication
Brevets Rapports Livres Thèses Congrès, conférences Articles originaux (publis) Actes de congrès Périodiques spécialisées (Documents primaires) (Littérature grise)Fig 1 : Documents primaires / littérature grise
Selon votre activité, il est bien évident que les documents qui vous seront utiles ne seront pas les mêmes pour chacun :
A coté des documents scientifiques, il y a l'actualité pour laquelle le Net n'est pas assez réactif. Si l'Internet recèle des trésors de renseignements, il faut bien avouer que les moteurs de recherche mettent un certain temps à référencer les nouvelles pages et il peut se passer plusieurs semaines voire mois avant qu'une information ou une nouvelle page d'un site ne soit repérable sur les moteurs de recherche.
Or l'Internet a deux versants : le versant information du Web et le versant communication avec votre BAL (Boite à Lettre Electronique).
- Actualité médicale = Boite à lettre électronique.
- Recherche de données médicale = Internet
- Le premier usage du courrier électronique est de pouvoir communiquer avec d'autres professionnels sur la médecine. C'est l'intérêt des listes de discussion et des forums dont le mode d'emploie ne sera pas développé ici.
Différents répertoires permettents de trouver listes et forums selon vos préférences. Les listes en général se trouvent répertoriée sur les moteurs de recherche (Google groupes). Les listes médicales sont également répertoriées entre autre au CHU de Rouen dans le "CISMef" à "type de ressources", "forums et listes de diffusion" : http://www.chu-rouen.fr/documed/lis.html. Il existe des moteurs de recherche spécifiques des listes de discussion.(par exemple Francopholiste) et l'incontournable Usenet pour les forums.
Il est possible aussi de faire des recherches Internet sur le contenu des listes et forums publics (Cf infra)
- Deuxième possibilité, l'abonnement à des journeaux électroniques, généralement gratuits, et qui reprennent parfois les principaux articles de la presse papier comme Le Quotidien du Médecin, JIM, Medexact ou Medhermes pour ne citer que les francophones. L'abonnement se fait en ligne et est gratuit, mais l'info n'est pas forcément très libre vis à vis de l'industrie pharmaceutique.
- Certaines sites gouvernementaux comme l'Agence du Médicament ou la Direction générale de la Santé ont créé leur propre liste de diffusion pour les alertes sanitaires. L'abonnement y est réservé aux professionnels de santé mais est gratuit
- Egalement très intéressants, les outils de veille sur le Net comme Net2one qui repère les articles paru dans la presse et vous adresse un ou plusieurs messages par jour en fonction de vos préférences. Ainsi pouvez vous paramètrer votre surveillance sur les alertes sanitaires ou sur plusieurs mots-clés que vous aurez décidés dans une liste de journaux que vous paramétrez. Google ALERT lui, vous adresse un mail à chaque fois que de nouveaux résultats apparaissent sur une recherche prédéterminée.
- Dans le même esprit certains logiciels "espions" comme Spyonit ou Web Site Watcher vous préviennent lorsqu'une page Internet déterminée a changé.
Le web représente l'autre versant d'Internet : l'information. Mais si l'outil est extraordinairement riche, on a vite fait de se laisser entraîner où on ne voulait pas aller, ou de se noyer dans des masses d'informations plus ou moins validées. D'où la nécessité d'avoir une méthode de recherche rigoureuse.
On a pu comparer l'Internet à une immense "bibliothèque", mais cette comparaison semble pour le moins optimiste. Dans une bibliothèque les livres sont rangés bien en ordre sur leurs rayons, chacun bien répertorié. Sur l'Internet ils seraient plutôt dispersés, sans aucune logique de classement et sans référencement systématique, bref un immense "foutoir". Nous pouvons tenter d'y voir un peu plus clair en essayant de trier les différents documents par type de ressource.
Ainsi pouvons nous distinguer :
- Sites constitués de pages "internet" avec parfois le meilleur et souvent le pire.
- Message de forums publics ou de listes de discussion avec beaucoup de verbiages et rarement des pépites.
- Banques d'images, sons, vidéo. Mais c'est pas vraiment ça qu'on cherche ici.
- Base de données bibliographiques et fonds documentaires d'accès souvent difficile, payant ou complexe.
Trouver le bon renseignement tient donc du parcour du combattant et nécéssite recherche rigoureuse et évaluation drastique de la validité des résultats.
Si on veut établir une concordance avec les ressources des documents scientifiques :
- Les documents primaires sont rarement en accès libre sur Internet, seul la bibliographie est accéssible via Medline, mais il faut ensuite passer par une base documentaire d'accès payant ou une BU (Bibliothèque Universitaire) ou les acheter en ligne.
- La littérature grise se trouve, lorsqu'elle est en ligne, sur des sites Internet d'accès libre mais noyée dans une masse de site sans intérêt, ou dans des fonds documentaires d'accès payant.
- La littérature EBM est généralement facile à trouver car bien répertoriée au CISMeF ou sur HON Select.
- Les documents secondaires sont le plus souvent accessibles librement sur Internet mais là aussi au milieu du pire.
Pour faire court, nous pouvons dire qu'un chercheur fait sa bibliographie sur Medline et trouve ses documents en BU, alors qu'un clinicien devra chercher les documents secondaires qui l'intéressent sur Internet au milieu d'une multitude de sites sans intérêt. C'est donc une démarche en deux temps : trouver, puis valider.
Référencement des sites Internet : répertoires et moteurs
A priori, si des webmasters mettent des documents sur des sites, c'est pour être lus ou vus par les internautes. Ils vont donc faire en sorte que leurs sites soient référencés. Si c'est simple pour un site internet ouvert, ça l'est beaucoup moins pour un site géré en base de donnée (php + MySQL) ou un portail d'accès restreint protégé par mot de passe, et quasi impossible pour une grosse base de donnée documentaire ou bibliographique. Un grande partie du Net est donc invisible aux moteurs de recherche.
Deux techniques de référencement des sites Internet sont menées avec des méthodes et des résultats opposés :
- La première qui vient à l'esprit est de référencer dans un "répertoire" tous les sites rencontrés ou soumis à l'instance de référencement. Ce travail de bénédictin constamment remis en question est effectivement mené par des instances plus ou moins spécialisées, mais fait par intervention humaine et non automatisée. Les répertoires donnent donc une liste de sites Internet classés par catégories, sous-catégories et ainsi de suite. Les répertoires ne référencent que des sites et non pas des pages, dans la ou les catégories correspondant le mieux à leur contenu. Si le nombre de sites référencés est limité et le classement dans un petit nombre de catégories ne permet pas des recherches très affinées, leur classement en catégorie est sûr. On dit que les répertoires sont "pertinents" (classement sûr), mais "silencieux" (faible nombre de sites référencés).
- La seconde façon de procéder est de faire rechercher par un logiciel informatique, un "moteur", les pages Internet, de les analyser en y relevant des mots clés dans le titre, le texte et des mots clés cachés ("Méta" : balises d'entête non visibles des pages). Les moteurs donnent donc des pages Internet (et non des sites) correspondant plus ou moins bien au mot-clé de la requête. En effet pour tenter d'attirer l'Internaute, de nombreux webmasters insèrent des mots-clés sans rapport avec leur site, mais figurant souvent dans les requètes ce qui fausse complètement la pertinence du résultat. On dit que les moteurs sont "bruyants" et "peu pertinent" : ils donnent beaucoup de réponses, mais beaucoup n'ont que peu de rapport avec la requête.
Malgré tout, les plus gros moteurs de recherche comme Fast ou Google ne référencent au mieux qu'un tiers des pages Internet, de plus toute les connaissances médicales ne sont pas forcément en ligne. Tout cela fait qu'il arrive souvent qu'on ne trouve pas de résultat à une recherche très précise.
Comment chercher sur le web ? On peut donc opposer nos deux outils issus de nos deux méthodes : le répertoire et le moteur.
La première consiste à se promener dans l'arborescence d'un répertoire comme on le ferait dans la table des matières d'une encyclopédie. Un gros avantage : la pertinence du classement fait que le résultat de notre recherche ne sera pas hors sujet, un gros inconvénient : le nombre limité de sites répertoriés risque de nous faire rater un site plus riche. Vous utiliserez donc un Répertoire pour la recherche d'un Site Internet ou si l'objet de votre recherche est assez général.
Retenons en trois : un généraliste, le DMOZ et deux spécialisés dans le médical, HON Select et le CISMeF
- Le DMOZ, également appelé Open Directory Project (Projet de Répertoire Ouvert) pour bien montrer que tout webmaster peut y faire référencer son site, est la référence en matière de répertoire, au point qu'il suffit de se faire référencer dans le DMOZ pour se trouver référencé dans tous les moteurs de recherche en quelques semaines. Son mode d'emploie est très simple, il suffit de se promener dans l'arborescence après avoir choisi la langue.
- HON Select (Health On the Net) est un répertoire de sites médicaux très performant. Il est hébergé en Suisse et possède quelques qualités interressantes, en particulier il est multilingue : anglais, français, allemand, espagnol, portugais, et basé sur la recherche et l'utilisation des termes MeSH du Medline américain (également multilingue sur HON). En effet pour éviter les synonymes qui compliquent la recherche, il a été convenu par Medline, la base bibliographique de la National Library of Medecine américaine, de ne retenir que le terme MeSH (voir plus bas : MeSH). HON Select permet donc de trouver le terme MeSH, d'effectuer des recherches Medline simples automatiques, d'avoir accès à de multiples ressources sur le Net en rapport avec le terme choisi.
- Le CISMeF hébergé au CHU de Rouen est un Répertoire des sites médicaux francophones dignes d'intérêt. Là encore le référencement est fait "à la main". Le choix des catégories et mots clés reprend le catalogue MeSH (en français) du Medline américains. Quatre modes de recherches sont disponibles : un outils de recherche sur le site, un index alphabétique, un index par thème et un accès par type de ressources. Trois axes majeurs : Recommandations et consensus, Enseignement et formation, information pour les patients.
Fig 2: Page d'accueil du CISMeF, ses 4 modes de recherches et 3 axes majeurs
La seconde méthode consiste à établir une requète dans un moteur de recherche. Nous avons vu que la pertinence des moteurs est faible, par contre le nombre de pages référencées est impressionnant et peut dépasser, pour les plus gros, le tiers des pages Internet existantes. Pour augmenter les chances de résultat de notre requète, les moteurs ont tenté de se regrouper en méta-moteur, mais ils ne font souvent qu'abaisser le degré de pertinence des résultats en augmentant le "bruit". La tendance actuelle est à la mise au point d'algorithmes de recherche éliminant les faux mots-clés et surtout en attribuant un classement aux pages trouvées en fonction du nombre de liens pointant vers ces pages (Pagerank) partant du principe que plus une page est citée dans d'autres sites, plus elle est interessante. Vous utiliserez un moteur pour rechercher une page d'un site ou si votre recherche est assez précise.
Nous n'en retiendrons qu'un : Google.
- Google est le moteur de recherche qui donne les résultats les plus pertinents, y compris pour des recherches médicales. En plus il se présente sous plusieurs formes toujours très dépouillées : soit moteur classique applicable au Web, aux images, aux groupes, soit répertoire (renvoie sur le DMOZ). En recherche avancées, on peut choisir sa langue, le type de document, le type de ressource, faire des recherches avancées complexes...Comme presque tous les moteurs de recherche, il est possible d'installer une barre de recherche constamment disponible dans son navigateur : la Googlebar à télécharger après avoir tapé "google toolbar" dans l'espace de requète (ne marche pas avec Netscape).
Nous avons vu que le principal inconvénient des moteurs de recherche est leur manque de pertinence et le "bruit" qui parasite le résultat des recherches. Pour tenter d'y remédier on trouve pleins de bons conseils par exemple sur Medixx : nous retiendrons 3 grands principes :
- choisir le bon mot-clé pour améliorer la pertinence
- faire des recherches en combinant les mots-clé : recherches dites "booléennes", pour diminuer le bruit
- faire des recherches avancées permettant de "filtrer" les recherches, également pour diminuer le bruit
Le MeSH est l'ensemble des termes médicaux utilisés par Medline pour son référencement. Il est utile à connaitre, car utilisé de façon quasi universelle pour éviter les synonymes qui diminuent l'efficacité des recherches Medline mais aussi internet.
Il est constitué de plus de 20.000 termes réunis en arborescence à partir de 15 catégories et se subdivisant en des branches de plus en plus précises. Un même terme peut appartenir à plusieurs subdivisions.
Il existe des moteurs de recherche pour trouver le terme MeSH correspondant à votre recherche. (Il est souvent judicieux d'encadrer le mot recherché par des astérisques : par exemple *steele* ce qui élargi la recherche à tout terme contenant steele) J'en retiens trois :
Par définition, un mot-clé est un mot qui va bien exprimer l'objet de votre recherche. Même en prenant le temps de la réflexion (ce qui est indispensable), le bon mot-clé ne vous viendra pas forcément du premier coup, et ce n'est qu'après quelques essais de recherches avec différents mots-clés que vous trouverez le bon, en général celui qui revient le plus souvent dans les sites visités au cours des premiers essais. De petits détails ont aussi leur importance : singulier / pluriel ; majuscule / minuscule ; accentuation ou non (éviter les accentations pour rechercher un site anglophone), caractères spéciaux à éviter (œ, æ, etc.). Google propose souvent une autre façon d'orthographier votre mot-clé et parfois de façon fort pertinente.
Autre nécéssité : savoir dans quelles ressources vous appliquez votre recherche. Si vous cherchez une image, inutile de chercher une page Internet, certains moteurs permettent de ne chercher que parmi une base d'images, celle qui vous convient (par exemple Google !), idem si vous cherchez une info toute fraiche, il est peu probable de la trouver dans une page Internet, la recherche sera plus payante si vous cherchez dans les news.
Pour diminuer le bruit, vous pouvez combiner plusieurs mots-clefs ensembles dans la plupart des outils de recherche. Il existe plusieurs façons de lier 2 mots-clés entre eux par les opérateurs booléens:
- AND est l'opérateur boléen par défaut de Google, parfois remplacé par + dans d'autres moteurs : il ne cherchera que les pages comportant les 2 mots clés en même temps. Si je mets : [hypertension traitement] dans Google, il traduira : [hypertension AND traitement] et sortira les pages comportant à la fois les mots hypertension et traitement.
- OR est l'opérateur OU : si je tape [pavillon OR appartement], le moteur cherchera les pages comportant le mot pavillon ou le mot appartement.
- NOT est l'opérateur boléen NON, parfois remplacé par le signe - : si je tape [canard NOT élevage], le moteur cherchera les sites parlant du canard, mais émiminera ceux parlant d'élevage.
- NEAR est l'opérateur PROCHE DE : cet opérateur ressemble un peu au AND, mais en plus il faut que les 2 mots clés soient peu éloignés l'un de l'autre. Cela nous amène à un liaison encore plus forte entre 2 mots clés :
- La chaine de caractère qui se met entre "" : si je tape ["canard à l'orange"], le moteur cherchera les pages comportant cette chaine de caractère. Attention à l'orthographe des longues chaines !
Figure 3 : Les opérateurs booléens : le résultat est représenté par la partie rouge
Consultez le mode d'emploie des moteurs de recherches, les requètes booléennes variant sensiblement d'un moteur à l'autre.
Un moteur a une fonction booléenne originale, il s'agit du moteur Exalead, qui propose en fonction du mot-clé choisi une série d'autres mots-clé trouvés fréquemment proches du premier et permettant d'affiner la recherche.
Les recherches avancées variant d'un moteur à l'autre il est recommandé de toujours se servir des mêmes outils et de vérifier leur mode d'emploie.
Nous prendrons celle de Google recherche avancée comme modèle. Une page de recherche spéciale permet en effet de combiner plusieurs filtres :
- Les opérateurs booléens déjà vu AND, "", OR, NOT
- La langue
- Le format du fichier
- La date de mise à jour
- Emplacement dans la page : titre, corps, adresse URL, liens
- Nom de domaine
D'autres fonctions sont également disponibles (traduction d'une page, pages similaires d'une autre page, pages liées à une page, etc.
Figure 4 : Page d'accueil de Google "Recherche avancée" dans un navigateur avec la Google Toolbar
Une fois les résultats obtenus, la difficulté qui se présente est d'évaluer la qualité de l'information recueillie. N'importe qui peut faire un site Internet qu'il soit un professionnel reconnu par ses pairs ou un amateur voire un charlatan ou un escroc. Evaluer le degré de confiance que l'on peut prêter à un site Internet est affaire d'expérience, mais quelques astuces simples permettent de savoir si un site est fiable.
- D'abord dès la liste des résultats sur le moteur de recherche obtenue, il est souvent aisé de voir sur l'adresse URL si le site est officiel ou non. Un site de CHU ou d'organisme publique risque d'être plus crédible qu'un site perso ou d'une liste de discussion (sauf à chercher les contestataires)
- Ensuite une fois le site ouvert, l'ambiance générale du site va vite vous dire si vous êtes sur un site réellement scientifique ou au contraire consumériste (propose des produits à vendre) ou dévoué à tel ou tel secte ou croyance.
- Enfin la page contenant l'information sera d'autant plus crédible qu'elle sera datée et signée, et que son auteur présente une certaine notoriété d'expertise dans le domaine traité.
Une tentative de labellisation "EBM" (Evidence Based Medecine) des pages médicales, par exemple par la Charte HON ou par le NetScoring du CISMeF, se signalent par la présence d'un logo sur la page. De même certains moteurs de recherches se disent "EBM". En voici quelques uns :
- Le CISMEF EBM : Répertoire EBM du CHU de Rouen
- Dermatonet : Le très bon site EBM des dermatologues où il n'y a pas que la dermato
- Credes : conférences de consensus : Conférence de consensus francophones
- Tripdatabase : The best of US EBM search engine
Enfin il faut aborder la notion de "Net invisible" que sont les bases de données (BDD) en ligne. Comme les informations sont présentés d'après chaque requète du chercheur d'informations, il y a une quasi infinité de pages qui ne peuvent évidemment pas être référencées. On dit que les bases de données font parties du "web invisible", c'est à dire que les moteurs de recherches classiques ne les voient pas. Il faut donc un outil spécialisé pour interroger ces bases.
On peut en distinguer deux sortes : les fonds documentaires et les bases bibliographiques.
La première chose à comprendre, c'est que pour qu'un fond documentaire soit interressant, il doit être quasi encyclopédique et constamment mis à jour. C'est très lourd et ça a un coût. Rares sont les fonds documentaires gratuits. Citons BML (Bibliothèque Médicale Lemanissier) où on trouve beaucoup de choses intéressantes et d'outils de recherche d'accès totalement libre. HSTAT en anglais est la base documentaire de la National Library of Medecine en textes libres : les principaux Consensus et Guidelines américains y sont accessibles. En dehors de cela, il en existe donc deux catégories :
- Soit le fond est financé par un commanditaire, généralement de l'industrie pharmaceutique, qui cré un "portail" avec accès réservé aux médecins ou d'accès libre. Il en va ainsi par exemple de Santea.com financé par Sanofi-Synthélabo. Ces portails sont certes gratuits, mais le domaine traité est généralement assez restreint, il est vrai compensé par la possibilité d'interroger des experts par mail. L'information n'y est pas forcément "EBM".
- Soit l'accès est payant (c'est souvent gratuit via une bibliothèque universitaire si vous y avez accès), ou adossées à l'abonnement d'une revue papier payante. Il en existe des francophones comme E2MED des éditions Masson et EMC-consulte d'Elsevier qui a rendu l'Encyclopédie Médico Chirurgicale consultable en ligne, mais les plus importantes sont anglophones comme la Cochrane Library.
Qui n'a pas entendu parlé de la mythique base bibliographique de la NLM ( National Library of Medecine ) américaine : Medline ? C'est par une décision politique que cette base de références bibliographiques a été mise en ligne et son accès maintenu gratuit. Il n'est pas question ici de faire un cours sur les subtilités de l'interrogation de cette base. Pour cela il existe d'excellents sites et particulièrement celui de C Boudry à l'URFIST de l'Ecole des Chartes, mais quelques points sont à connaitre :
- Il s'agit d'une base bibliographique, il n'y a donc aucun document à consulter autres que la "notice" (résumé) des articles si elle existe. Il faut ensuite se procurer l'article par ailleurs, malheureusement rarement en ligne.
- Son accès est donc gratuit, mais pour interroger cette base, il faut construire une requête en passant par un site dédié dont le plus connu est PubMed.
- Pour établir cette requète il faut utiliser des termes médicaux reconnus par la base et qui sont répertoriés dans le MeSH
- Les articles référencés constituent les documents primaires, c'est à dire le résultat brut des travaux des chercheurs, assez peu exploitables pour des cliniciens.
Si l'intérêt de Medline pour un chercheur est évident, ça l'est beaucoup moins pour un médecin généraliste ou un clinicien non chercheur qui va plutôt avoir besoin de documents EBM : résultats de congrès, concensus, guideline ou recommandation de bonne pratique, ou de documents secondaires : cours de médecine, articles de revue, etc.. Néanmoins sur la liste de discussion Emilie il a été donné une méthode de recherche de documents primaires assez futée, qui ne nécéssite aucun effort pour maitriser la technique "PubMed" et qui constituera une exellente conclusion.
L'idée est la suivante :
- Chercher le terme MeSH correspondant à ma requête
- Trouver le(s) chercheur(s) qui ont publié sur le sujet dans Medline
- Chercher à partir de tout ça des articles "originaux" de ces auteurs en ligne.
Reprenons pas à pas à l'aide d'un exemple : j'ai tapé "steele" (de maladie de Steele Richardson Olszewski) qui donne beaucoup de bruit sur Google si on ne tape que Steele :
- Chercher le terme MeSH correspondant à ma requète : on trouve sur le site HON Select un outil de recherche MeSH bilingue (ce qui permet éventuellement de traduire le terme MeSH français en MeSH anglais). Mon "Steele" entraine comme seule proposition : "paralysie supra nucléaire progressive". J'accepte ce terme MeSH. (Voir copies d'écran)
- Une fois mon terme MeSH trouvé (en français) sur HON Select, et sélectionné, je trouve en descendant la page, en dessous du cadre MeSH, un cadre "Medline" avec diverses propositions de recherches qui crée automatiquement la requête sur Medline et ouvre une nouvelle fenêtre avec les résultats de la requête.(Voir copies d'écran)
- Je n'ai plus qu'à Copier/Coller dans la fenêtre Google (mieux : dans la Google toolbar) le nom de l'auteur que j'aurai sélectionné avec le terme MeSH dans la langue sur laquelle je veux faire la recherche. Dans mon exemple, j'ai choisi le 5 ème résultat Medline (après échec des précédents), mais rien qu'à voir la qualité de ce que donne Google, j'ai gagné le Jack Pot.(Voir une copie d'écran)