ALEXANDRE TEMPLIER
Lorsqu’on parle de données médicales, on pense immédiatement à trois grands types de données : Les données cliniques générées par les laboratoires pharmaceutiques dans le cadre du développement de leurs médicaments, les données hospitalières, générées par les équipes de recherche médicales, qu’elles soient épidémiologiques ou pharmaco épidémiologiques, ou encore les données médico-socio- administratives de type PMSI, DMP, SNIRAM …
Ces données sont aujourd’hui essentiellement utilisées pour mesurer des indicateurs statistiques « en moyenne », alors qu’elles regorgent d’informations et de connaissances qui permettraient d’améliorer l’efficacité et la sécurité sanitaires de manière substantielle.
Les freins organisationnels, juridiques et culturels sont des obstacles majeurs à l’accès aux données de santé – et par voie de conséquence à la mise en place d’une utilisation raisonnée, désinhibée et constructive de ces dernières. Les aspects méthodologiques et numériques sont également déterminants dans cette perspective.
Le « gold standard » international pour la démonstration de l’efficacité et de la sécurité des médicaments, et plus généralement des gestes thérapeutiques, consiste à définir des hypothèses d’efficacité et de sécurité chiffrées, concevoir l’étude prospective adéquate, réaliser l’étude sur autant de patients que nécessaire, vérifier l’hypothèse de départ, et évaluer la probabilité pour que cette hypothèse soit vérifiée par hasard, à travers la fameuse « p-value» dont le seuil est généralement fixé à 5%. Aucune preuve scientifique ne doit être acceptée comme telle si elle n’a pas été correctement établie selon ce processus. Les hypothèses qui n’ont pas été définies avant le recrutement des patients peuvent être testées a posteriori. Elles ne peuvent en revanche accéder au statut de vérité scientifique qu’au prix d’une validation prospective.
Ceci peut être décourageant lorsque l’on considère les moyens nécessaires pour mener une véritable étude clinique. Comment faire des hypothèses solides ? A quels bénéfices un médecin peut-il s’attendre pour ses patients en utilisant un médicament ou un dispositif médical donné ? Quels sont les meilleurs profils de sélection des patients pour cette technique ? Quels sont les patients à risque d’échec ou de complications? Les réponses à ces questions sont plus faciles à obtenir qu’il n’y paraît.
Chaque patient apporte sa propre quantité d’information. Âge, sexe, type et durée d’évolution de la maladie, niveau de douleur, posture globale, mobilité articulaire, génétique, biologie, type de traitement, résultats thérapeutiques … La plupart de ces informations, accumulées dans l’esprit du médecin, se transforment parfois en intuitions, qui peuvent elle mêmes conduire à des hypothèses, et parfois – beaucoup plus rarement – à des preuves scientifiques.
Alors, pourquoi ne pas rassembler certaines de ces informations pour apporter des réponses aux questions évoquées précédemment ? La plupart des médecins ou des laboratoires pharmaceutiques ont déjà essayé, souvent sans succès malheureusement. Pourquoi ? En grande partie parce qu’ils n’ont pas utilisé les outils appropriés permettant d’extraire des hypothèses solides à partir de leurs données.
Aujourd’hui, l’informatique et les connaissances mathématiques permettent la mise en œuvre d’idées qu’il a été impossible de mettre en œuvre pendant plusieurs décennies. L’idée la plus simple consiste à tester tous les modèles contenus dans un jeu de données, par exemple les différences de taux de succès entre les hommes et les femmes, puis entre les hommes fumeurs et non-fumeurs, femmes fumeuses et non-fumeuses, etc … afin d’identifier des sous-populations spécifiques présentant des taux de réussite nettement plus élevés que la moyenne. Le nombre de configurations à tester est une fonction combinatoire et donc exponentielle du nombre de variables disponibles, ce qui rend le problème presque impossible à résoudre, en particulier lors de l’exploration de variables continues.
L’auteur présentera une nouvelle approche d’analyse, qui est actuellement utilisé dans l’environnement pharmaceutique pour identifier les marqueurs prédictifs d’efficacité et de sécurité des médicaments.