Note publique d'information : La problématique de la gestion des données manquantes dans les études épidémiologiques
est un sujet qui intéressera tous les chercheurs impliqués dans l’analyse des données
recueillies et dans l’interprétation des résultats issus de ces analyses. Et même
si la question de la gestion des données manquantes et de leur impact sur la validité
des résultats obtenus est souvent discutée, cesont souvent les méthodes de traitement
des données manquantes les plus simples mais pas toujours les plus valides qui sont
utilisées en pratique. L’utilisation de chacune de ces méthodes suppose un certain
nombre d’hypothèses sous lesquelles les résultats obtenus sont valides, mais il n’est
pas toujours possible de tester ces hypothèses. L’objectif de ce travail était (i)
de proposer une revue des différentes méthodes de traitement des données manquantes
utilisées en épidémiologie en discutant les avantages et les limites de chacune de
ces méthodes, (ii) de proposer une stratégie d’analyse afin d’étudier la robustesse
des résultats obtenues via les méthodes classiques de traitement des données manquantes
à l’écart aux hypothèses qui, bien que non testables, sont nécessaires à la validité
de ces résultats, et (iii) de proposer quelques applications sur des données réelles
des différents point discutés dans les deux premières parties.
Note publique d'information : The issue of how to deal with missing data in epidemiological studies is a topic which
concerns every researcher involved in the analysis of collected data and in the interpretation
of the results produced by these analyses. And even if the issue of the handling of
missing data and of their impact on the validity of the results is often discussed,
simple, but not always appropriate methods to deal with missing data are commonly
used. The use of each of these methods is based on some hypotheses under which the
obtained results are valid, but it is not always possible to test these hypotheses.
The objective of this work was (i) to propose a review of various methods to handle
missing data used in the field of epidemiology, and to discuss the advantages and
disadvantages of each of these methods, (ii) to propose a strategy of analysis in
order to study the robustness of the results obtained via classical methods to handle
missing data to the departure from hypotheses which are required for the validity
of these results, although they are not testable, and (iii) to propose some applications
on real data of the issues discussed in the first two sections.