On Multiple Hypothesis Testing Maximizing the Average Power.

Nixon, J.H. (2013). « On Multiple Hypothesis Testing Maximizing the Average Power. », International Journal of Statistics and Probability, 2(2), p. 112-135. doi : 10.5539/ijsp.v2n2p112  Accès au texte intégral (en anglais seulement)

Résumé

L’auteur présente une théorie générale permettant de déterminer laquelle de deux hypothèses modélisées (qui peuvent dépendre de paramètres inconnus) convient le mieux à chacun des ensembles de données constituant un plus vaste ensemble, de sorte que la puissance moyenne est maximisée. On suppose que les nombreux ensembles de données du même type sont statistiquement indépendants. Par conséquent, les taux d’erreur peuvent être exprimés comme des proportions et la modélisation des données se fait selon une approche continue. L’auteur se sert des fondements de la théorie de la décision et démontre l’équivalence de différents critères pour l’optimisation. Il montre également que la méthode générale répond au critère lorsque chaque hypothèse comprend un nombre fini de paramètres inconnus et que l’hypothèse alternative est vide de sens. Si l’hypothèse nulle est déterminée par une distribution connue de la statistique de test, l’opération se réduit à utiliser la densité des valeurs p de cette statistique comme statistique de test définitive pour classer les données par ordre de signification. Pour deux scénarios en particulier, on observe que parmi trois méthodes d’estimation de la densité fondées sur l’estimation à noyau de la densité, une seule aboutit à un résultat quasi équivalent en puissance à celui obtenu avec le test du rapport de vraisemblance, qui exploite toute l’information contenue dans le modèle de l’hypothèse nulle et celui de l’hypothèse alternative, et cette méthode se compare avantageusement à l’Optimal Discovery Procedure (ODP) et à sa variante obtenue par itération. En ce qui regarde les données d’expression génétique de microréseaux et, plus récemment, les expériences de séquençage de l’ARN, où les données relatives aux différents gènes ne sont pas indépendantes en règle générale, on recommande d’utiliser cette méthode d’estimation avec les valeurs p associées à des méthodes telles que l’analyse de variables substitutives, qui élimine la majeure partie des effets du rapport de dépendance.

Date de modification :