Multi-population genomic prediction using a multi-task Bayesian learning model.

Chen, L., Li, C., Miller, S.P., et Schenkel, F.S. (2014). « Multi-population genomic prediction using a multi-task Bayesian learning model. », BMC Genetics, 15(Article 53). doi : 10.1186/1471-2156-15-53  Accès au texte intégral (en anglais seulement)

Résumé

Contexte. La prédiction génomique dans les populations multiples peut être considérée comme un problème d’apprentissage multitâche, où les tâches consistent à établir des équations de prédiction pour chaque population; cet apprentissage peut être amélioré par la mise en commun des données des différentes populations. Notre étude visait à mettre au point un modèle bayésien d’apprentissage multitâche pour la prédiction génomique dans des populations multiples avec une stratégie de mise en commun efficace des données des différentes populations. Nous avons utilisé des études de simulation et des données réelles de bovins laitiers des races Holstein et Ayrshire sur les phénotypes de cinq caractères liés à la production laitière pour évaluer le modèle d’apprentissage bayésien multitâche proposé et le comparer à un modèle à tâche unique et à une méthode de simple groupage de données. Résultats. Nous avons proposé un modèle bayésien d’apprentissage multitâche pour la prédiction génomique dans des populations multiples. Les données des différentes populations ont été mises en commun par l’intermédiaire d’une série commune de variables indicatrices latentes, alors que les effets SNP pouvaient varier d’une population à l’autre. Les études de simulation et l’analyse des données réelles ont permis de constater l’efficacité du modèle multitâche pour améliorer l’exactitude de la prédiction génomique chez les bovins de la race Ayshire (plus petits que les Holstein). Selon les études de simulation, c’est le modèle multitâche qui s’est révélé le plus efficace lorsque le nombre de QTL était faible (n  =  20), l’exactitude pouvant augmenter de 0,09, lorsque la corrélation était faible entre deux populations (ρ  =  0,2), et de 0,16, lorsque la corrélation était forte (ρ  =  0,8). Quand nous avons inclus les génotypes des QTL pour le groupe de référence et le groupe de validation, les améliorations étaient de 0,16 et 0,22, respectivement, pour les corrélations faibles et fortes des effets des QTL entre deux populations. Lorsque le nombre de QTL était élevé (n  =  200), l’amélioration était faible, de 0,02 tout au plus, quand les génotypes des QTL n’étaient pas inclus pour la prédiction génomique. Nous avons observé une réduction de l’exactitude avec la méthode de groupage simple lorsque le nombre de QTL était faible et la corrélation de leurs effets, faibles, entre deux populations. En ce qui a trait aux données réelles, le modèle multitâche a permis d’obtenir une augmentation de l’exactitude variant de 0 à 0,07 dans le groupe de validation Ayrshire, lorsque 28 206 SNP ont été utilisés, tandis que le simple groupage de données a entraîné une réduction de l’exactitude pour tous les caractères sauf le pourcentage de protéines. Lorsque nous avons utilisé 246 668 SNP, l’exactitude obtenue avec le modèle a augmenté de 0 à 0,03, tandis que la méthode de groupage a diminué l’exactitude de 0,01 à 0,09. Dans la population de bovins Holstein, les trois modèles ont eu des performances similaires. Conclusions. Les résultats de cette étude montrent que le modèle bayésien d’apprentissage multitâche proposé pour la prédiction génomique dans des populations multiples est efficace et qu’il peut améliorer l’exactitude de la prédiction génomique.

Date de modification :