Development of TBSPG Pipelines for Refining Unique Mapping and Repetitive Sequence Detection Using the Two Halves of Each Illumina Sequence Read.

Xiang, H. et Li, X.-Q. (2016). « Development of TBSPG Pipelines for Refining Unique Mapping and Repetitive Sequence Detection Using the Two Halves of Each Illumina Sequence Read. », Plant Molecular Biology Reporter, 34(1), p. 172-181. doi : 10.1007/s11105-015-0912-8  Accès au texte intégral (en anglais seulement)

Résumé

Nous avons mis au point six pipelines (TBSPG) pour la cartographie de lectures de séquences Illumina relativement à des génomes de référence, en raffinant la cartographie unique et en estimant le nombre de lectures cartographiées et la couverture. Ces pipelines permettent de choisir entre une cartographie multiple ou unique, l’utilisation de fichiers de lectures aux extrémités appariées ou libres, l’enlèvement ou non des séquences communes au noyau et aux organites, ainsi que la cartographie avec les lectures entières ou les deux moitiés de chaque lecture pour raffiner la détection de séquences uniques et non uniques. Les pipelines TBSPG ont été fondés sur les outils publics Trimmomatic, Burrows–Wheeler Aligner (BWA), SAMtools, Picard et Genome Analysis Toolkit (GATK), d’après lesquels ils ont été nommés. Nous avons préparé plusieurs scripts en langage Perl pour combler les écarts entre les différents outils, connecter les outils entre eux, reconnaître les demi-lectures, sélectionner les lectures de cartographie unique, ainsi que pour calculer et sortir les données dans un format reconnaissable par Microsoft Excel afin de pouvoir étudier le nombre de lectures et la couverture par chromosome et génome d’organite. Dans un fichier de séquences de 100 pb de pomme de terre à extrémités appariées (Illumina TruSeq), environ 6,75 % des lectures entières issues d’une cartographie unique contenaient des séquences non uniques au niveau de la demi-longueur des lectures. Ces pipelines TBSPG gratuits peuvent être utilisés pour plusieurs applications, dont l’analyse des séquences répétitives et l’estimation du nombre de copies de génome des organites.

Date de modification :