Comparison of Partial Least Squares Regression (PLSR) and Principal Components Regression (PCR) Methods for Protein and Hardness Predictions using the Near-Infrared (NIR) Hyperspectral Images of Bulk Samples of Canadian Wheat.

Mahesh, S., Jayas, D.S., Paliwal, J., et White, N.D.G. (2014). « Comparison of Partial Least Squares Regression (PLSR) and Principal Components Regression (PCR) Methods for Protein and Hardness Predictions using the Near-Infrared (NIR) Hyperspectral Images of Bulk Samples of Canadian Wheat. », Food and Bioprocess Technology, 8(1), p. 31-40. doi : 10.1007/s11947-014-1381-z  Accès au texte intégral (en anglais seulement)

Résumé

La présente étude visait à comparer les prédictions sur les teneurs en protéines et les valeurs exprimant la dureté provenant d’un modèle de régression partielle par les moindres carrés et d’un modèle de régression en composantes principales, pour des échantillons en vrac de blé canadien récolté dans diverses localités et durant différentes campagnes agricoles. Nous avons utilisé des échantillons de blé roux de printemps de l’Ouest canadien (CWRS), de blé de force blanc de printemps de l’Ouest canadien (CWHWS), de blé tendre blanc de printemps de l’Ouest canadien (CWSWS) et de blé roux de printemps Canada Prairie (CPSR) récoltés dans des exploitations situées à proximité des principales régions productrices d’Alberta, de Saskatchewan et du Manitoba durant les campagnes agricoles 2007, 2008 et 2009. Nous avons conditionné les échantillons de façon à obtenir des teneurs en eau (pourcentage du poids humide) de 13, 16 et 19 %, puis les avons combinés pour mettre au point les modèles de régression. Nous avons créé une base de données à partir des cubes hyperspectraux résultant d’images prises à intervalles de 10 nm dans le proche infrarouge (longueurs d’onde de 960 à 1 700 nm) dans les échantillons de blé en vrac des diverses classes. Nous avons déterminé les teneurs en protéines de référence au moyen du système Dumatherm et les valeurs de référence exprimant la dureté au moyen du système SKCS (single kernel characterization system). Nous avons utilisé la validation croisée d’ordre 10 pour les modèles à 10 composantes de régression partielle par les moindres carrés et de régression en composantes principales, aux fins de prédiction. Pour évaluer la performance de prédiction des modèles de régression, nous avons calculé l’erreur quadratique moyenne des prédictions (MSEP) estimée, l’erreur-type de la validation croisée (SECV) et le coefficient de corrélation (r). Avec l’ensemble complet de données de l’étude de prédiction de la teneur en protéines, nous avons obtenu, pour le modèle de régression partielle par les moindres carrés à dix composantes, une MSEP estimée de 1,76, une SECV de 1,33 et un r de 0,68; ces résultats étaient meilleurs que ceux obtenus avec le modèle de régression en composantes principales à dix composantes (2,02, 1,42 et 0,62). Avec l’ensemble complet de données pour la prédiction de la dureté, nous avons obtenu, pour le modèle de régression partielle par les moindres carrés à dix composantes, une MSEP estimée de 147,7, une SECV de 12,15 et un r de 0,82. Le modèle de régression partielle par les moindres carrés a donné de meilleurs résultats que le modèle de régression en composantes principales pour la prédiction de la teneur en protéines et de la dureté du blé.

Date de modification :