PCA_FEATURES
Applicable uniquement à PredictiveInsight.
Syntaxe
PCA_FEATURES(num_features, data [, PCA(base_data)])
Paramètres
num_features
Nombre de fonctions à extraire de la plage de données spécifiée à l'aide de l'analyse des composants principaux (PCA). Cette valeur doit être un entier positif compris entre un et le nombre de colonnes de la plage de données spécifiée par data.
data
Valeurs numériques dont les fonctions doivent être extraites. Il peut s'agir d'une colonne, d'une plage de cibles ou d'une expression convertie comme l'une de ces valeurs. Pour la définition du format de data, voir la section "Paramètres des fonctions macro" du chapitre du présent document correspondant à votre produit IBM ® .
PCA(base_data)
Si ce paramètre facultatif est fourni, l'analyse PCA est effectuée sur cette plage de données base_data et les vecteurs propres résultants sont utilisés pour extraire les fonctions de la plage de données data. Pour la définition du format de base_data (identique à data), voir la section "Paramètres des fonctions macro" du chapitre du présent document correspondant à votre produit IBM ® . Le nombre de colonnes de base_data doit correspondre au nombre de colonnes de data.
Description
PCA_FEATURES extrait les num_features premières fonctions de la plage de données spécifiée. Il renvoie num_features colonnes à l'aide des vecteurs propres générés par l'analyse des composants principaux sur la plage de données base_data, si elle est fournie. Si elle ne l'est pas, il utilise data pour générer les vecteurs propres. Dans ce cas, data est automatiquement normalisé à l'aide de la méthode "moyenne nulle, variance unité" avant l'analyse des composants principaux.
Les fonctions sont calculées comme suit :
*
La plage de données data est automatiquement normalisée à l'aide de la méthode "moyenne nulle, variance unité". En d'autres termes,
PCA_FEATURES(num_features, data)
est équivalent à
PCA_FEATURES(num_features, data,PCA(data, COL))
Aucune normalisation de data n'est fournie automatiquement. Pour normaliser data à l'aide de NORM_ZSCORE, vous pouvez spécifier :
PCA_FEATURES(num_features, data, PCA(NORM_ZSCORE(data, COL)))
*
L'analyse des composants principaux est effectuée sur la plage de données normalisée pour générer ses vecteurs propres (voir les informations détaillées de la fonction macro PCA). Cette opération est automatique pour data si base_data n'est pas fourni. Elle est effectuée par l'appel explicite de la fonction macro PCA si base_data est fourni.
*
Chaque ligne () de la plage de données (data) est transformée en nouveau système de coordonnées () en fonction des num_features (m) premiers vecteurs propres qui composent :
*
Les k lignes des données transformées ( à ) sont renvoyées (n colonnes).
Si la plage de données base_data est fournie, elle doit contenir le même nombre de colonnes que la plage de données data ; sinon, une erreur est renvoyée.
*
Le calcul de PCA sur une plage de données pouvant s'avérer intensif, il est bien plus efficace d'utiliser la fonction macro BUFFER sur le caclcul PCA. Par exemple : PCA_FEATURES(num_features, range, BUFFER(PCA(base_data)))
Exemples
Crée cinq colonnes nommées TEMP, VW, VX, VY et VZ contenant les cinq premières fonctions de la plage de données V1:V7. La plage de données V1:V7 est utilisée comme base de la transformation.
Crée trois colonnes nommées TEMP, VX et VY, contenant les trois premières fonctions de la plage de données V1:V4. La plage de données V10:V13 est utilisée comme base de la transformation.
Crée trois colonnes nommées TEMP, VX et VY, contenant les trois premières fonctions de la plage de données V1:V4. La plage de données V10:V13 est utilisée comme base de la transformation. Une fois que les composants principaux de la plage de données V10:V13 ont été calculés, ces valeurs sont stockées comme constantes. Si les valeurs de données des colonnes V10 à V13 sont changées, ils n'ont aucun impact sur cette définition de fonction.
Fonctions associées