CV_FOLDS
Applicable uniquement à PredictiveInsight.
Syntaxe
CV_FOLDS(num_folds, data [, class_data] [seed])
Paramètres
num_folds
Nombre de plis à créer pour la validation croisée. Cette valeur doit être un entier positif supérieur à 1. Cette valeur doit être inférieure à 65 536 ou au nombre de lignes de data, si ce dernier est inférieur à 65 536.
data
Variables en entrée. Il peut s'agir d'une colonne, d'une plage de cibles ou d'une expression convertie comme l'une de ces valeurs. Pour la définition du format de data, voir la section "Paramètres des fonctions macro" du chapitre du présent document correspondant à votre produit IBM ® .
class_data
Si cette plage de données facultative est fournie, la fonction macro CV_FOLDS crée des plis tout en conservant des probabilités de classe paires. Le contenu de class_data est utilisé comme sorties de chaque masque d'entrée correspondant
Si class_data est une colonne unique, CV_FOLDS suppose que la colonne spécifiée contient des valeurs pour plusieurs classes en sortie (à savoir, chaque valeur distincte est considérée comme une classe distincte). Si class_data est une plage de données, chaque colonne en sortie est considérée comme une classe différente. (Avec une plage de données, les valeurs de chaque colonne sont égales à un si un modèle appartient à cette classe et à zéro s'il n'y appartient pas.)
Pour la définition du format de class_data (identique à data), voir la section "Paramètres des fonctions macro" du chapitre du présent document correspondant à votre produit IBM ® .
seed
Valeur de départ à utiliser pour le générateur de nombre aléatoire. Il doit s'agir d'un entier.
Description
CV_FOLDS divise équitablement les données d'entrée dans le nombre de plis spécifié. Chaque pli contient le même nombre de modèles d'entrée. 2 Il place chaque ligne de la plage de données d'entrée dans un pli en renvoyant une nouvelle colonne contenant les numéros de pli dont la valeur est comprise entre un et num_folds.
Si le paramètre facultatif class_data est fourni, les informations des classes en sortie sont utilisées pour créer des plis de validation croisée tels que les probabilités des classes en sortie soient conservées. C'est à dire que dans chaque pli, la probabilité de chaque classe en sortie sera la même. 3
Exemples
Crée une colonne nommée TEMP contenant une valeur pour chaque ligne de la colonne V1. La colonne TEMP contient les valeurs 1, 2 et 3 pour les trois plis distincts. Aucune probabilité de classe n'est conservée. La valeur zéro est utilisée comme valeur de départ pour le générateur de nombre aléatoire.
Crée une colonne nommée TEMP contenant une valeur pour chaque ligne de la colonne la plus courte dans V1-V15. La colonne TEMP contiendra les valeurs 1 à 100 pour les 100 différents plis. Aucune probabilité de classe n'est conservée. Une valeur aléatoire de départ est sélectionnée.
Crée une colonne nommée TEMP contenant une valeur pour chaque ligne de la colonne la plus courte dans V1-V10. La colonne TEMP contiendra les valeurs 1 à 50 pour les 50 différents plis. La colonne V11 contient les classes en sortie. Chaque pli possède les mêmes probabilités de classe en sortie. Une valeur aléatoire de départ est sélectionnée.
Crée une colonne nommée TEMP contenant une valeur pour chaque ligne de la colonne la plus courte dans V1-V10. La colonne TEMP contiendra les valeurs 1 à 10 pour les 10 différents plis. Chacune des colonnes en sortie V11-V15 représente une classe en sortie. Chaque pli possède les mêmes probabilités de classe en sortie. La valeur 96 est utilisée comme valeur de départ pour le générateur de nombre aléatoire.