CV_FOLDS
Sólo se aplica a PredictiveInsight.
Sintaxis
CV_FOLDS(num_folds, data [, class_data] [seed])
Parámetros
num_folds
Es el número de pliegues a crear por validación cruzada. Este valor debe ser un entero positivo mayor que 1. Este valor debe ser menor que 65,536 o que el número de filas en data, que siempre es menor.
data
Las variables de entrada. Este puede ser una columna, un rango de celdas o una expresión que evalúa a cualquiera de los anteriores. Para obtener la definición de formato de data, consulte la sección "Parámetros de función de macro" en el capítulo de esta guía para el producto de IBM® .
class_data
Si se proporciona este rango de datos opcional, la función de macro CV_FOLDS creará pliegues mientras mantiene incluso probabilidades de clase. Los contenidos de class_data se utilizan como las salidas por cada patrón de entrada correspondiente.
Siclass_data es una sola columna, CV_FOLDS supone que la columna especificada contiene valores para varias clases de salida (es decir, cada valor distinto se considera una clase aparte). Si class_data es un rango de datos, cada columna de salida es considerada una clase diferente. (Con un rango de datos, los valores de cada columna serían uno si un patrón pertenece a esa clase, o cero si el patrón no pertenece a esa clase).
Para obtener la definición de formato de class_data (al igual que data), consulte la sección "Parámetros de función de macro" en el capítulo de esta guía para el producto de IBM® .
seed
Es un valor de inicio para utilizar como generador de números aleatorios. Este debe ser entero.
Descripción
CV_FOLDS divide uniformemente los datos de entrada en el número especificado de pliegues. Cada pliegue contendrá el mismo número de patrones de entrada. 2 Esto coloca cada fila del rango de datos de entrada en un pliegue al devolver una nueva columna que contenga números de pliegues con valor entre uno y num_folds.
Si se proporciona el parámetro opcional class_data, la información de clase de salida se utiliza para crear pliegues de validación cruzada de forma que se mantengan las probabilidades de clase de salida. Es decir, dentro de cada pliegue, la probabilidad de cada clase de salida será la misma. 3
Ejemplos
Crea una nueva columna denominada TEMP que contiene un valor para cada fila de las columna V1. La columna TEMP contendrá los valores 1, 2 y 3 para los tres pliegues diferentes. No se mantiene ninguna probabilidad de clase. Se utiliza el valor cero como valor de inicio para el generador de números aleatorios.
Crea una nueva columna denominada TEMP que contiene un valor por cada fila de la columna más corta en V1-V15. La columna TEMP contendrá los valores 1 a 100 para los 100 pliegues diferentes. No se mantiene ninguna probabilidad de clase. Se selecciona un valor de inicio aleatorio.
Crea una nueva columna denominada TEMP que contiene un valor para cada fila de la columna más corta en V1-V10. La columna TEMP contendrá los valores 1 a 50 para los 50 pliegues diferentes. La columna V11 contiene las clases de salida. Cada pliegue tendrá las mismas probabilidades de clase de salida. Se selecciona un valor de inicio aleatorio.
Crea una nueva columna denominada TEMP que contiene un valor para cada fila de la columna más corta en V1-V10. La columna TEMP contendrá los valores 1 a 10 para los 10 pliegues diferentes. Cada una de las columnas de salida V11-V15 representa una clase de salida. Cada pliegue tendrá las mismas probabilidades de clase de salida. Se utiliza el valor 96 como valor de inicio para el generador de números aleatorios.