PCA_FEATURES
PredictiveInsight のみに適用されます。
構文
PCA_FEATURES(num_features, data [, PCA(base_data)])
パラメーター
num_features
指定されたデータ範囲から、主成分分析 (PCA) を使用して抽出するフィーチャーの数。この値は、1 以上で data によって指定されるデータ範囲の列数以下の正の整数である必要があります。
data
フィーチャーを抽出する元になる数値。これは列、セル範囲、またはこれらのいずれかに評価される式になります。data のフォーマット定義については、このガイドの IBM ® 製品の章にある「マクロ関数パラメーター」セクションを参照してください。
PCA(base_data)
このオプション・パラメーターを指定すると、PCA はこの base_data データ範囲に対して実行され、その結果の固有ベクトルが、data データ範囲からフィーチャーを抽出するために使用されます。base_data のフォーマット定義 (data と同じ) については、このガイドの IBM ® 製品の章にある「マクロ関数パラメーター」セクションを参照してください。base_data の列の数は、data の列の数と同じでなければなりません。
説明
PCA_FEATURES は、指定されたデータ範囲からトップの num_features 個のフィーチャーを抽出します。データ範囲 base_data (指定されている場合) に対する主成分分析で生成された固有ベクトルを使用して、num_features 個の列を戻します。指定されていない場合は、data を使用して固有ベクトルが生成されます。この場合、主要成分分析の前に、平均 0、分散 1 の方式で data が自動的に正規化されます。
フィーチャーは次の方法で計算されます。
*
データ範囲 data が、平均 0、分散 1 の方式で自動的に正規化されます。すなわち、
PCA_FEATURES(num_features, data)
これは、以下と同じ意味になります。
PCA_FEATURES(num_features, data,PCA(data, COL))
data は自動的に正規化されません。NORM_ZSCORE を使用して data を正規化するには、以下を指定します。
PCA_FEATURES(num_features, data, PCA(NORM_ZSCORE(data, COL)))
*
正規化されたデータ範囲に対して主成分分析を実行し、固有ベクトルを生成します (PCA マクロ関数の説明の詳細を参照)。base_data が指定されていない場合、data に対してこれが自動的に行われます。base_data が指定されている場合は、PCA マクロ関数を明示的に呼び出すことにより実行されます。
*
データ範囲 (data) の各行 () は、 を構成するトップ num_features (m) にランクされる固有ベクトルに基づいて、新しい座標系 () に変換されます。
*
k 行の変換されたデータ ( から ) が戻されます (n 列)。
base_data データ範囲を指定する場合、その列の数は、data データ範囲と同じでなければなりません。そうでない場合、エラーが戻されます。
*
データ範囲に対する PCA の計算は計算集約型なので、PCA の計算に BUFFER マクロ関数を使用すると効率が大幅に向上します。例えば、次のようになります。PCA_FEATURES(num_features, range, BUFFER(PCA(base_data)))
TEMPVWVXVY、および VZ という名前で、データ範囲 V1:V7 のトップの 5 つのフィーチャーを含む新しい列 5 つを作成します。データ範囲 V1:V7 は、変換のベースとして使用されます。
TEMPVX、および VY という名前で、データ範囲 V1:V4 のトップの 3 つのフィーチャーを含む新しい列 3 つを作成します。データ範囲 V10:V13 は変換のベースとして使用されます。
TEMPVX、および VY という名前で、データ範囲 V1:V4 のトップの 3 つのフィーチャーを含む新しい列 3 つを作成します。データ範囲 V10:V13 は変換のベースとして使用されます。データ範囲 V10:V13 の主成分が計算されると、それらの値が定数として格納されます。V10 列から V13 列のデータ値が変更されても、この関数定義には影響しません。
関連関数