特徴量抽出(Feature Extraction)
特徴量抽出(Feature Extraction)は、機械学習やディープラーニングにおいて、元のデータから有用な情報を抽出し、それを表現するための特徴量を作成するプロセスです。
特徴量は、データの各インスタンス(サンプル)を表現するための情報であり、予測や分類のための入力として使用されます。特徴量は通常、数値やカテゴリカルな値で表され、モデルがパターンや関係性を学習するための情報源となります。
特徴量抽出の目的は、次元削減や特徴の表現改善など、データの複雑さを低減し、モデルのパフォーマンスを向上させることです。以下に特徴量抽出の一般的な手法として使用されるいくつかの手法を示します:
-
主成分分析(Principal Component Analysis, PCA): データの相関を考慮し、元の特徴空間を回転させ、新しい特徴空間(主成分)にデータを射影します。主成分は元の特徴量の組み合わせであり、データの分散を最大化するように選ばれます。
-
独立成分分析(Independent Component Analysis, ICA): データを独立した要素(独立成分)に分解する手法です。データの生成過程が統計的に独立している場合に有効です。
-
特徴選択(Feature Selection): 元の特徴空間から、予測に寄与しないまたは冗長な特徴を削除する手法です。フィルタ法やラッパー法、埋め込み法などのアプローチがあります。
-
特徴変換(Feature Transformation): 特徴量を新しい表現に変換する手法です。例えば、対数変換や正規化、正規化、スケーリングなどがあります。
-
テキストデータの特徴量抽出: 自然言語処理(NLP)タスクでは、テキストデータから特徴量を抽出するための手法が使用されます。例えば、単語の出現頻度をベースにしたBoW(Bag-of-Words)表現やTF-IDF(Term Frequency-Inverse Document Frequency)などがあります。