アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

特徴量をタスクに渡す

同じデータ型の特定の特徴量は、他の特徴量とは異なる方法で処理する必要がある場合があります。 たとえば、テキスト特徴量を含むデータセットの問題の解決に取り組んでいるとします。 1つは前処理に単語グラムを使用することに適しており、もう1つは文字グラムを使用します。

DataRobotでComposable MLを使用する場合、1つまたは複数の特定の特徴量を別のタスクに渡すことができます。

プロジェクト固有の機能を使用する場合、DataRobotでは次のコードを実行することをお勧めします。

w.set_project(project_id="<project_id>")
# or
# w = Workshop(project_id="<project_id>") 

この例では、年齢特徴量を選択し、欠損値補完を実行し、Kerasニューラルネットワーク分類子に渡します。 他の機能と同様に、w.Features.<tab>で特徴量名を自動入力して、使用可能な特徴量を完成できます。

features = w.FeatureSelection(w.Features.Age)
pni = w.Tasks.PNI2(features)
keras = w.Tasks.KERASC(pni)
keras_blueprint = w.BlueprintGraph(keras) 

必要に応じてブループリントを特定のプロジェクトにリンクし、たとえばプロジェクトに関連付けられたデータセットに選択した特徴量が存在することを確認することで、リンクされたプロジェクトに基づいてブループリントが確実に検証されるようにできます。

# Make sure it is saved at least once, or pass `user_blueprint_id` to `link_to_project`
keras_blueprint.save()
keras_blueprint.link_to_project(project_id="<project_id>") 

目的の列のみをタスクに渡すには、タスク単一列コンバーターまたは複数列コンバーターを追加します。 次に、パラメーターcolumn_nameまたはcolumn_namesとして元のデータセットから列名を選択します。 次のタスク(複数可)は、選択した列(複数可)のみを受け取ります。

更新、次にブループリントの保存をクリックして、選択した列を参照する新しいタスクを表示します。 これは、特定の列で特定の前処理を実行するブループリントの例です。 各列名がどのように観測可能であるかに注意してください。

この例では、すべての列を別のタスクに渡すこともできます。 これを行うには、数値特徴量から目的のタスクに新しい接続を追加します。

必要に応じてブループリントを特定のプロジェクトにリンクし、たとえばプロジェクトに関連付けられているデータセットに選択した特徴量が存在することを確認することで、リンクされたプロジェクトに基づいてブループリントが確実に検証されるようにできます

代わりに特徴量を除外することもできます。これは、特定の特徴量を1つの方法で処理し、他のすべての特徴量を別の方法で処理する必要がある場合に特に便利です。

without_insurance_type = w.FeatureSelection(w.Features.Insurance_Type, exclude=True)
only_insurance_type = w.FeatureSelection(w.Features.Insurance_Type)
one_hot = w.Tasks.PDM3(without_insurance_type)
ordinal = w.Tasks.ORDCAT2(only_insurance_type)
keras = w.Tasks.KERASC(one_hot, ordinal)
keras_blueprint = w.BlueprintGraph(keras) 

特定の特徴量をさまざまな方法で処理するには、タスク複数列コンバーターを追加します。 入力を開始して、列を選択。 リストに含めたい列を指定すると、残りの列は削除されます(パラメーターcolumn_namesを使用します)。 代わりに、使用したい列のリストを指定することもできます。

次に、カテゴリーデータからモデラーへのエッジを作成し、代替処理タスクを挿入してから、2番目の複数列コンバーターを追加して、同じ列名を選択し、除外することとなるメソッドを変更します。

1つの列が1つのタスクを使用して処理され、他のすべての列が別のタスクを使用して処理されるようになりました。


更新しました October 3, 2023