モデルの構築¶
他のDataRobotプロジェクトと同様に、Visual Artificial Intelligence (AI)モデルの構築ではデータの準備とアップロードを行います。
- データセットを準備します(追加の特徴量タイプの有無に関係なく)。
- AIカタログからプロジェクトを作成するか、またはローカルファイルのアップロードを介してプロジェクトを作成します。
- 構築の前にデータをレビューします。
通常のDataRobotプロジェクトと同様にモデルを構築した後、以下の作業を行うことができます。
備考
トレーニング時のイメージオーグメンテーションは、既存のイメージをランダムに変換することで、トレーニングデータを増やす処理手順です。オーグメンテーションは、モデル構築の前後に設定できます。
データセットの準備¶
Visual Artificial Intelligence (AI)でプロジェクトを作成する場合、データはZIPアーカイブでDataRobotに提供されます。アーカイブ内のイメージの場所は2つの方法で識別できます。
- イメージのパスを含むCSVファイルを使用する(すべてのプロジェクトタイプで機能します)。
- 各イメージクラスに1つのフォルダーを使用し、イメージラベルとしてファイルシステムフォルダ名を使用する(単一イメージ特徴量分類データセットで機能します)。
開始する前に、イメージがサイズと形式のガイドラインを満たしていることを確認します。作成したデータセットは、AIカタログで共有およびプレビューを行うことができます。
イメージアップロードのパス¶
CSVは、直接的なクラス/イメージの場合とデータセットに特徴量を加える場合の両方においてすべてのタイプのプロジェクト(連続値または分類)で使用できます。この方法では、次のいずれかの方法で、CSVと同じディレクトリにイメージを提供します。
- すべてのイメージを含む単一のフォルダーを作成する。
- 複数のイメージを複数のフォルダーに分ける。
- フォルダー外でイメージをCSVとともに保存する。
CSVファイルを設定するには、次の操作を行います。
-
少なくとも次の列を含むCSVをイメージと同じディレクトリに作成します。
- ターゲット列
- 各イメージの相対パス
-
追加の特徴量を含めます。
1つの行に複数のイメージがある場合は、それぞれのデータセットに個別の列を作成できます。イメージが健康なトマトの前面、背面、左、右などに分類されている場合、ベストプラクティスとして、各カテゴリーに1つの列を作成することをお勧めします(前面のイメージ用に1列、背面のイメージ用に1列、左のイメージ用に1列、そして右のイメージ用に1列)。追加された列の各行にイメージがない場合は、DataRobotでは欠損値として扱われます。
ディレクトリのZIPアーカイブを作成し、DataRobotにドラッグアンドドロップしてプロジェクトを開始するか、またはAIカタログに追加します。
フォルダベースのイメージデータセット¶
イメージだけを追加する場合、各クラスにフォルダーを作成し、対応するフォルダーにイメージを配置してデータを準備します。たとえば、定番の「ホットドックか否か」の分類の場合、1つのフォルダーにはホットドッグのイメージを含め、もう1つのフォルダーにホットドッグ以外のイメージを含めます。
イメージの収集が完了したら、フォルダーを単一のアーカイブにZIP圧縮し、ローカルアップロードとしてDataRobotに直接アーカイブをアップロードするか、またはAIカタログに追加します。
AIカタログからプロジェクトを作成¶
AIカタログからイメージアーカイブにアクセスして共有することがよく行われます。この場合、すべてのタブとカタログの機能は、イメージプロジェクトとイメージ以外のプロジェクトで同じです。AIカタログを使用すると、イメージ特徴量を理解し、モデルの構築を開始する前にすべての要素が予想通りに表示されるかどうかを確認することに役立ちます。
アーカイブをカタログに追加するには、次の操作を実行します。
-
ローカルファイルオプションを使用してアーカイブをアップロードします。データセットの登録が完了すると、公開が完了したことがバナーに表示されます。
-
プロフィールタブを選択して、各イメージクラスのサンプルを表示します。
-
サンプルイメージをクリックして、イメージクラスの一意の値と欠損値の統計を表示します。
-
イメージをプレビューリンクをクリックすると、データセットからランダムに選択された30枚のイメージが表示されます。
次に、モデルを構築する前にデータを確認します。
構築前のデータのレビュー¶
EDA1が完了した後、AIカタログから開始されたかドラッグアンドドロップから開始されたかにかかわらず、DataRobotではデータ品質チェックと列タイプの識別が行われ、サンプリング用にイメージのプレビューが表示されます。データページで、DataRobotがデータセット特徴量をclass
およびimage
として処理したことを確認します。
以下で説明するようにイメージとデータ品質をプレビューした後、class
をターゲットとして識別し、通常のワークフローを使用してモデルを構築できます。
データ品質チェック¶
Visual Artificial Intelligence (AI)は、イメージに対して特定のチェックを行うデータ品質評価ツールを使用します。EDA1が完了したら、データページで結果を表示します。
イメージが欠損している場合は、専用のセクションで欠損率が報告され、詳細なログへのアクセスが提供されます。パスが不良または未解決である場合(アーカイブに存在しないファイル名)、またはイメージパスが予期されている列が空のセルである場合、「欠損」イメージになります。ログをプレビューをクリックすると、イメージごとの詳細を示すモデルが開きます。
[データ] ページのチェック¶
データページで次の操作を行って、イメージファイルの順序が正しいことを確認します。
- DataRobotでイメージが特徴量の型
image
として識別されていることを確認します。 -
データテーブルの
image
行を展開して、データセットからランダムにサンプルされた30枚のイメージのプレビューを開きます(トレーニングには完全なデータセットが使用されます)。プレビューでは、イメージがDataRobotによって処理されたこと、および使用する予定のイメージセットであることを確認できます。 -
元のデータを見るをクリックすると、DataRobotがモデル構築に使用する元のデータの最大1MBのランダムサンプル(イメージおよび対応するクラスの両方)を表示するモーダルディスプレイが開きます。
構築後のデータのレビュー¶
標準ワークフローを使用してプロジェクトを構築すると、データページからの追加情報が表示されます。
image
特徴量を展開して、イメージプレビューをクリックします。この可視化では、最初にデータセットのクラスごとに1つのサンプルが表示されます。クラスをクリックすると、そのクラスのその他のサンプルが表示されます。
重複リンクをクリックすると、データセットで重複イメージが検出されたかどうかを確認できます。以下の重複がレポートされます。
- データセットの複数行にある同じファイル名
- 名前が異なっていてもDataRobotに同一の内容と判断された2つのイメージ
予測¶
Visual Artificial Intelligence (AI) では、他のDataRobotプロジェクトと同じ予測ツールを使用します。つまり、モデルを選択し、予測を作成またはデプロイのいずれかを使用して予測を作成します。予測データセットの要件は、モデリングセットの要件と同じです。
詳細については、イメージ予測のセクションを参照してください。