Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

Build Visual Artificial Intelligence (AI) models

他のDataRobotプロジェクトと同様に、Visual Artificial Intelligence (AI)モデルの構築ではデータの準備とアップロードを行います。

  1. データセットを準備します(追加の特徴量タイプは使用しても使用しなくても問題ありません)。
  2. AIカタログからプロジェクトを作成するか、ローカルファイルのアップロードを介してプロジェクトを作成します。
  3. 構築の前にデータをレビューします。

通常のDataRobotプロジェクトと同様にモデルを構築した後、以下の作業を行うことができます。

  1. 構築の後にデータをレビューする。
  2. モデルを評価して微調整する。
  3. 予測を作成します

備考

トレーニング時の画像オーグメンテーションは、既存の画像をランダムに変換し、トレーニングデータをオーグメンテーションする処理手順です。 オーグメンテーションは、モデル構築の前後に設定できます。

データセットの準備

Visual Artificial Intelligence (AI)でプロジェクトを作成する場合、データはZIPアーカイブでDataRobotに提供されます。 アーカイブ内の画像の場所は2つの方法で識別できます。

  1. 画像のパスを含むCSVファイルを使用する(すべてのプロジェクトタイプで機能します)。
  2. 各画像クラスに1つのフォルダーを使用し、画像ラベルとしてファイルシステムフォルダー名を指定する(特徴量が画像特徴量ひとつしかない分類問題データセットで機能します)。

備考

Additionally, you can encode image data and provide the encoded strings as a column in the CSV dataset. Use base64 format to encode images before registering the data in DataRobot. (Any other encoding format or encoding error will result in model errors.) See this tutorial for access to a script for converting images and for information on how to make predictions on Visual Artificial Intelligence (AI) projects with API calls.

開始する前に、画像がサイズと形式 のガイドラインを満たしていることを確認します。 作成したデータセットは、AIカタログ共有およびプレビューを行うことができます。

Size and format guidelines

The following table describes image requirements:

サポート タイプ
ファイルタイプ .jpeg*, .jpg*, .png, .bmp, .ppm, .gif, .mpo, and .tiff/.tif
Bit support 8ビット、16ビット**
Pixel size
  • Images up to 2160x2160 pixels are accepted and are downsized to 224x224 pixels.
  • Images smaller than 224x224 are upsampled using Lanczos resampling.

補記:

  • イメージサブフォルダーはZIP圧縮しないでください(データセットのメインのZIPアーカイブにネストされたアーカイブを含めないでください)。
  • CSVで参照されるすべての画像パスは、アップロードされたアーカイブに含まれている必要があります。リモートURLは使用できません。
  • File and folder names cannot contain whitespaces.
  • Use / (not \) for file paths.
* JPEG and lossy compression

JPEG (or .jpg) image format is, by definition, a LOSSY format. The JPEG standard does not guarantee to produce bit-for-bit identical output images; it requires only that the error produced by the decoder/encoder is lower than the error specified by the standard. As a result, the same image can be decoded with slight differences, even when the same library version is used. If keeping prediction results consistent is required, use the data preparation script that is described here to convert images to base64-encoded strings and then upload them.

** How are 16-bit images handled

DataRobot supports 16-bit images by converting the image internally to three 8-bit images (3x8-bit). Because TIFF images are processed by taking the first image, the resulting 16-bit image is essentially a greyscale image, which DataRobot then rescales. For more detail, see the Pillow Image Module documentation.

画像アップロードのパス

CSVは、直接的なクラス/イメージの場合とデータセットに特徴量を加える場合の両方においてすべてのタイプのプロジェクト(連続値または分類)で使用できます。 この方法では、次のいずれかの方法で、CSVと同じディレクトリに画像を提供します。

  • すべての画像を含む単一のフォルダーを作成する。
  • 複数の画像を複数のフォルダーに分ける。
  • フォルダー外で画像をCSVとともに保存する。

CSVファイルを設定するには、次の操作を行います。

  1. 少なくとも次の列を含むCSVを画像と同じディレクトリに作成します。

    • ターゲット列。
    • 各画像の相対パス。

  2. 追加の特徴量を含めます。

1つの行に複数の画像がある場合は、それぞれのデータセットに個別の列を作成できます。 画像が健康なトマトの前面、背面、左、右などに分類されている場合、ベストプラクティスとして、各カテゴリーに1つの列を作成することをお勧めします(前面の画像用に1列、背面の画像用に1列、左の画像用に1列、そして右の画像用に1列)。 追加された列の各行に画像がない場合は、DataRobotでは欠損値として扱われます。

ディレクトリのZIPアーカイブを作成し、DataRobotにドラッグアンドドロップしてプロジェクトを開始するか、AIカタログに追加します。

Quick CSV example

Let’s say you have data about 600 articles of clothing. For each article, you know the brand, size, and category. Additionally, you have a text description and two pictures for each (one front image and one back image).

  1. Create a ClothesDataset folder.
  2. Add all the images to ClothesDataset. You can put images in a single subfolder or put them into two subfolders (front images and back images).
  3. Create a CSV file containing four columns: Brand, Size, Category, and Description.
  4. Add two columns to the CSV file for images: Front and Back. The Front column will contain the relative path to the Front image; the Back column will contain the relative path to the Back image.
  5. Create a ZIP file from the ClothesDataset folder.
  6. Upload your ZIP file into DataRobot.

DataRobot automatically identifies and creates a six-column dataset: four columns for item Brand, Size, Category, and Description and two columns for images (Front and Back). Now you can build a model to predict the category from the item's brand, size, and description, along with the front and back pictures of the related item.

フォルダベースの画像データセット

画像だけを追加する場合、各クラスにフォルダーを作成し、対応するフォルダーに画像を配置してデータを準備します。 たとえば、定番の「ホットドックか否か」の 分類の場合、1つのフォルダーにはホットドッグのイメージを含め、もう1つのフォルダーにホットドッグ以外のイメージを含めます。

画像の収集が完了したら、フォルダーを単一のアーカイブにZIP圧縮し、ローカルアップロードとしてDataRobotに直接アーカイブをアップロードするか、AIカタログに追加します。

Quick folder example

Let's say you have 300 images: 100 images of oranges, 100 images of apples, and 100 images of grapefruit.

  1. Create three folders: Orange, Apple, and Grapefruit.
  2. Drop your images into the correct folders depending on the type of fruit. (Do not zip the subfolders.)
  3. Create a ZIP file in the parent directory of the three folders. The ZIP file will contain the three folders and the images inside.
  4. Drag and drop, or upload, your ZIP file into DataRobot.

DataRobot will automatically identify and create a three-column dataset: one for the label (Apple, Orange, Grapefruit), another for the image, and a third for the image path.

AIカタログからプロジェクトを作成

AIカタログから画像アーカイブにアクセスして共有することができます。この場合、すべてのタブとカタログの機能は、画像プロジェクトと画像以外のプロジェクトで同じです。 AIカタログを使用すると、画像特徴量を理解し、モデルの構築を開始する前にすべての要素が予想通りに表示されるかどうかを確認することに役立ちます。

アーカイブをカタログに追加するには、次の操作を実行します。

  1. ローカルファイルオプションを使用してアーカイブをアップロードします。 データセットの登録が完了すると、公開が完了したことがバナーに表示されます。

  2. プロフィールタブを選択して、各画像クラスのサンプルを表示します。

  3. サンプル画像をクリックして、画像クラスの一意の値と欠損値の統計を表示します。

  4. 画像をプレビューリンクをクリックすると、データセットからランダムに選択された30の画像が表示されます。

  5. 新しいプロジェクトを作成をクリックしてEDA1を開始します(マテリアライズされたデータセットの場合)。

次に、モデルを構築する前にデータを確認します。

構築前のデータのレビュー

EDA1が完了した後、AIカタログから開始されたかドラッグアンドドロップから開始されたかにかかわらず、DataRobotではデータ品質チェックと列タイプの識別が行われ、サンプリング用に画像のプレビューが表示されます。 データページで、DataRobotがデータセット特徴量をclassおよびimageとして処理したことを確認します。

以下で説明するように画像とデータ品質をプレビューした後、classをターゲットとして識別し、通常のワークフローを使用してモデルを構築できます。

データ品質チェック

Visual Artificial Intelligence (AI)は、画像に対して特定のチェックを行うデータ品質評価ツールを使用します。 EDA1が完了したら、データページで結果を表示します。

画像が欠損している場合は、専用のセクションで欠落率が報告され、詳細なログへのアクセスが提供されます。 パスが不良または未解決である場合(アーカイブに存在しないファイル名)、または画像パスが予期されている列が空のセルである場合、「欠損」画像になります。 ログをプレビューをクリックすると、画像ごとの詳細を示すモデルが開きます。

「データ」ページのチェック

データページで次の操作を行って、画像ファイルの順序が正しいことを確認します。

  1. DataRobotで画像が特徴量の型 imageとして識別されていることを確認します。
  2. データテーブルのimage行を展開して、データセットからランダムにサンプルされた30の画像のプレビューを開きます(完全なデータセットはトレーニングに使用されます)。 プレビューでは、画像がDataRobotによって処理されたこと、および使用する予定の画像セットであることを確認できます。

  3. 元のデータを見るをクリックすると、DataRobotがモデル構築に使用する最大1MBのランダムサンプル(画像および対応するクラスの両方)を表示するモーダルが開きます。

構築後のデータのレビュー

標準ワークフローを使用してプロジェクトを構築すると、DataRobotにデータページに追加情報が表示されます。

image 特徴量を展開して、画像プレビューをクリックします。 この可視化では、最初にデータセットのクラスごとに1つのサンプルが表示されます。 クラスをクリックすると、そのクラスのその他のサンプルが表示されます。

重複をクリックすると、DataRobotでデータセットで重複画像が検出されたかどうかを確認できます。 以下の重複がレポートされます。

  • データセットの複数行にある同じファイル名
  • 名前が異なっていてもDataRobotに同一の内容と判断された2つの画像

予測

Visual Artificial Intelligence (AI)では、他のDataRobotプロジェクトと同じ予測ツールを使用します。 したがって、モデルを選択し、予測を作成またはデプロイを使用して予測を作成します。 予測データセットの要件は、モデリングセットの要件と同じです。

詳細については、画像予測のセクションを参照してください。


更新しました January 11, 2023
Back to top