Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

オーグメンテーションモデルについて

既存の画像をランダムに変換してトレーニング用の新しい画像を作成することで、小さすぎるデータセットを使用してインサイトに満ちたプロジェクトを構築できます。 さらに、オーグメンテーションを使用するすべての画像プロジェクトは、見えないデータのモデルの一般化を改善することにより、全体的な損失を減らす可能性があります。 要約すると次のようになります。

  • オーグメンテーション は画像データセットに対して実行されるアクションです。
  • 変換 は画像に適用されるアクションです。

オーグメンテーションのプロセスを終えると、各画像が変換されます。

画像オーグメンテーションの一般的な説明については、albumentationsのドキュメンテーションを参照してください。これは、DataRobotのオーグメンテーション機能の実装を強化するのに役立つオープンソースライブラリです。

このページでは、オーグメンテーションの設定方法の概要を説明します。 オーグメンテーションの設定に使用するパラメーターについては、このページのオーグメンテーションリストと変換パラメーターで詳しく説明しています。

Image augmentation

トレーニング時の画像オーグメンテーション の手順を設定できる場所は2つあります。

備考

画像を含むセカンダリーデータセットをプライマリー表形式データセットに追加する場合、上記のオーグメンテーションオプションは使用できません。 代わりに、Composable MLにアクセスできる場合は、元の画像の入力直後に(画像ブランチの最初のステップとして)画像オーグメンテーションのステップを追加し、そこからオーグメンテーションを設定することで、必要な各ブループリントを変更できます。

パフォーマンス

トレーニング時の画像オーグメンテーションの主な利点は、それがトレーニング中にのみ適用されるため、オーグメンテーションを使用してトレーニングされたかどうかにかかわらずモデルの予測時間があまり変化しないことです。 そのため、予測時間にコストをかけずに、損失の少ないモデルをデプロイできます。

パフォーマンスに関するメモ:

  • ベンチマークによると、データセットの行が画像オーグメンテーションによって 2倍になるプロジェクトでは、オートパイロットの構築には約50%長い時間がかかります。

  • 画像オーグメンテーションによってモデルのLogLossが改善されると、モデル間およびデータセット間の分散が非常に大きくなり、平均で約10%改善されます。

データドリフト

画像オーグメンテーションでトレーニングされたモデルは、画像オーグメンテーションなしでトレーニングされたモデルよりもデータドリフトに対して堅牢であることがありますが、画像オーグメンテーションに適用した変換は、将来にデータドリフトが発生した場合、予測時に使用しないでください。 たとえば、淡水魚の種を検出するためのモデルをトレーニングし、将来、より大きな魚がいる別の地域にモデルを適用する場合、最善のアプローチは、その地域からデータを収集し、そのデータをデータセットに組み込むことです。 データセットに表示されていない大きな魚をシミュレートする目的で現在のデータセットにスケール変換を適用するだけの場合は、トレーニングで大きな魚の画像が作成されますが、DataRobotが検定またはホールドアウトに対してモデルをスコアリングすると、パーティションに大きな魚が含まれないため、モデルのパフォーマンスが低下します。 そのため、リーダーボード上の他のモデルに対して、オーグメンテーションによりモデルを正しく評価することが困難になります。現在のトレーニングデータセットは、将来のデータを表すものではありません

外部リソース

機械学習モデルに画像オーグメンテーションを取り入れることで、性能と成果が向上し、モデルがより堅牢になることのメリットを説明し、その証拠を示した研究論文は数多くあります。 以下は外部リソースの一例です。


更新しました February 6, 2024