オーグメンテーションモデルについて¶
既存の画像をランダムに変換してトレーニング用の新しい画像を作成することで、小さすぎるデータセットを使用してインサイトに満ちたプロジェクトを構築できます。さらに、オーグメンテーションを使用するすべてのイメージプロジェクトは、初出のデータに対するモデルの一般化を改善することにより、全体的な損失を減らす可能性があります。つまり:
- オーグメンテーション は、イメージデータセットに対して実行されるアクションです。
- 変換 は、イメージに適用されるアクションです。
オーグメンテーションのプロセスを終えると、各イメージが変換されます。
イメージオーグメンテーションの一般的な説明については、albumentationsのドキュメントを参照してください。これは、DataRobotのオーグメンテーション機能の実装を強化するのに役立つオープンソースライブラリです。
このページでは、オーグメンテーションの設定方法の一般的な概要を説明します。オーグメンテーションの設定に使用するパラメーターについては、このオーグメンテーションリストと変換パラメーターのページで詳しく説明しています。
画像オーグメンテーション¶
トレーニング時の画像オーグメンテーションのステップを設定できる場所は2カ所あります。
- モデル構築前(高度なオプション内)
- リーダーボードから(モデル構築後)
パフォーマンス¶
トレーニング時のイメージオーグメンテーションの主な利点は、それがトレーニング中にのみ適用されるため、オーグメンテーションを使用してトレーニングされたかどうかにかかわらずモデルの予測時間があまり変化しないことです。そのため、予測時間にコストをかけずに、損失の少ないモデルをデプロイできます。
パフォーマンスに関するメモ:
-
ベンチマークによると、イメージオーグメンテーションによりデータセットの行数が2倍になったプロジェクトでは、オートパイロットの構築にかかる時間が約50%長くなります。
-
イメージオーグメンテーションによってモデルのLogLossが改善されると、モデル間およびデータセット間の分散が非常に大きくなり、平均で約10%改善されます。
データドリフト¶
イメージオーグメンテーションでトレーニングされたモデルは、イメージオーグメンテーションなしでトレーニングされたモデルよりもデータドリフトに対して堅牢であることがありますが、画像オーグメンテーションに適用した変換は、将来のデータドリフトを予測するために使用しないでください。例えば、淡水魚の種を検出するためのモデルをトレーニングし、将来、より大きな魚がいる別の地域にモデルを適用する場合、最善のアプローチは、その地域からデータを収集し、そのデータをデータセットに組み込むことです。データセットに表示されていない大きな魚をシミュレートする目的で現在のデータセットにスケール変換を適用するだけの場合は、トレーニングで大きな魚のイメージが作成されますが、DataRobotが検定またはホールドアウトに対してモデルをスコアリングすると、パーティションに大きな魚が含まれないため、モデルのパフォーマンスが低下します。そのため、リーダーボード上の他のモデルに対して、オーグメンテーションによりモデルを正しく評価することが困難になります。 現在のトレーニングデータセットは、将来のデータを表すものではありません。
外部リソース¶
機械学習モデルにイメージオーグメンテーションを取り入れることで、性能と成果が向上し、モデルがより堅牢になることのメリットを説明し、その証拠を示した研究論文は数多くあります。以下は外部リソースの一例です。
-
Chen, T.、Kornblith, S.、Norouzi, M. & Hinton, G. (2020年11月)。視覚表現の対照的な学習のための簡単なフレームワーク(原題:A Simple Framework for Contrastive Learning of Visual Representations)。
-
Krizhevsky, A.、Sutskever, I. & Hinton, G. E.(2012年)。深部畳み込みニューラルネットワークによるImageNetの分類(原題:ImageNet Classification with Deep Convolutional Neural Networks)。
-
Wang, J. & Perez, L.(2017年)。ディープラーニングを用いた画像分類におけるデータオーグメンテーションの有効性(原題:The Effectiveness of Data Augmentation in Image Classification using Deep Learning)
-
Zoph, B.、Cubuk, E. D.、Ghiasi, G.、Lin, T. Y.、Shlens, J. & Le, Q. V.(2020年8月)。物体検出のためのデータオーグメンテーション戦略の学習(原題:Learning Data Augmentation Strategies for Object Detection)。