サンプルアセット¶
これらのサンプルデータセットを使用して、DataRobotを短時間で習得できます。 これらのアセットを使用した完全なチュートリアルが用意されている場合もあり、自分で手順を追って試すことができます。 データセットは、問題のタイプ別にまとめられています。
生成¶
| 名前 | 説明 | 用途 | アセットのリンク | 学習リソース |
|---|---|---|---|---|
| 宇宙ステーションにおける研究 | 宇宙ステーションの研究論文のZIPファイルと、評価プロンプトのCSVファイル。 | RAG(Retrieval Augmented Generation) | .zipをダウンロード | 動画 基本ステップ |
| 医学研究の抄録 | 個々のテキストファイルを含むZIPファイル。 各テキストファイルは医学研究論文の抄録です。 | RAG | .zipをダウンロード | AIアクセラレーター |
| 技術ドキュメンテーション | 2023年末時点でのDataRobotの技術ドキュメントを含むZIPファイル。 | RAG | .zipをダウンロード | 基本ステップ |
| Kaggle "Wikipedia Movie Plots" | 1915年から2017年までのアメリカ映画、日本映画、インド映画のプロットサマリーを含む、それぞれ約600個の小さなテキストファイルからなる複数のZIPファイル。 | 独自のベクターデータベースとLLMブループリントを構築する | ドラマの .zipをダウンロード ランダムの .zipをダウンロード ロマンスの .zipをダウンロード コメディの .zipをダウンロード |
動画による基本ステップ |
時系列¶
| 名前 | 説明 | 用途 | 特徴量 | アセットのリンク | 学習リソース |
|---|---|---|---|---|---|
| 自動車の売上(GUIとコード) | 多くの自動車メーカーと車種の月間販売台数に、コンテキスト変数を追加。 | 複数系列、多変量の時系列 | 数値 | データのショートバージョンとフルバージョン。Pythonノートブック | 動画 基本ステップ |
| 店舗ごとのSKU単位の需要予測 | 分類された50商品について、店舗ごとのSKU単位の週間販売個数 | SKUレベルの需要予測 | 数値、カテゴリー | トレーニングファイル スコアリングファイル カレンダーファイル |
AIアクセラレーター |
連続値¶
| 名前 | 説明 | 用途 | 特徴量 | アセットのリンク | 学習リソース |
|---|---|---|---|---|---|
| 燃費 | 車に関する他の属性に基づいて、マイル毎ガロン(MPG)を予測します。 | 連続値 | 数値 | トレーニングデータ | APIクイックスタート |
| ワインの品質 | 化学組成に基づいて白ワインの品質スコアを予測します。 | 連続値 | 数値 | トレーニングデータ スコアリングファイル |
— |
| 開発者の給与 | Stack Overflow Developer Survey 2019に基づいて開発者の給与を予測します。 | 連続値 | 数値、カテゴリー、テキスト | トレーニングデータ | — |
分類¶
| 名前 | 説明 | 用途 | 特徴量 | アセットのリンク | 学習リソース |
|---|---|---|---|---|---|
| 再入院 | 患者が退院後に「再入院」するかどうかを予測します。 | 二値分類 | 数値、カテゴリー、テキスト | トレーニングデータ | 基本ステップ |
| 債務不履行 | 申し込み時に提供された情報に基づいて、融資が'is_bad'かどうかを予測します。 | 二値分類 | 数値、カテゴリー、テキスト | トレーニングデータ スコアリングファイル |
基本ステップ |
| フライト遅延 | 飛行機の出発が30分以上遅れるかどうかを予測します。 | 二値分類 | 数値、カテゴリー | トレーニング スコアリング |
AIアクセラレーター |
多クラス分類/多ラベル分類¶
これらのプロジェクトはDataRobot Classicでのみ完了できます。
| 名前 | 説明 | 用途 | 特徴量 | アセットのリンク | 学習リソース |
|---|---|---|---|---|---|
| 植物の病気 | 植物の葉の画像数百枚が、病気の種類ごとにフォルダー分けされたZIPファイル。 | 多クラス | 画像 | ダウンロード | — |
| アパレルの多ラベル | 複数のカテゴリーに当てはまる服の写真(「青」と「ドレス」など)。 | 多ラベル | 画像 | ダウンロード | — |