Skip to content

アプリケーション内で をクリックすると、お使いのDataRobotバージョンに関する全プラットフォームドキュメントにアクセスできます。

モデリングデータセットのGCPベースの強化

GitHubでこのAIアクセラレーターにアクセス

アルゴリズムで大量の非構造化テキストデータからインサイトを抽出できるため、機械学習モデルにとってテキストデータは貴重な情報ソースです。 テキストデータは、ソーシャルメディア、ニュース記事、顧客フィードバックなど、さまざまなソースから取得できます。 MLモデルでテキストデータを使用する場合、企業が情報に基づいた意思決定を行う際に役立つセンチメント分析やトピックモデリングなど、貴重なインサイトを提供することができます。 しかし、MLモデルでテキストデータを使用することは、自然言語の複雑さ、バイアスとノイズの存在、テキストデータ標準化の欠如など、いくつかの要因が原因で、困難になる場合があります。 さらに、MLモデルで効果的にテキストデータを使用できるようにするには、テキストデータに対してかなりの量の前処理と特徴量エンジニアリングを施す必要があります。

センチメント分析はテキストマイニングの一般的な手法の1つで、テキストが肯定的、中立的、否定的なセンチメントを含むかどうかを表す数値が割り当てられます。 DataRobotはそのようなモデルを効率的に構築する際に役立ちますが、トレーニングには正確にラベル付けされた大規模なコーパスが必要になるので、そのようなトレーニングデータセットのないユーザーにとっては困難なタスクになります。

このアクセラレーターでは、顧客の解約データセットを充実させるセンチメント分析に、Google Cloud Natural Language API を使用する方法を実演します。 Google API からのセンチメントスコアを使用すれば、独自のセンチメントモデルをトレーニングせずに、各顧客による解約の可能性を予測するモデルパフォーマンスを向上することができます。


更新しました July 10, 2024