トラブルシューティング

Spark ウェブ UI

Spark Web UI では、ジョブ、ステージ、実行のグラフ、および実行者からのログを含む Spark 処理についてのインサイトが提供されます。 データ プロセッシング ライブラリコンポーネントは、 AccumulatorV2読み取るメタデータパーティションの数、ダウンロードまたはアップロードされたデータのバイト数など、さまざまな統計情報(「 Spark 」を参照)も公開します。 このデータは、操作が実行された段階で参照できます。

ローカルで実行されたコンパイラーの場合、ドライバーはドライバープロセスの一部として UI Web サーバーを起動します。 ドライバーの実行中に、開発者は http://127.0.0.1:4040/jobs から Web サーバーにアクセスできます。 PipelineRunnerには、開発者が Enter キーを押してから最終コミット後に終了するまで待機する便利な--no-quitオプションがあります。

タスクがシリアル化できません例外が発生しました

「タスクがシリアル化できません」は、特に複雑なクラス階層を使用する場合に、 Spark 開発で最も一般的な例外です。 Spark のラムダ内で関数が実行されると、その関数が参照するすべての変数 ( 終了 ) が作業者にシリアル化されます。 ほとんどの場合、最も簡単な修正は、クラスまたはインラインではなくオブジェクトで関数を宣言し、必要なすべての状態情報をパラメーターとして関数に渡すことです。

ラムダがキャッシュなどのシリアル化できない状態を必要とする場合、共通のパターンはオブジェクト内の遅延値であり、この値は、最初にアクセスしたときにすべてのワーカーで初期化されます。 参照 @transient によってシリアル化されないように、 val もマークする必要があります。

」に一致する結果は 件です

    」に一致する結果はありません