データ プロセッシング ライブラリを使用する理由

データ プロセッシング ライブラリは、 HERE Workspace のバッチ処理パイプラインを作成する開発者をサポートしています。 処理ライブラリは、 Spark を介してパイプライン API と Data API の両方と簡単にやり取りできる手段を提供します。これにより、開発者は代わりに Java または Scala のビジネスロジックに集中できます。

処理ライブラリの一般的なユースケースは、ルーティングの宛先、デジタルマップオブジェクトのレンダリング、名前または住所での場所の検索などのタスクを実行するサービスにフィードできるアーティファクトを作成することです。

バッチパイプラインの場合、データ プロセッシング ライブラリ:

  • 複数の入力カタログから複数の入力バージョン管理レイヤーを読み取り、その結果を 1 つの出力カタログ内の複数の出力バージョン管理レイヤーに書き込むことで、バージョン管理されたデータを処理します。
  • データ クライアント ライブラリの機能 Spark を強化することで、パーティション分割されたカタログレイヤーの分散処理をサポートします。 処理中のライブラリは、マスター上のカタログのメタデータを簡単に取得し、 RDD を介してペイロード( blob )データの読み取りおよび書き込みのタスクをノードに配布します。 次に、処理ライブラリがデータの公開を管理し、 Data API へのコミットをトランザクションで実行します。
  • 大量のパーティション分割されたデータセットを定期的に増分的に処理する手段を提供します。 マップのコンテキストでは、これはマップのコンパイルと呼ばれ、低処理コストおよび低時間でマップを最新の状態に保つために使用できます。 ただし、この機能は任意のパーティション分割されたデータセットにも適用できます。 1 つのバッチ処理ステップから次のバッチ処理ステップにわずかな量のパーティションしか変更されない大規模なデータセットには特に有用です。 データ プロセッシング ライブラリは自動的にこのパーティションを識別し、変更されたパーティションでのみ動作します。 ビジネスロジックに集中できるように、共通の高レベルの処理パターンのセットから選択できます。

前述のすべてのコンポーネントは、個別に使用できます。

」に一致する結果は 件です

    」に一致する結果はありません