パイプラインとデータ プロセッシング ライブラリ

Pipeline は、データ処理アルゴリズムおよびカスタムロジックを HERE platform で定義、実装、および展開するための主要な抽象化です。

PipelineTemplate 、の再利用可能な定義です。 Pipelineこの定義には、次のような実装と、実行可能にするために必要なすべての情報が含まれています。

  • メインクラスの名前であるエントリポイント
  • 実装を接続する必要がある入力および出力カタログの定義およびスキーマ
  • 必要なランタイムのタイプ
  • デフォルトの設定およびパラメータ

Pipeline 、指定されたのパイプライン API によってインスタンス化 PipelineTemplateされます。

パイプラインは、 HERE Workspace によって動的に提供されるランタイム環境に展開され、入力および出力カタログに接続されます。 パイプラインは自動的にパイプライン API を資格情報から受信し、 Data API 、設定、予期されている各入出力カタログの HRNS 、ジョブの説明など、他のプラットフォームサービスへの認証を行います ( 該当する場合 ) 。

パイプライン API は、 Apache Flink および Apache Spark をベースとするランタイム環境をサポートしています。

概要
概要

パイプラインの実装では、 1 つの出力カタログと 1 つ以上の入力カタログのみが存在することを前提としています。 各入力カタログは、コードで複数の入力を区別するために使用される、シンボリックな実装固有の ID でマークされます。 また、コードには特定のレイヤーの読み取りおよび書き込みロジックが含まれているため、この実装では、各カタログのレイヤーのリストおよびタイプも暗黙的に想定されます。

レイヤーには、次のような種類があります。

  • versioned レイヤーにはパーティション分割されたデータが含まれています。 Data API は、各パーティションの経時的な変化を追跡します。 バージョニングレイヤーの一般的なユースケースは、データセットのスナップショット(通常はマップ データ)を保存することです。このデータセットは、時々更新されます。
  • stream レイヤーにはライブデータストリームが含まれ、 Data API はストリームをメッセージキューとして公開します。 ストリームレイヤーの一般的なユースケースは、車両、 IoT デバイス、その他のウェブイベントやサービスからのイベントやセンサーの読み取り値をレポートすることです。
  • volatile レイヤーにはバージョン管理されたレイヤーと同様のデータが含まれていますが、各パーティションの内容は追加のバージョンを作成せずに変更されることがあります。 揮発性レイヤーの一般的なユースケースは、時間の経過とともに急速に変化するデータを効率的な方法で迅速に生成することです。 たとえば、交通データなどです。

ローカルで実行するか、プラットフォームパイプラインに展開すると、各入力および出力カタログの HRNS が提供され、プロセスが実際のデータインスタンスにバインドされます。 これにより、実装が再利用可能になり、パイプライン テンプレートも再利用可能になります。

パイプライン、 HERE platform でのパイプラインの展開方法、さまざまな種類のパイプラインおよびランタイム環境、パイプラインがどのように結合されてトポロジを形成するかについての詳細 は、『開発者ガイド of the パイプライン API 』を参照してください。

データ プロセッシング ライブラリ に は、パイプラインを実装するための抽象化とライブラリが用意されています。

」に一致する結果は 件です

    」に一致する結果はありません