パイプラインでの作業
HERE platform パイプラインは、実装されているデータ処理ワークフローに基づいて、シンプルまたは複雑にできます。 パイプラインコードの基本構造は適切に確立されており、新しいビルドプロジェクトは通常、ストリーム用の Maven パイプライン テンプレートまたはバッチプロセスワークフローを使用して開始されます。 パイプラインサービスが正しいタイプのパイプラインをインスタンス化するように、さまざまなテンプレートが使用されます。
典型的な HERE Platform Pipeline の構造を図 1 に示します。
ただし、これは単純な構造ビューです。 パイプラインを実行するだけの場合は、次のセクションに進みます。
パイプラインの使用
パイプラインを使用するには、その目的で設計されたデータ処理タスクを把握している必要があります。 重要なポイントは次のとおりです。
- パイプライン JAR ファイル のファイル名(およびバージョン)
- パイプラインのタイプ。 batch またはストリームです
- 実装するデータ処理タスク
- データの処理元となる 1 つ以上のデータカタログ
- 処理済みデータの保存に使用する出力カタログ
- 使用するクラスタ設定
- 割り当てられているグループまたはプロジェクト
多くの異なるパイプライン JAR ファイルを扱う可能性があります。 そのため、それらを整理しておくことが重要です。 標準の命名およびバージョン管理システムを使用することを強くお勧めします。
JAR ファイル が(ソフトウェアの観点で)実行可能であることは事実ですが、その中に含まれているパイプラインは、 HERE Platform Pipeline にロードされ、正しいフレームワーク(バッチまたはストリーム)で実行されるように設定されるまで実行できません。 HERE platform のこのタスクは 、「展開」と呼ばれます。 1 つのパイプライン JAR ファイル で複数の実行パイプラインをサポートでき、それぞれに独自の実行時設定があります。 同時に実行できるパイプラインの数の制限は、コンピューティングリソースの可用性のみです。 展開プロセスの詳細については、パイプラインのライフサイクルの記事を参照してください。