パイプラインコンポーネント

多くの要素がパイプラインの作成に使用されます。 次の一覧に、最も重要なコンポーネントを示します。

  • パイプライン –ユーザーの作業をグループ化する HERE platform の最上位のエンティティです。 ユーザーが独自の専用 パイプラインを開発します。 パイプラインごと に、 HERE platform システムで複数のバージョンを保存および管理できます ( 以下の「パイプラインバージョン」を参照 ) 。 パイプラインの開発は反復的なプロセスです。このプロセスでは、さまざまな入力および出力カタログまたは設定を使用して各パイプラインをテストするために、パイプラインコードの新しいバージョンをアップロードします。 テスト後、ライブデータを使用してパイプラインを本番環境に配置できます。
  • パッケージ – HERE Platform Pipeline にアップロードされた JAR ファイル を表す不変のエンティティです。 コンパイル済みのパイプラインコードとライブラリが含まれています。 ライブラリは JAR ファイル に直接埋め込まれているため、実際は Fat JAR ファイル ですが、ファイルサイズは 500MB を超えることはできません。 実際のバイナリアーティファクトの横に、ファイル名のようなメタデータが含まれています。 JAR ファイル のファイル名には 200 文字の制限があります。 JAR ファイル のファイル名を選択する場合のベストプラクティスは、意味的に意味のある名前を使用し、誤った JAR ファイル の使用を防ぐために、一意のバージョン管理システムを含めることです。 JAR ファイル はパイプライン テンプレート内で識別され、パイプラインにアップロードされます。 には一意のパッケージ ID ( UUID )が割り当てられます。
  • パイプライン テンプレート – 実行可能ファイルのパイプラインバージョンおよびパイプラインのランタイムプロパティの不変の定義です。 データへのアクセス、処理、およびデータの保存に必要なすべての設定情報が保持されます。 また、実行可能なパイプラインバージョンを作成するには、この要件があります ( 以下を参照 ) 。 PipelineTemplate は、パイプラインの実際のランタイム実装、および使用する入力および出力カタログを定義します。 1 つのパイプラインテンプレート を複数のパイプラインバージョンで同時に使用できますが、使用されている入力および出力カタログは一部のジョブで上書きできます。 各テンプレートには、作成時にパイプラインによって一意のテンプレート ID ( UUID )が割り当てられます。
  • パイプラインバージョン – パイプライン内の HERE Platform Pipeline の実行可能形式である不変のエンティティです。 各パイプラインバージョンは、特定のパイプライン JAR ファイル およびパイプライン テンプレートから作成されます。 各パイプラインバージョンには、作成時にパイプラインによって独自のパイプラインバージョン ID ( UUID )が割り当てられます。 1 つのパイプライン JAR ファイル に基づいて、複数の PipelineVersions を定義できます。 ただし、同じパイプラインバージョン(およびパイプラインバージョン ID )の 2 つのインスタンスを同時に実行することはできません。
  • 操作 –これらは、パイプラインバージョンに送信できる特殊な操作コマンドです。 パイプラインバージョンでは、無効であるか、別の操作がすでに保留中である可能性があるため、これらの操作を受け入れることも、受け入れないこともできます。 操作 には、 操作がまだ進行中か、または結果とともに完了しているかを確認するためにチェックできる状態があります。
  • ジョブ –ジョブは 変更不可 のエンティティで、そのジョブのみで実行中のパイプラインバージョンによってクラスタに送信された 1 回限りの設定パラメータおよび入力カタログを表します。 処理する入力カタログの正確なバージョンを指定すると、その情報がパイプライン テンプレートで指定されている類似の情報よりも優先されます。 実行中または履歴のジョブのリストを取得できます。 ジョブの 状態 は、ジョブの実行および終了に伴って時間の経過とともに変化することがあります。
  • ストリームジョブ - ストリーム処理では、ジョブは単独で終了することはありませんが、この場合、プラットフォームは自動的に新しいジョブで処理を再開することがあります。 通常、これらのジョブには、処理する入力データの継続的なストリームがあります。
  • バッチジョブ - バッチ処理の場合、ジョブは、利用可能な入力データの処理に成功するか、または失敗することで終了します。 これらのジョブは通常、 1 つ以上の有限のデータコレクションで実行されます。
  • ランタイム設定 –パイプラインのデフォルトのランタイム環境を設定するために実行時に指定できるパラメータのセット。 PipelineTemplate では、デフォルトの設定パラメータを指定します。 ただし、これらのパラメータの一部は、特定のジョブの設定で再指定され、テンプレートのデフォルトのパラメータが上書きされることがあります。 パイプラインバージョンでは、ランタイム設定によって、そのパイプラインバージョンによって処理のために送信されたジョブに渡される実際の設定が指定されます。 カスタム設定パラメータは 、パイプライン application.propertiesクラスパスに配置されます。このクラスパスは、パイプラインコード内から参照できます。 詳細について は、『 Configuration File Reference 』を参照してください。
  • スケジューラの設定SchedulerConfig 各パイプラインバージョンで使用されるプロパティです。 スケジューラは、ジョブが作成され、 Flink または Spark クラスタに送信されて処理されるタイミングを制御します。 スケジューラは、前のジョブが予期したとおりに完了した場合、または予期したとおりに完了しなかった場合に、新しいジョブを開始できます。 スケジューラは、アップストリームカタログからの変更をポーリングするか、または待機します。 タイマーやその他の外部トリガーが原因で動作することもあります。 ジョブを開始するタイミング、終了したジョブを再開するかどうか、アップストリームカタログのポーリング間隔などのプロパティが含まれます。 詳細について は、『 Configuration File Reference 』を参照してください。
  • JAR ファイル「パッケージ」を参照してください。
  • クラスタ設定(または clusterconfig ) –パイプライン テンプレートおよびパイプラインバージョンで使用されるプロパティです。 パイプライン テンプレートでは、そのパイプライン テンプレートに基づいてパイプラインバージョンを実行するために必要なクラスタの推奨最小サイズを表します。 特定のパイプラインバージョンの実行専用のクラスタの実際のサイズおよび設定を表します。 この設定では、固定数の CPU およびメモリの処理単位で、クラスタのサイズなどのプロパティを指定します。 次の表に、クラスタ設定パラメータを示します。 詳細について は、「クォータと制限」の記事および「設定ファイルリファレンス」を参照してください。
設定パラメータ 意味
supervisorUnits スーパーバイザあたりのリソースユニット数( Flink ジョブマネージャまたは Spark ドライバ)
workerUnits ワーカーあたりのリソースユニット数( Flink TaskManager または Spark Executor )
workers 作業者数( Flink タスクマネージャまたは Spark 実行者の数)
  • 入力および出力カタログ –入力カタログはパイプラインのデータソースです。 出力カタログは、パイプラインからのデータの宛先です。 パイプラインには複数の入力カタログを含めることができますが、出力カタログは 1 つだけです。

    ストリーム パイプラインの場合、使用されているカタログレイヤーのタイプ(バージョン管理、揮発性、またはストリーミング)に応じて、カタログのバージョンを指定する必要があります。

    バッチ パイプラインの場合、パイプラインをただちに実行するか、入力カタログデータの更新時に実行するようにスケジュールを設定できます。 パイプラインをただちに実行するには、カタログのバージョンを指定する必要があります。 パイプラインモードをスケジュールする場合、カタログのバージョンを指定する必要はありません。 代わりに、パイプラインスケジューラは、 5 分ごとに入力および出力カタログを確認して変更内容を取得し、処理するすべてのカタログの整合性のあるバージョンを確認します。

    たとえば、パイプラインに 2 つの入力カタログがあり、 1 つはアップストリームカタログバージョン 5 からの変更を持ち、もう 1 つの入力カタログにも同じアップストリームカタログが含まれているが、まだバージョン 5 を処理していないとします。 この場合、 2 つの入力カタログのバージョンがアップストリームカタログのバージョンと整合していないため、パイプラインを実行できません。

  • pipeline-config.conf –このファイルには、入力カタログ、出力カタログ、および請求タグを記述するパラメータが一覧表示されます。 パイプラインはこの情報を使用して、カタログが変更されたかどうかを判断し、変更を処理するためにスケジュールされたバッチ パイプラインを実行する必要があります。 詳細について は、『 Configuration File Reference 』を参照してください。

  • pipeline-job.conf –この設定ファイルには、入力カタログのバージョンと処理タイプを記述するパラメータが一覧表示されます。 オンデマンドモードを使用して実行されるバッチパイプラインの場合、ユーザーはデフォルト値を選択するか、特定の情報を入力できます。 詳細について は、『 Configuration File Reference 』を参照してください。

も参照してください

」に一致する結果は 件です

    」に一致する結果はありません