パイプラインパターン
HERE platform パイプラインは、特定の使用パターンに対応するように設計されています。 使用可能なパターンを以下に示します。最も単純なパターンから始まり、より複雑な使用例に進みます。 追加情報は開発者ガイド全体に提供されます。
一般パターン
これは、パイプラインを使用するための一般的なパターンです。
注 : データソースとシンク
特定のカタログレイヤーはソースまたはシンクとして機能できますが、両方を同時に使用することはできません。 使用できるカタログレイヤーのタイプは、使用するパイプラインのタイプによって異なります。 たとえば、ストリーム配信されたレイヤーはバッチ パイプラインでは使用できません。
複数の入力
複数の入力を持つことはできますが、パイプラインからの出力は 1 つだけです。
ストリーム処理パターン
パイプラインを使用すると、 Apache Flink を使用して継続的なデータストリームを処理できます。 [ ストリームツーストリーム ]
- データカタログは 設定ファイルで定義されます。
- 使用されているレイヤーがコードで定義されています。
注
データソースとデータシンクに別々のレイヤーが使用されている限り、ストリームパイプラインの入力と出力に同じデータカタログを使用できます。
バッチ処理パターン
これは、 Apache Spark を使用した一般的なバッチ処理パターンです。 [ バージョン管理されたバージョンからバージョン管理されたバージョン ]
揮発性パターン
これは、揮発性レイヤーを使用する一般的なパターンです。
インデックスパターン
これらは、インデックスレイヤーを使用する一般的なパターンです。
注 : インデックス レイヤーの使用制限
パイプライン | ソース | 流し |
---|---|---|
バッチ | はい | はい |
ストリーム | いいえ | はい |
拡張パターン
拡張パターンでは、カタログのボラタイル レイヤーが参照データとして使用されます。
この場合、出力カタログはストリーム レイヤーを使用します。
情報
ストリーム レイヤー HERE では通常、ウィンドウ機能が使用されます。
ただし、この場合、出力カタログは「データスナップショット」にのみ関心があるため、ボラタイル レイヤーが使用されます。
または、出力カタログのバージョン付レイヤーを使用して、時間帯を越えてデータを集約することもできます。 このアプローチは、データのアーカイブ、処理の改善の有無にかかわらず有効です。 また、ノートブックでの履歴分析にも役立ちます。
または、出力カタログのインデックス レイヤーを使用して、イベント時間ごとに履歴データを整理できます。
別のパターンでは、バージョン管理されたデータセットの入力データとインデックス レイヤーのデータが結合されます。
パイプライン の実装例について は、 GitHub を参照してください。
パイプラインの設定と実行についての詳細な手順について は、開発者チュートリアルを参照してください。