Spark コネクタ

Spark Connector は、標準の Spark インターフェイスを実装しています。このインターフェイスを使用すると、カタログから読み取り、データセットをDataFrame[Row]として取得し、DataFrameをカタログに書き込むことができます。

その結果、選択、フィルタリング、マップ、収集などのすべての標準 Spark API および機能を使用してデータを操作できます。

Spark Connector は、バージョン管理レイヤー、揮発性レイヤー、およびインデックスレイヤーのバッチ処理をサポートしています。 この時点では、構造化ストリーミングはユースケースではサポートされていないため、ストリーミングレイヤーは Spark Connector でサポートされていません。

ストリーム指向のパイプラインは すべて Flink Connector をベースにしています。

バッチジョブでストリーミングレイヤーにデータを出力する必要がある場合 は、 WriteEngine を使用することをお勧めします。

Spark Connector は、カタログデータとメタデータへの統合アクセスを提供しており、これら 2 つの側面を別々に処理する必要がありません。 他のほとんどの Spark コネクタとは異なり、 HERE platform Spark コネクタは削除操作をサポートしており、ユーザーはサポートされているすべてのレイヤータイプからデータを削除できます。

サポートされているレイヤータイプ、データ形式、操作

レイヤータイプ Protobuf Avro 寄木細工 raw ( オクテットストリーム ) GeoJSON JSON テキスト csv
インデックス レイヤー 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除
バージョン付レイヤー 読み取り、書き込み 読み取り、書き込み 読み取り、書き込み 読み取り、書き込み 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除
ボラタイル レイヤー 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除 読み取り書き込み削除
Interactive マップ レイヤー 読み取り書き込み削除
注 1 :

書き込み操作には、作成および更新操作が含まれます。

注意 2 :

Protobuf 、 Avro 、および Parquet のデータ形式は、レイヤーの設定に応じて自動的にデコードおよびエンコードされます。 Protobuf の場合、レイヤー設定は関連付けられているスキーマを参照する必要があります。 そうでない場合は、例外がスローされます。 生データ形式の場合、ユーザーはカスタムのデコーダーおよびエンコーダーを提供する必要があります。

Configuration

Spark コネクタの設定については 、 HERE を参照してください。

」に一致する結果は 件です

    」に一致する結果はありません