Spark コネクタ

Spark Connector は、標準の Spark インターフェイスを実装しています。このインターフェイスを使用すると、カタログから読み取り、データセットをDataFrame[Row]として取得し、DataFrameをカタログに書き込むことができます。

その結果、選択、フィルタリング、マップ、収集などのすべての標準 Spark API および機能を使用してデータを操作できます。

Spark Connector は、バージョン管理レイヤー、揮発性レイヤー、およびインデックスレイヤーのバッチ処理をサポートしています。この時点では、構造化ストリーミングはユースケースではサポートされていないため、ストリーミングレイヤーは Spark Connector でサポートされていません。

ストリーム指向のパイプラインはすべて Flink Connector をベースにしています。

バッチジョブでストリーミングレイヤーにデータを出力する必要がある場合は、 WriteEngine を使用することをお勧めします。

Spark Connector は、カタログデータとメタデータへの統合アクセスを提供しており、これら 2 つの側面を別々に処理する必要がありません。他のほとんどの Spark コネクタとは異なり、 HERE platform Spark コネクタは削除操作をサポートしており、ユーザーはサポートされているすべてのレイヤータイプからデータを削除できます。

サポートされているレイヤータイプ、データ形式、操作

レイヤータイプ	Protobuf	Avro	寄木細工	raw ( オクテットストリーム )	GeoJSON	JSON	テキスト	csv
インデックスレイヤー	読み取り、書き込み、削除	読み取り、書き込み、削除	読み取り、書き込み、削除	読み取り、書き込み、削除		読み取り、書き込み、削除	読み取り、書き込み、削除	読み取り、書き込み、削除
バージョン付レイヤー	読み取り、書き込み	読み取り、書き込み	読み取り、書き込み	読み取り、書き込み		読み取り、書き込み、削除	読み取り、書き込み、削除	読み取り、書き込み、削除
ボラタイルレイヤー	読み取り、書き込み、削除	読み取り、書き込み、削除	読み取り、書き込み、削除	読み取り、書き込み、削除		読み取り、書き込み、削除	読み取り、書き込み、削除	読み取り、書き込み、削除
Interactive マップレイヤー					読み取り、書き込み、削除

注 1 ：

書き込み操作には、作成および更新操作が含まれます。

注意 2 ：

Protobuf 、 Avro 、および Parquet のデータ形式は、レイヤーの設定に応じて自動的にデコードおよびエンコードされます。 Protobuf の場合、レイヤー設定は関連付けられているスキーマを参照する必要があります。そうでない場合は、例外がスローされます。生データ形式の場合、ユーザーはカスタムのデコーダーおよびエンコーダーを提供する必要があります。

Configuration

Spark コネクタの設定については、 HERE を参照してください。

Spark コネクタ

Spark コネクタ

サポートされているレイヤータイプ、データ形式、操作

注 1 ：

注意 2 ：

Configuration

「」に一致する結果は件です

「」に一致する結果はありません

開発者

Spark コネクタ

サポートされているレイヤータイプ、データ形式、操作

注 1 ：

注意 2 ：

Configuration

「」に一致する結果は 件です

「」に一致する結果はありません

開発者

「」に一致する結果は件です