よく寄せられる質問
Data SDK for Python のチュートリアル用ノートブックはありますか ?
はい。 SDK をインストールした後、で入門チュートリアルノートブックを見つけることができます
Linux/MacOS の場合 :$HOME/olp-sdk-for-python-1.12/tutorial-notebooks/GettingStarted.ipynb
Windows の場合 :%USERPROFILE%\olp-sdk-for-python-1.12\tutorial-notebooks\GettingStarted.ipynb
ネイティブの依存関係はどこで指定しますか ?
以下のファイルで Maven の依存関係を指定してください
Linux/MacOS の場合 : $HOME/.sparkmagic/config.json
Windows の場合 : %USERPROFILE%\.sparkmagic\config.json
依存関係
JSON フィールドに依存関係を入力 session_configs -> conf -> spark.jars.packages
"group:artifact:[classifier:]version"
"org.apache.spark:spark-core_2.12:2.4.1,org.apache.spark:spark-sql_2.12:jar:2.4.1"
します。この場合、次のように形式を使用し、コンマで区切ります。
除外
除外する場合は、 JSON フィールドを使用 session_configs -> conf -> spark.jars.excludes
"group:artifact"
"org.apache.spark:spark-*,com.fasterxml.jackson.core:jackson-databind"
します。このフィールドの形式は、コンマで区切ります。例 :
ノートブックの実行を Spark ローカルと EMR Spark クラスタの間で切り替えることはできますか?
またはで EMR チュートリアルノートブックに使用されているのと同じアプローチに従います $HOME/olp-sdk-for-python-1.12/tutorial-notebooks/emr/emr_ProcessDataRemotely_pySpark.ipynb
$HOME/olp-sdk-for-python-1.12/tutorial-notebooks/emr/emr_ProcessDataRemotely_scala.ipynb
Python 3
ノートブックで %%spark config
、マジックの下の構成を設定 ivy.settings.xml
して、がファイルの場所を示します。
-
EMR Spark の場合、プロパティは次のようになります。 "spark.jars.ivySettings": "/var/lib/spark/.here/ivy.settings.xml",
-
ローカル Spark の場合。例 : "spark.jars.ivySettings": "/home/cesar/.here/ivy.settings.xml",
/home/cesar/
ivy.settings.xml
のホームディレクトリにあるように、をホームディレクトリに置き換え /.here/ivy.settings.xml
ます。 明示的なファイルパスを指定 してください。このパスには、ホームディレクトリ$HOME
~
を含めることも、指定することもできません。
%spark add -s scala-spark -l scala -u <PUT YOUR LIVY ENDPOINT HERE> -k
このマジックを使用して、 Livy サーバーの場所を指定します。
- ローカルで実行されている Livy の場合 :
%spark add -s pyspark -l python -u http://localhost:8998 -k
- EMR で実行されている Livy の場合、例 : 次のようになります。
%spark add -s pyspark -l python -u http://ec2-3-16-25-189.us-east-2.compute.amazonaws.com:8998 -k
ノートブックでカーネルを再起動します。変更すると、新しい Livy セッションが強制的に開始されます。