diff --git a/README.md b/README.md index cf151ef..b600e03 100644 --- a/README.md +++ b/README.md @@ -145,7 +145,7 @@ SparkSession spark = SparkSession 3.使用`mvn clean package`打包好的作业,并提交到本地安装好的spark环境上跑 ``` -~/opt/spark-2.4.0-bin-hadoop2.7 » bin/spark-submit --class "com.wugui.sparkstarter.SimpleApp" /Users/huzekang/study/spark-starter/target/spark-starter-1.0-SNAPSHOT.jar +~/opt/spark-2.4.0-bin-hadoop2.7 » bin/spark-submit --class "com.wugui.sparkstarter.SparkHiveNewVersion" /Users/huzekang/study/spark-starter/target/spark-starter-1.0-SNAPSHOT.jar ``` 4.打开spark server界面,可以看到已经完成的spark作业。 diff --git a/src/main/java/com/wugui/sparkstarter/SparkHiveNewVersion.java b/src/main/java/com/wugui/sparkstarter/SparkHiveNewVersion.java index 8c6b36c..e4e1a5a 100644 --- a/src/main/java/com/wugui/sparkstarter/SparkHiveNewVersion.java +++ b/src/main/java/com/wugui/sparkstarter/SparkHiveNewVersion.java @@ -15,14 +15,19 @@ public static void main(String[] args) { // 定义上下文 SparkSession spark = SparkSession .builder() - // 如果需要作业要以jar包形式提交到remote spark,则使用spark://host:port + // 如果需要作业要以jar包形式提交到remote spark,则使用spark://host:port // .master("spark://10.0.0.50:7077") - // 如果idea中测试则使用local。 - // 如果作业要以jar包形式提交到yarn则不设置master。 + + // 如果idea中测试则使用local。 + // 如果作业要以jar包形式提交到yarn则不设置master。 .master("local") + .appName("Java Spark SQL Starter !!") .enableHiveSupport() - .config("spark.some.config.option", "some-value") + // 改变spark sql写出时使用的压缩编码。 + // 默认是snappy,可能会在用hive客户端查询时出现错误: + // Caused by: org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] null + .config("spark.sql.parquet.compression.codec", "gzip") .getOrCreate(); spark.sql("USE default");