4paradigm
diff --git a/‎java/openmldb-batch/scala_style.xml
+9-3 b/‎java/openmldb-batch/scala_style.xml
+9-3
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/OpenmldbBatchMain.scala
+3-1 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/OpenmldbBatchMain.scala
+3-1
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/PlanContext.scala
+1-2 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/PlanContext.scala
+1-2
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/SparkPlanner.scala
+8-4 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/SparkPlanner.scala
+8-4
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/SparkRowCodec.scala
+4-4 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/SparkRowCodec.scala
+4-4
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/ConstProjectPlan.scala
+4-3 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/ConstProjectPlan.scala
+4-3
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/GroupByAggregationPlan.scala
+5-2 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/GroupByAggregationPlan.scala
+5-2
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/RowProjectPlan.scala
+12-3 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/RowProjectPlan.scala
+12-3
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/SimpleProjectPlan.scala
+1-1 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/SimpleProjectPlan.scala
+1-1
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/WindowAggPlan.scala
+19-12 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/nodes/WindowAggPlan.scala
+19-12
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/udf/PercentileApprox.scala
+7-6 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/udf/PercentileApprox.scala
+7-6
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/utils/ConfigImplicits.scala
+1-3 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/utils/ConfigImplicits.scala
+1-3
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/utils/ConfigReflections.scala
+1-1 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/utils/ConfigReflections.scala
+1-1
diff --git a/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/utils/GraphvizUtil.scala
+2-2 b/‎java/openmldb-batch/src/main/scala/com/_4paradigm/openmldb/batch/utils/GraphvizUtil.scala
+2-2
@@ -60,7 +60,9 @@
             <parameter name="maxParameters"><![CDATA[8]]></parameter>
         </parameters>
     </check>
-    <check level="warning" class="org.scalastyle.scalariform.MagicNumberChecker" enabled="true">
+    <!-- Update by 4paradigm -->
+    <!-- init:<check level="warning" class="org.scalastyle.scalariform.MagicNumberChecker" enabled="true"> -->
+    <check level="warning" class="org.scalastyle.scalariform.MagicNumberChecker" enabled="false">
         <parameters>
             <parameter name="ignore"><![CDATA[-1,0,1,2,3]]></parameter>
         </parameters>
@@ -73,7 +75,7 @@
     <check level="warning" class="org.scalastyle.scalariform.NoFinalizeChecker" enabled="true"/>
     <check level="warning" class="org.scalastyle.scalariform.CovariantEqualsChecker" enabled="true"/>
     <check level="warning" class="org.scalastyle.scalariform.StructuralTypeChecker" enabled="true"/>
-    <check level="warning" class="org.scalastyle.file.RegexChecker" enabled="true">
+    <check level="warning" class="org.scalastyle.file.RegexChecker" enabled="false">
         <parameters>
             <parameter name="regex"><![CDATA[println]]></parameter>
         </parameters>
@@ -118,6 +120,8 @@
     <check level="warning" class="org.scalastyle.scalariform.VarFieldChecker" enabled="false"/>
     <check level="warning" class="org.scalastyle.scalariform.VarLocalChecker" enabled="false"/>
     <check level="warning" class="org.scalastyle.scalariform.RedundantIfChecker" enabled="false"/>
+    <!-- Update by 4paradigm -->
+    <!-- init:<check level="warning" class="org.scalastyle.scalariform.TokenChecker" enabled="true"> -->
     <check level="warning" class="org.scalastyle.scalariform.TokenChecker" enabled="false">
         <parameters>
             <parameter name="regex"><![CDATA[println]]></parameter>
@@ -134,7 +138,9 @@
     <check level="warning" class="org.scalastyle.scalariform.LowercasePatternMatchChecker" enabled="true"/>
     <check level="warning" class="org.scalastyle.scalariform.MultipleStringLiteralsChecker" enabled="true">
         <parameters>
-            <parameter name="allowed"><![CDATA[2]]></parameter>
+            <!-- Update by 4paradigm -->
+            <!-- init:<parameter name="allowed"><![CDATA[2]]></parameter> -->
+            <parameter name="allowed"><![CDATA[10]]></parameter>
             <parameter name="ignoreRegex"><![CDATA[^""$]]></parameter>
         </parameters>
     </check>
 
@@ -21,6 +21,9 @@ import com._4paradigm.openmldb.batch.utils.{DDLEngine, HDFSUtil, HybridseUtil, S
 import org.apache.spark.sql.SparkSession
 import org.slf4j.LoggerFactory
 
+import scala.collection.JavaConverters.{asScalaBufferConverter, mapAsScalaMapConverter}
+
+
 
 object OpenmldbBatchMain {
 
@@ -38,7 +41,6 @@ object OpenmldbBatchMain {
       sessionBuilder.appName(appName)
     }
 
-    import scala.collection.JavaConverters._
     for (e <- config.getSparkConfig.asScala) {
       val arg: Array[String]  = e.split("=")
       val k = arg(0)
 
@@ -17,9 +17,8 @@
 package com._4paradigm.openmldb.batch
 
 import java.nio.ByteBuffer
-
 import com._4paradigm.hybridse.sdk.SerializableByteBuffer
-import com._4paradigm.hybridse.vm._
+import com._4paradigm.hybridse.vm.PhysicalOpNode
 import com._4paradigm.openmldb.batch.utils.NodeIndexInfo
 import org.apache.spark.sql.catalyst.QueryPlanningTracker
 import org.apache.spark.sql.catalyst.plans.logical.LogicalPlan
 
@@ -17,11 +17,15 @@
 package com._4paradigm.openmldb.batch
 
 import com._4paradigm.hybridse.HybridSeLibrary
-import com._4paradigm.hybridse.`type`.TypeOuterClass._
+import com._4paradigm.hybridse.`type`.TypeOuterClass.Database
+import com._4paradigm.hybridse.vm.{CoreAPI, Engine, PhysicalConstProjectNode, PhysicalDataProviderNode,
+  PhysicalGroupAggrerationNode, PhysicalGroupNode, PhysicalJoinNode, PhysicalLimitNode, PhysicalOpNode,
+  PhysicalOpType, PhysicalProjectNode, PhysicalRenameNode, PhysicalSimpleProjectNode, PhysicalTableProjectNode,
+  PhysicalWindowAggrerationNode, ProjectType}
 import com._4paradigm.hybridse.sdk.{SqlEngine, UnsupportedHybridSeException}
 import com._4paradigm.hybridse.node.JoinType
-import com._4paradigm.hybridse.vm._
-import com._4paradigm.openmldb.batch.nodes.{ConstProjectPlan, DataProviderPlan, GroupByAggregationPlan, GroupByPlan, JoinPlan, LimitPlan, RenamePlan, RowProjectPlan, SimpleProjectPlan, WindowAggPlan}
+import com._4paradigm.openmldb.batch.nodes.{ConstProjectPlan, DataProviderPlan, GroupByAggregationPlan, GroupByPlan,
+  JoinPlan, LimitPlan, RenamePlan, RowProjectPlan, SimpleProjectPlan, WindowAggPlan}
 import com._4paradigm.openmldb.batch.utils.{GraphvizUtil, HybridseUtil, NodeIndexInfo, NodeIndexType}
 import org.apache.hadoop.fs.{FileSystem, Path}
 import org.apache.spark.sql.{DataFrame, SparkSession}
@@ -74,7 +78,7 @@ class SparkPlanner(session: SparkSession, config: OpenmldbBatchConfig) {
 
       logger.info("Visit concat join node to add node index info")
       val processedConcatJoinNodeIds = mutable.HashSet[Long]()
-      val indexColumnName = "__CONCATJOIN_INDEX__"+ System.currentTimeMillis()
+      val indexColumnName = "__CONCATJOIN_INDEX__" + System.currentTimeMillis()
       concatJoinNodes.map(joinNode => bindNodeIndexInfo(joinNode, planCtx, processedConcatJoinNodeIds, indexColumnName))
 
       if (config.slowRunCacheDir != null) {
 
@@ -17,13 +17,13 @@
 package com._4paradigm.openmldb.batch
 
 import java.sql.{Date, Timestamp}
-
 import com._4paradigm.hybridse.codec.{RowBuilder, RowView, Row => NativeRow}
 import com._4paradigm.hybridse.sdk.HybridSeException
 import com._4paradigm.hybridse.vm.CoreAPI
 import com._4paradigm.openmldb.batch.utils.HybridseUtil
 import org.apache.spark.sql.Row
-import org.apache.spark.sql.types._
+import org.apache.spark.sql.types.{BooleanType, DateType, DoubleType, FloatType,
+  IntegerType, LongType, ShortType, StringType, StructType, TimestampType}
 import org.slf4j.LoggerFactory
 
 import scala.collection.mutable
@@ -49,7 +49,6 @@ class SparkRowCodec(sliceSchemas: Array[StructType]) {
 
   def encode(row: Row): NativeRow = {
     var result: NativeRow = null
-    
     // collect slice size and string raw bytes
     val sliceSizes = Array.fill(sliceNum)(0)
     val sliceStrings = Array.fill(sliceNum)(mutable.ArrayBuffer[Array[Byte]]())
@@ -194,7 +193,8 @@ class SparkRowCodec(sliceSchemas: Array[StructType]) {
       fieldOffset += 1
     }
   }
-  
+
+
   private def inferStringFields(): Array[Array[Int]] = {
     var fieldOffset = 0
     sliceSchemas.map(schema => {
 
@@ -22,10 +22,11 @@ import com._4paradigm.hybridse.vm.PhysicalConstProjectNode
 import com._4paradigm.openmldb.batch.{PlanContext, SparkInstance}
 import com._4paradigm.openmldb.batch.utils.HybridseUtil
 import org.apache.spark.sql.Column
-import org.apache.spark.sql.functions._
-import org.apache.spark.sql.types._
+import org.apache.spark.sql.functions.{lit, to_date, to_timestamp, typedLit, when}
+import org.apache.spark.sql.types.{BooleanType, DateType, DoubleType, FloatType,
+  IntegerType, LongType, ShortType, StringType, TimestampType}
 
-import scala.collection.JavaConverters._
+import scala.collection.JavaConverters.asScalaBufferConverter
 
 
 object ConstProjectPlan {
 
@@ -106,8 +106,11 @@ object GroupByAggregationPlan {
         val inputHybridseSchema = HybridseUtil.getHybridseSchema(projectConfig.inputSchema)
 
         val outputFields =
-          if (projectConfig.keepIndexColumn) projectConfig.outputSchemaSlices.map(_.size).sum + 1
-          else projectConfig.outputSchemaSlices.map(_.size).sum
+          if (projectConfig.keepIndexColumn) {
+            projectConfig.outputSchemaSlices.map(_.size).sum + 1
+          } else {
+            projectConfig.outputSchemaSlices.map(_.size).sum
+          }
 
         // Init first groupby interface
         var groupbyInterface = new GroupbyInterface(inputHybridseSchema)
 
@@ -60,7 +60,12 @@ object RowProjectPlan {
     }
 
     // Get Spark DataFrame and limit the number of rows
-    val inputDf = if (node.GetLimitCnt > 0) inputTable.getDfConsideringIndex(ctx, node.GetNodeId()).limit(node.GetLimitCnt()) else inputTable.getDfConsideringIndex(ctx, node.GetNodeId())
+    val inputDf = if (node.GetLimitCnt > 0) {
+      inputTable.getDfConsideringIndex(ctx, node.GetNodeId())
+        .limit(node.GetLimitCnt())
+    } else {
+      inputTable.getDfConsideringIndex(ctx, node.GetNodeId())
+    }
 
     val hybridseJsdkLibraryPath = ctx.getConf.hybridseJsdkLibraryPath
 
@@ -99,7 +104,7 @@ object RowProjectPlan {
 
       })
 
-      SparkUtil.RddInternalRowToDf(ctx.getSparkSession, outputInternalRowRdd, outputSchema)
+      SparkUtil.rddInternalRowToDf(ctx.getSparkSession, outputInternalRowRdd, outputSchema)
 
     } else { // enableUnsafeRowOptimization is false
       val ouputRdd = inputDf.rdd.mapPartitions(partitionIter => {
@@ -118,7 +123,11 @@ object RowProjectPlan {
         val fn = jit.FindFunction(projectConfig.functionName)
         val encoder = new SparkRowCodec(projectConfig.inputSchemaSlices)
         val decoder = new SparkRowCodec(projectConfig.outputSchemaSlices)
-        val outputFields = if (projectConfig.keepIndexColumn) projectConfig.outputSchemaSlices.map(_.size).sum + 1 else projectConfig.outputSchemaSlices.map(_.size).sum
+        val outputFields = if (projectConfig.keepIndexColumn) {
+          projectConfig.outputSchemaSlices.map(_.size).sum + 1
+        } else {
+          projectConfig.outputSchemaSlices.map(_.size).sum
+        }
         val outputArr = Array.fill[Any](outputFields)(null)
 
         val resultIter = partitionIter.map(row => {
 
@@ -24,7 +24,7 @@ import com._4paradigm.openmldb.batch.{PlanContext, SparkInstance}
 import org.apache.spark.sql.{Column, DataFrame}
 import org.slf4j.LoggerFactory
 
-import scala.collection.JavaConverters._
+import scala.collection.JavaConverters.asScalaBufferConverter
 import scala.collection.mutable
 
 
 
@@ -17,20 +17,19 @@
 package com._4paradigm.openmldb.batch.nodes
 
 import java.util
-
 import com._4paradigm.hybridse.vm.PhysicalWindowAggrerationNode
-import com._4paradigm.openmldb.batch.utils.{AutoDestructibleIterator, HybridseUtil, PhysicalNodeUtil, SkewUtils, SparkUtil}
+import com._4paradigm.openmldb.batch.utils.{AutoDestructibleIterator, HybridseUtil,
+  PhysicalNodeUtil, SkewUtils, SparkUtil}
 import com._4paradigm.openmldb.batch.window.WindowAggPlanUtil.WindowAggConfig
 import com._4paradigm.openmldb.batch.window.{WindowAggPlanUtil, WindowComputer}
-import com._4paradigm.openmldb.batch.{PlanContext, OpenmldbBatchConfig, SparkInstance}
+import com._4paradigm.openmldb.batch.{OpenmldbBatchConfig, PlanContext, SparkInstance}
 import org.apache.spark.sql.catalyst.InternalRow
-import org.apache.spark.sql.types._
+import org.apache.spark.sql.types.{IntegerType, LongType, StructType, TimestampType}
 import org.apache.spark.sql.{DataFrame, Row}
 import org.apache.spark.util.SerializableConfiguration
 import org.slf4j.LoggerFactory
 
-import scala.collection.JavaConverters._
-
+import scala.collection.JavaConverters.{bufferAsJavaListConverter, asScalaBufferConverter}
 
 /** The planner which implements window agg physical node.
  *
@@ -68,7 +67,11 @@ object WindowAggPlan {
     val dfWithIndex = inputTable.getDfConsideringIndex(ctx, physicalNode.GetNodeId())
 
     // Do union if physical node has union flag
-    val unionTable = if (isWindowWithUnion) WindowAggPlanUtil.windowUnionTables(ctx, physicalNode, dfWithIndex) else dfWithIndex
+    val unionTable = if (isWindowWithUnion) {
+      WindowAggPlanUtil.windowUnionTables(ctx, physicalNode, dfWithIndex)
+    } else {
+      dfWithIndex
+    }
 
     // Do groupby and sort with window skew optimization or not
     val repartitionDf = if (isWindowSkewOptimization) {
@@ -99,7 +102,7 @@ object WindowAggPlan {
           val computer = WindowAggPlanUtil.createComputer(partitionIndex, hadoopConf, sparkFeConfig, windowAggConfig)
           unsafeWindowAggIter(computer, iter, sparkFeConfig, windowAggConfig, outputSchema)
       }
-      SparkUtil.RddInternalRowToDf(ctx.getSparkSession, outputInternalRowRdd, outputSchema)
+      SparkUtil.rddInternalRowToDf(ctx.getSparkSession, outputInternalRowRdd, outputSchema)
 
     } else { // isUnsafeRowOptimization is false
       val outputRdd = if (isWindowWithUnion) {
@@ -170,7 +173,8 @@ object WindowAggPlan {
       val distributionTableName = "_DISTRIBUTION_TABLE_" + uniqueNamePostfix
       val countColumnName = "_COUNT_" + uniqueNamePostfix
 
-      val distributionSqlText = SkewUtils.genPercentileSql(inputTableName, quantile.intValue(), repartitionColNames, orderbyColName, countColumnName)
+      val distributionSqlText = SkewUtils
+        .genPercentileSql(inputTableName, quantile.intValue(), repartitionColNames, orderbyColName, countColumnName)
       logger.info(s"Generate distribution sql: $distributionSqlText")
       val distributionDf = ctx.sparksql(distributionSqlText)
       distributionDf.createOrReplaceTempView(distributionTableName)
@@ -179,7 +183,8 @@ object WindowAggPlan {
       val keysMap = new util.HashMap[String, String]()
       keyScala.foreach(e => keysMap.put(e, e))
 
-      val addColumnsSqlText = SkewUtils.genPercentileTagSql(inputTableName, distributionTableName, quantile.intValue(), schemas, keysMap, orderbyColName,
+      val addColumnsSqlText = SkewUtils.genPercentileTagSql(inputTableName, distributionTableName,
+        quantile.intValue(), schemas, keysMap, orderbyColName,
         partColumnName, expandColumnName, countColumnName, ctx.getConf.skewCnt.longValue())
       logger.info(s"Generate add columns sql: $addColumnsSqlText")
       ctx.sparksql(addColumnsSqlText)
@@ -189,14 +194,16 @@ object WindowAggPlan {
 
       val distributionMap = Map(distributionCollect.map(p => (p.get(0), p.get(1))):_*)
 
-      val outputSchema = inputDf.schema.add("_PART_", IntegerType, false).add("_EXPAND_", IntegerType, false)
+      val outputSchema = inputDf.schema.add("_PART_", IntegerType, false)
+        .add("_EXPAND_", IntegerType, false)
 
       val outputRdd = inputDf.rdd.map(row => {
         // Combine the repartition keys to one string which is equal to the first column of skew config
         val combineString = repartitionColIndexes.map(index => row.get(index)).mkString("_")
         // TODO: Support for more datatype of orderby columns
         val condition = if (orderbyColType.equals(TimestampType)) {
-          row.get(orderbyColIndex).asInstanceOf[java.sql.Timestamp].compareTo(distributionMap(combineString).asInstanceOf[java.sql.Timestamp])
+          row.get(orderbyColIndex).asInstanceOf[java.sql.Timestamp].compareTo(distributionMap(combineString)
+            .asInstanceOf[java.sql.Timestamp])
         } else if (orderbyColType.equals(LongType)) {
           row.get(orderbyColIndex).asInstanceOf[Long].compareTo(distributionMap(combineString).asInstanceOf[Long])
         } else {
 
@@ -18,17 +18,18 @@ package com._4paradigm.openmldb.batch.udf
 
 import org.apache.spark.sql.Column
 import org.apache.spark.sql.catalyst.expressions.aggregate.ApproximatePercentile
-import org.apache.spark.sql.functions._
+import org.apache.spark.sql.functions.lit
+
 
 
 object PercentileApprox {
-  def percentile_approx(col: Column, percentage: Column, accuracy: Column): Column = {
+  def percentileApprox(col: Column, percentage: Column, accuracy: Column): Column = {
     val expr = new ApproximatePercentile(
       col.expr,  percentage.expr, accuracy.expr
     ).toAggregateExpression
     new Column(expr)
   }
-  def percentile_approx(col: Column, percentage: Column): Column = percentile_approx(
+  def percentileApprox(col: Column, percentage: Column): Column = percentileApprox(
     col, percentage, lit(ApproximatePercentile.DEFAULT_PERCENTILE_ACCURACY)
   )
 
@@ -39,11 +40,11 @@ object PercentileApprox {
    * @param accu
    * @return
    */
-  def percentile_approx(col: Column, percentage: Column, accu: Int): Column = {
+  def percentileApprox(col: Column, percentage: Column, accu: Int): Column = {
     if (accu > 0) {
-      percentile_approx(col, percentage, lit(accu))
+      percentileApprox(col, percentage, lit(accu))
     } else {
-      percentile_approx(col, percentage, lit(ApproximatePercentile.DEFAULT_PERCENTILE_ACCURACY))
+      percentileApprox(col, percentage, lit(ApproximatePercentile.DEFAULT_PERCENTILE_ACCURACY))
     }
   }
 }
@@ -20,6 +20,4 @@ trait ConfigImplicits[T] {
   def parse(value: Any): T
 }
 
-object ConfigImplicits {
-
-}
+object ConfigImplicits
@@ -96,4 +96,4 @@ object ConfigReflections {
   }
 }
 
-class ConfigOption(name: String, doc: String = "") extends StaticAnnotation {}
+class ConfigOption(name: String, doc: String = "") extends StaticAnnotation
@@ -17,9 +17,9 @@
 package com._4paradigm.openmldb.batch.utils
 
 import java.io.File
-
 import com._4paradigm.hybridse.node.JoinType
-import com._4paradigm.hybridse.vm._
+import com._4paradigm.hybridse.vm.{PhysicalDataProviderNode, PhysicalJoinNode, PhysicalOpNode,
+  PhysicalOpType, PhysicalProjectNode, PhysicalRenameNode, PhysicalWindowAggrerationNode, ProjectType}
 import guru.nidi.graphviz.engine.{Format, Graphviz}
 import guru.nidi.graphviz.model.Factory.{mutGraph, mutNode}
 import guru.nidi.graphviz.model.MutableNode
Original file line number	Diff line number	Diff line change
`@@ -20,6 +20,4 @@ trait ConfigImplicits[T] {`
`20`	`20`	`def parse(value: Any): T`
`21`	`21`	`}`
`22`	`22`
`23`		`-object ConfigImplicits {`
`24`		`-`
`25`		`-}`
	`23`	`+object ConfigImplicits`
Original file line number	Diff line number	Diff line change
`@@ -96,4 +96,4 @@ object ConfigReflections {`
`96`	`96`	`}`
`97`	`97`	`}`
`98`	`98`
`99`		`-class ConfigOption(name: String, doc: String = "") extends StaticAnnotation {}`
	`99`	`+class ConfigOption(name: String, doc: String = "") extends StaticAnnotation`