typelevel · chris-twiner · Sep 29, 2023 · Dec 27, 2023 · Feb 20, 2024 · Feb 26, 2024
diff --git a/build.sbt b/build.sbt
@@ -1,4 +1,5 @@
-val sparkVersion = "3.5.1"
+val sparkVersion =
+  "3.5.1" // "4.0.0-SNAPSHOT" must have the apache_snaps configured
 val spark34Version = "3.4.2"
 val spark33Version = "3.3.4"
 val catsCoreVersion = "2.10.0"
@@ -11,10 +12,32 @@ val scalacheck = "1.17.0"
 val scalacheckEffect = "1.0.4"
 val refinedVersion = "0.11.1"
 val nakedFSVersion = "0.1.0"
+val shimVersion = "0.0.1-RC4"
 
 val Scala212 = "2.12.19"
 val Scala213 = "2.13.13"
 
+resolvers in Global += Resolver.mavenLocal
+resolvers in Global += MavenRepository(
+  "sonatype-s01-snapshots",
+  Resolver.SonatypeS01RepositoryRoot + "/snapshots"
+)
+resolvers in Global += MavenRepository(
+  "sonatype-s01-releases",
+  Resolver.SonatypeS01RepositoryRoot + "/releases"
+)
+resolvers in Global += MavenRepository(
+  "apache_snaps",
+  "https://repository.apache.org/content/repositories/snapshots"
+)
+
+import scala.concurrent.duration.DurationInt
+import lmcoursier.definitions.CachePolicy
+
+csrConfiguration := csrConfiguration.value
+  .withTtl(Some(1.minute))
+  .withCachePolicies(Vector(CachePolicy.LocalOnly))
+
 ThisBuild / tlBaseVersion := "0.16"
 
 ThisBuild / crossScalaVersions := Seq(Scala213, Scala212)
@@ -87,10 +110,10 @@ lazy val `cats-spark33` = project
 lazy val dataset = project
   .settings(name := "frameless-dataset")
   .settings(
-    Compile / unmanagedSourceDirectories += baseDirectory.value / "src" / "main" / "spark-3.4+"
+    Test / unmanagedSourceDirectories += baseDirectory.value / "src" / "test" / "spark-3.3+"
   )
   .settings(
-    Test / unmanagedSourceDirectories += baseDirectory.value / "src" / "test" / "spark-3.3+"
+    libraryDependencies += "com.sparkutils" %% "shim_runtime_3.5.0.oss_3.5" % shimVersion changing () // 4.0.0.oss_4.0 for 4 snapshot
   )
   .settings(datasetSettings)
   .settings(sparkDependencies(sparkVersion))
@@ -100,10 +123,10 @@ lazy val `dataset-spark34` = project
   .settings(name := "frameless-dataset-spark34")
   .settings(sourceDirectory := (dataset / sourceDirectory).value)
   .settings(
-    Compile / unmanagedSourceDirectories += (dataset / baseDirectory).value / "src" / "main" / "spark-3.4+"
+    Test / unmanagedSourceDirectories += (dataset / baseDirectory).value / "src" / "test" / "spark-3.3+"
   )
   .settings(
-    Test / unmanagedSourceDirectories += (dataset / baseDirectory).value / "src" / "test" / "spark-3.3+"
+    libraryDependencies += "com.sparkutils" %% "shim_runtime_3.4.1.oss_3.4" % shimVersion changing ()
   )
   .settings(datasetSettings)
   .settings(sparkDependencies(spark34Version))
@@ -114,10 +137,10 @@ lazy val `dataset-spark33` = project
   .settings(name := "frameless-dataset-spark33")
   .settings(sourceDirectory := (dataset / sourceDirectory).value)
   .settings(
-    Compile / unmanagedSourceDirectories += (dataset / baseDirectory).value / "src" / "main" / "spark-3"
+    Test / unmanagedSourceDirectories += (dataset / baseDirectory).value / "src" / "test" / "spark-3.3+"
   )
   .settings(
-    Test / unmanagedSourceDirectories += (dataset / baseDirectory).value / "src" / "test" / "spark-3.3+"
+    libraryDependencies += "com.sparkutils" %% "shim_runtime_3.3.2.oss_3.3" % shimVersion changing ()
   )
   .settings(datasetSettings)
   .settings(sparkDependencies(spark33Version))
@@ -239,11 +262,29 @@ lazy val datasetSettings =
         imt("frameless.RecordEncoderFields.deriveRecordLast"),
         mc("frameless.functions.FramelessLit"),
         mc(f"frameless.functions.FramelessLit$$"),
+        mc("org.apache.spark.sql.FramelessInternals"),
+        mc(f"org.apache.spark.sql.FramelessInternals$$"),
+        mc("org.apache.spark.sql.FramelessInternals$DisambiguateLeft"),
+        mc("org.apache.spark.sql.FramelessInternals$DisambiguateLeft$"),
+        mc("org.apache.spark.sql.FramelessInternals$DisambiguateRight"),
+        mc("org.apache.spark.sql.FramelessInternals$DisambiguateRight$"),
+        mc("org.apache.spark.sql.reflection.package"),
+        mc("org.apache.spark.sql.reflection.package$"),
+        mc("org.apache.spark.sql.reflection.package$ScalaSubtypeLock$"),
+        mc("frameless.MapGroups"),
+        mc(f"frameless.MapGroups$$"),
         dmm("frameless.functions.package.litAggr"),
-        dmm("org.apache.spark.sql.FramelessInternals.column")
+        dmm("org.apache.spark.sql.FramelessInternals.column"),
+        dmm("frameless.TypedEncoder.collectionEncoder"),
+        dmm("frameless.TypedEncoder.setEncoder"),
+        dmm("frameless.functions.FramelessUdf.evalCode"),
+        dmm("frameless.functions.FramelessUdf.copy"),
+        dmm("frameless.functions.FramelessUdf.this"),
+        dmm("frameless.functions.FramelessUdf.apply"),
+        imt("frameless.functions.FramelessUdf.apply")
       )
     },
-    coverageExcludedPackages := "org.apache.spark.sql.reflection",
+    coverageExcludedPackages := "frameless.reflection",
     libraryDependencies += "com.globalmentor" % "hadoop-bare-naked-local-fs" % nakedFSVersion % Test exclude ("org.apache.hadoop", "hadoop-commons")
   )
 
@@ -252,7 +293,18 @@ lazy val refinedSettings =
     libraryDependencies += "eu.timepit" %% "refined" % refinedVersion
   )
 
-lazy val mlSettings = framelessSettings ++ framelessTypedDatasetREPL
+lazy val mlSettings = framelessSettings ++ framelessTypedDatasetREPL ++ Seq(
+  mimaBinaryIssueFilters ++= {
+    import com.typesafe.tools.mima.core._
+
+    val mc = ProblemFilters.exclude[MissingClassProblem](_)
+
+    Seq(
+      mc("org.apache.spark.ml.FramelessInternals"),
+      mc(f"org.apache.spark.ml.FramelessInternals$$")
+    )
+  }
+)
 
 lazy val scalac212Options = Seq(
   "-Xlint:-missing-interpolator,-unused,_",
@@ -324,7 +376,10 @@ lazy val framelessSettings = Seq(
    * [error] 	    +- org.scoverage:scalac-scoverage-reporter_2.12:2.0.7 (depends on 2.1.0)
    * [error] 	    +- org.scala-lang:scala-compiler:2.12.16              (depends on 1.0.6)
    */
-  libraryDependencySchemes += "org.scala-lang.modules" %% "scala-xml" % VersionScheme.Always
+  libraryDependencySchemes += "org.scala-lang.modules" %% "scala-xml" % VersionScheme.Always,
+  // allow testing on different runtimes, but don't publish / run docs
+  Test / publishArtifact := true,
+  Test / packageDoc / publishArtifact := false
 ) ++ consoleSettings
 
 lazy val spark34Settings = Seq[Setting[_]](

diff --git a/cats/src/test/scala/frameless/cats/test.scala b/cats/src/test/scala/frameless/cats/test.scala
@@ -7,7 +7,7 @@ import _root_.cats.syntax.all._
 import org.apache.spark.SparkContext
 import org.apache.spark.sql.SparkSession
 import org.apache.spark.rdd.RDD
-import org.apache.spark.{SparkConf, SparkContext => SC}
+import org.apache.spark.{ SparkConf, SparkContext => SC }
 
 import org.scalatest.compatible.Assertion
 import org.scalactic.anyvals.PosInt
@@ -21,24 +21,39 @@ import org.scalatest.matchers.should.Matchers
 import org.scalatest.propspec.AnyPropSpec
 
 trait SparkTests {
-  val appID: String = new java.util.Date().toString + math.floor(math.random() * 10E4).toLong.toString
+
+  val appID: String = new java.util.Date().toString + math
+    .floor(math.random() * 10e4)
+    .toLong
+    .toString
 
   val conf: SparkConf = new SparkConf()
     .setMaster("local[*]")
     .setAppName("test")
     .set("spark.ui.enabled", "false")
     .set("spark.app.id", appID)
 
-  implicit def session: SparkSession = SparkSession.builder().config(conf).getOrCreate()
+  implicit def session: SparkSession =
+    SparkSession.builder().config(conf).getOrCreate()
   implicit def sc: SparkContext = session.sparkContext
 
-  implicit class seqToRdd[A: ClassTag](seq: Seq[A])(implicit sc: SC) {
+  implicit class seqToRdd[A: ClassTag](
+      seq: Seq[A]
+    )(implicit
+      sc: SC) {
     def toRdd: RDD[A] = sc.makeRDD(seq)
   }
 }
 
 object Tests {
-  def innerPairwise(mx: Map[String, Int], my: Map[String, Int], check: (Any, Any) => Assertion)(implicit sc: SC): Assertion = {
+
+  def innerPairwise(
+      mx: Map[String, Int],
+      my: Map[String, Int],
+      check: (Any, Any) => Assertion
+    )(implicit
+      sc: SC
+    ): Assertion = {
     import frameless.cats.implicits._
     import frameless.cats.inner._
     val xs = sc.parallelize(mx.toSeq)
@@ -63,21 +78,31 @@ object Tests {
   }
 }
 
-class Test extends AnyPropSpec with Matchers with ScalaCheckPropertyChecks with SparkTests {
+class Test
+    extends AnyPropSpec
+    with Matchers
+    with ScalaCheckPropertyChecks
+    with SparkTests {
+
   implicit override val generatorDrivenConfig =
     PropertyCheckConfiguration(minSize = PosInt(10))
 
   property("spark is working") {
-    sc.parallelize(Seq(1, 2, 3)).collect() shouldBe Array(1,2,3)
+    sc.parallelize(Seq(1, 2, 3)).collect() shouldBe Array(1, 2, 3)
   }
 
   property("inner pairwise monoid") {
     // Make sure we have non-empty map
-    forAll { (xh: (String, Int), mx: Map[String, Int], yh: (String, Int), my: Map[String, Int]) =>
-      Tests.innerPairwise(mx + xh, my + yh, _ shouldBe _)
+    forAll {
+      (xh: (String, Int),
+          mx: Map[String, Int],
+          yh: (String, Int),
+          my: Map[String, Int]
+        ) => Tests.innerPairwise(mx + xh, my + yh, _ shouldBe _)
     }
   }
 
+  org.scalatestplus.scalacheck.Checkers
   property("rdd simple numeric commutative semigroup") {
     import frameless.cats.implicits._
 
@@ -110,7 +135,8 @@ class Test extends AnyPropSpec with Matchers with ScalaCheckPropertyChecks with
   property("rdd tuple commutative semigroup example") {
     import frameless.cats.implicits._
     forAll { seq: List[(Int, Int)] =>
-      val expectedSum = if (seq.isEmpty) None else Some(Foldable[List].fold(seq))
+      val expectedSum =
+        if (seq.isEmpty) None else Some(Foldable[List].fold(seq))
       val rdd = seq.toRdd
 
       rdd.csum shouldBe expectedSum.getOrElse(0 -> 0)
@@ -120,10 +146,22 @@ class Test extends AnyPropSpec with Matchers with ScalaCheckPropertyChecks with
 
   property("pair rdd numeric commutative semigroup example") {
     import frameless.cats.implicits._
-    val seq = Seq( ("a",2), ("b",3), ("d",6), ("b",2), ("d",1) )
+    val seq = Seq(("a", 2), ("b", 3), ("d", 6), ("b", 2), ("d", 1))
     val rdd = seq.toRdd
-    rdd.cminByKey.collect().toSeq should contain theSameElementsAs Seq( ("a",2), ("b",2), ("d",1) )
-    rdd.cmaxByKey.collect().toSeq should contain theSameElementsAs Seq( ("a",2), ("b",3), ("d",6) )
-    rdd.csumByKey.collect().toSeq should contain theSameElementsAs Seq( ("a",2), ("b",5), ("d",7) )
+    rdd.cminByKey.collect().toSeq should contain theSameElementsAs Seq(
+      ("a", 2),
+      ("b", 2),
+      ("d", 1)
+    )
+    rdd.cmaxByKey.collect().toSeq should contain theSameElementsAs Seq(
+      ("a", 2),
+      ("b", 3),
+      ("d", 6)
+    )
+    rdd.csumByKey.collect().toSeq should contain theSameElementsAs Seq(
+      ("a", 2),
+      ("b", 5),
+      ("d", 7)
+    )
   }
 }
diff --git a/dataset/src/main/scala/frameless/CollectionCaster.scala b/dataset/src/main/scala/frameless/CollectionCaster.scala
@@ -0,0 +1,67 @@
+package frameless
+
+import frameless.TypedEncoder.CollectionConversion
+import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.sql.catalyst.expressions.codegen.{
+  CodegenContext,
+  CodegenFallback,
+  ExprCode
+}
+import org.apache.spark.sql.catalyst.expressions.{ Expression, UnaryExpression }
+import org.apache.spark.sql.types.{ DataType, ObjectType }
+
+case class CollectionCaster[F[_], C[_], Y](
+    child: Expression,
+    conversion: CollectionConversion[F, C, Y])
+    extends UnaryExpression
+    with CodegenFallback {
+
+  protected def withNewChildInternal(newChild: Expression): Expression =
+    copy(child = newChild)
+
+  override def eval(input: InternalRow): Any = {
+    val o = child.eval(input).asInstanceOf[Object]
+    o match {
+      case col: F[Y] @unchecked =>
+        conversion.convert(col)
+      case _ => o
+    }
+  }
+
+  override def dataType: DataType = child.dataType
+}
+
+case class SeqCaster[C[X] <: Iterable[X], Y](child: Expression)
+    extends UnaryExpression {
+
+  protected def withNewChildInternal(newChild: Expression): Expression =
+    copy(child = newChild)
+
+  // eval on interpreted works, fallback on codegen does not, e.g. with ColumnTests.asCol and Vectors, the code generated still has child of type Vector but child eval returns X2, which is not good
+  override def eval(input: InternalRow): Any = {
+    val o = child.eval(input).asInstanceOf[Object]
+    o match {
+      case col: Set[Y] @unchecked =>
+        col.toSeq
+      case _ => o
+    }
+  }
+
+  def toSeqOr[T](isSet: => T, or: => T): T =
+    child.dataType match {
+      case ObjectType(cls)
+          if classOf[scala.collection.Set[_]].isAssignableFrom(cls) =>
+        isSet
+      case t => or
+    }
+
+  override def dataType: DataType =
+    toSeqOr(ObjectType(classOf[scala.collection.Seq[_]]), child.dataType)
+
+  override protected def doGenCode(
+      ctx: CodegenContext,
+      ev: ExprCode
+    ): ExprCode =
+    defineCodeGen(ctx, ev, c => toSeqOr(s"$c.toVector()", s"$c"))
+
+}