apache · viirya · Jan 22, 2021 · Jan 22, 2021 · Jan 22, 2021 · Jan 25, 2021
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/object.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/object.scala
@@ -589,6 +589,7 @@ case class CoGroup(
 object PipeElements {
   def apply[T : Encoder](
       command: String,
+      printElement: (Any, String => Unit) => Unit,
       child: LogicalPlan): LogicalPlan = {
     val deserialized = CatalystSerde.deserialize[T](child)
     implicit val encoder = Encoders.STRING
@@ -597,6 +598,7 @@ object PipeElements {
       implicitly[Encoder[T]].schema,
       CatalystSerde.generateObjAttr[String],
       command,
+      printElement,
       deserialized)
     CatalystSerde.serialize[String](piped)
   }
@@ -610,4 +612,5 @@ case class PipeElements[T](
     argumentSchema: StructType,
     outputObjAttr: Attribute,
     command: String,
+    printElement: (Any, String => Unit) => Unit,
     child: LogicalPlan) extends ObjectConsumer with ObjectProducer
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala b/sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala
@@ -2897,14 +2897,22 @@ class Dataset[T] private[sql](
    * each line of stdout resulting in one element of the output partition. A process is invoked
    * even for empty partitions.
    *
-   * @param command command to run in forked process.
+   * Note that for micro-batch streaming Dataset, the effect of pipe is only per micro-batch, not
+   * cross entire stream.
    *
+   * @param command command to run in forked process.
+   * @param printElement Use this function to customize how to pipe elements. This function
+   *                     will be called with each Dataset element as the 1st parameter, and the
+   *                     print line function (like out.println()) as the 2nd parameter.
    * @group typedrel
    * @since 3.2.0
    */
-  def pipe(command: String): Dataset[String] = {
+  def pipe(command: String, printElement: (T, String => Unit) => Unit): Dataset[String] = {
     implicit val stringEncoder = Encoders.STRING
-    withTypedPlan[String](PipeElements[T](command, logicalPlan))
+    withTypedPlan[String](PipeElements[T](
+      command,
+      printElement.asInstanceOf[(Any, String => Unit) => Unit],
+      logicalPlan))
   }
 
   /**

diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/SparkStrategies.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/SparkStrategies.scala
@@ -666,8 +666,8 @@ abstract class SparkStrategies extends QueryPlanner[SparkPlan] {
         execution.python.MapInPandasExec(func, output, planLater(child)) :: Nil
       case logical.MapElements(f, _, _, objAttr, child) =>
         execution.MapElementsExec(f, objAttr, planLater(child)) :: Nil
-      case logical.PipeElements(_, _, objAttr, command, child) =>
-        execution.PipeElementsExec(objAttr, command, planLater(child)) :: Nil
+      case logical.PipeElements(_, _, objAttr, command, printElement, child) =>
+        execution.PipeElementsExec(objAttr, command, printElement, planLater(child)) :: Nil
       case logical.AppendColumns(f, _, _, in, out, child) =>
         execution.AppendColumnsExec(f, in, out, planLater(child)) :: Nil
       case logical.AppendColumnsWithObject(f, childSer, newSer, child) =>

diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/objects.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/objects.scala
@@ -632,13 +632,15 @@ case class CoGroupExec(
 case class PipeElementsExec(
     outputObjAttr: Attribute,
     command: String,
+    printElement: (Any, String => Unit) => Unit,
     child: SparkPlan)
   extends ObjectConsumerExec with ObjectProducerExec {
 
   override protected def doExecute(): RDD[InternalRow] = {
     val getObject = ObjectOperator.unwrapObjectFromRow(child.output.head.dataType)
     val printRDDElement: (InternalRow, String => Unit) => Unit = (row, printFunc) => {
-      printFunc(getObject(row).toString)
+      val obj = getObject(row)
+      printElement(obj, printFunc)
     }
 
     child.execute()

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DatasetSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DatasetSuite.scala
@@ -2012,19 +2012,45 @@ class DatasetSuite extends QueryTest
     assume(TestUtils.testCommandAvailable("cat"))
 
     val nums = spark.range(4)
-    val piped = nums.pipe("cat").toDF
+    val piped = nums.pipe("cat", (l, printFunc) => printFunc(l.toString)).toDF
 
     checkAnswer(piped, Row("0") :: Row("1") :: Row("2") :: Row("3") :: Nil)
 
-    val piped2 = nums.pipe("wc -l").toDF.collect()
+    val piped2 = nums.pipe("wc -l", (l, printFunc) => printFunc(l.toString)).toDF.collect()
     assert(piped2.size == 2)
     assert(piped2(0).getString(0).trim == "2")
     assert(piped2(1).getString(0).trim == "2")
   }
 
+  test("SPARK-34205: Pipe DataFrame") {
+    assume(TestUtils.testCommandAvailable("cat"))
+
+    val data = Seq((123, "first"), (4567, "second")).toDF("num", "word")
+
+    def printElement(row: Row, printFunc: (String) => Unit): Unit = {
+      val line = s"num: ${row.getInt(0)}, word: ${row.getString(1)}"
+      printFunc.apply(line)
+    }
+    val piped = data.pipe("cat", printElement).toDF
+    checkAnswer(piped, Row("num: 123, word: first") :: Row("num: 4567, word: second") :: Nil)
+  }
+
+  test("SPARK-34205: Pipe complex type Dataset") {
+    assume(TestUtils.testCommandAvailable("cat"))
+
+    val data = Seq(DoubleData(123, "first"), DoubleData(4567, "second")).toDS
+
+    def printElement(data: DoubleData, printFunc: (String) => Unit): Unit = {
+      val line = s"num: ${data.id}, word: ${data.val1}"
+      printFunc.apply(line)
+    }
+    val piped = data.pipe("cat", printElement).toDF
+    checkAnswer(piped, Row("num: 123, word: first") :: Row("num: 4567, word: second") :: Nil)
+  }
+
   test("SPARK-34205: pipe Dataset with empty partition") {
     val data = Seq(123, 4567).toDF("num").repartition(8, $"num")
-    val piped = data.pipe("wc -l")
+    val piped = data.pipe("wc -l", (row, printFunc) => printFunc(row.getInt(0).toString))
     assert(piped.count == 8)
     val lineCounts = piped.map(_.trim.toInt).collect().toSet
     assert(Set(0, 1, 1) == lineCounts)

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/streaming/StreamSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/streaming/StreamSuite.scala
@@ -1270,7 +1270,7 @@ class StreamSuite extends StreamTest {
 
     val inputData = MemoryStream[Int]
     val piped = inputData.toDS()
-      .pipe("cat").toDF
+      .pipe("cat", (n, printFunc) => printFunc(n.toString)).toDF
 
     testStream(piped)(
       AddData(inputData, 1, 2, 3),