(DOCS-15355) Fix example (#129)

zach-carr · web-flow · commit 900bd29a2c94 · 2022-05-31T14:34:57.000-04:00
* (DOCS-15355) Fix example
diff --git a/source/includes/warn-console-stream.rst b/source/includes/warn-console-stream.rst
@@ -0,0 +1,4 @@
+.. important::
+
+   Avoid streaming large datasets to your console. Streaming to your 
+   console is memory intensive and intended only for testing purposes. 
diff --git a/source/structured-streaming.txt b/source/structured-streaming.txt
@@ -211,14 +211,14 @@ more about continuous processing, see the `Spark documentation <https://spark.ap
               .load()
             )
          
-            query = (streamingDataFrame
+            dataStreamWriter = (streamingDataFrame
               .writeStream
               .trigger(continuous="1 second")
               .format("memory")
               .outputMode("append")
             )
 
-            query.start()
+            query = dataStreamWriter.start()
 
          .. note::
             
@@ -279,12 +279,12 @@ more about continuous processing, see the `Spark documentation <https://spark.ap
               .format("mongodb")
               .load()
          
-            val query = streamingDataFrame.writeStream
+            val dataStreamWriter = streamingDataFrame.writeStream
               .trigger(Trigger.Continuous("1 second"))
               .format("memory")
               .outputMode("append")
 
-            query.start()
+            val query = dataStreamWriter.start()
 
          .. note::
             
@@ -334,7 +334,7 @@ Stream to MongoDB from a CSV File
               .getOrCreate()
 
             # define a streaming query
-            query = (spark
+            dataStreamWriter = (spark
               .readStream
               .format("csv")
               .option("header", "true")
@@ -352,7 +352,7 @@ Stream to MongoDB from a CSV File
             )
 
             # run the query
-            query.start()
+            query = dataStreamWriter.start()
 
      - id: scala
        content: |
@@ -381,7 +381,7 @@ Stream to MongoDB from a CSV File
               .getOrCreate()
 
             // define a streaming query
-            val query = spark.readStream
+            val dataStreamWriter = spark.readStream
               .format("csv")
               .option("header", "true")
               .schema(<csv-schema>)
@@ -397,10 +397,10 @@ Stream to MongoDB from a CSV File
               .outputMode("append")
 
             // run the query
-            query.start()
+            val query = dataStreamWriter.start()
 
-Stream to a CSV File from MongoDB
-~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+Stream to your Console from MongoDB
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 .. tabs-drivers::
 
@@ -409,17 +409,19 @@ Stream to a CSV File from MongoDB
      - id: python
        content: |
 
-         To create a :ref:`read stream <read-structured-stream>` to a 
-         ``.csv`` file from MongoDB, first create a `DataStreamReader <https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.streaming.DataStreamReader.html>`__ 
+         To create a :ref:`read stream <read-structured-stream>` 
+         output to your console from MongoDB, first create a `DataStreamReader <https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.streaming.DataStreamReader.html>`__ 
          from MongoDB, then use that ``DataStreamReader`` to 
          create a `DataStreamWriter <https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.streaming.DataStreamWriter.html>`__ 
-         to a new ``.csv`` file. Finally, use the ``start()`` method 
+         to the console. Finally, use the ``start()`` method 
          to begin the stream.
          
          As new data is inserted into MongoDB, MongoDB streams that 
-         data out to a ``.csv`` file in the `outputMode <https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.streaming.DataStreamWriter.outputMode.html#pyspark.sql.streaming.DataStreamWriter.outputMode>`__ 
+         data out to your console in the `outputMode <https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.streaming.DataStreamWriter.outputMode.html#pyspark.sql.streaming.DataStreamWriter.outputMode>`__ 
          you specify.
 
+         .. include:: /includes/warn-console-stream.txt
+
          .. code-block:: python
             :copyable: true
             :emphasize-lines: 19, 27, 30
@@ -438,10 +440,10 @@ Stream to a CSV File from MongoDB
               .add('company_name', StringType())
               .add('price', DoubleType())
               .add('tx_time', TimestampType())
-            )            
+            )
 
             # define a streaming query
-            query = (spark
+            dataStreamWriter = (spark
               .readStream
               .format("mongodb")
               .option("spark.mongodb.connection.uri", <mongodb-connection-string>)
@@ -451,29 +453,30 @@ Stream to a CSV File from MongoDB
               .load()
               # manipulate your streaming data
               .writeStream
-              .format("csv")
-              .option("path", "/output/")
+              .format("console")
               .trigger(continuous="1 second")
               .outputMode("append")
             )
 
             # run the query
-            query.start()  
+            query = dataStreamWriter.start()  
 
      - id: scala
        content: |
 
-         To create a :ref:`read stream <read-structured-stream>` to a 
-         ``.csv`` file from MongoDB, first create a `DataStreamReader <https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/streaming/DataStreamReader.htmll>`__ 
+         To create a :ref:`read stream <read-structured-stream>` 
+         output to your console from MongoDB, first create a `DataStreamReader <https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/streaming/DataStreamReader.htmll>`__ 
          from MongoDB, then use that ``DataStreamReader`` to 
          create a `DataStreamWriter <https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/streaming/DataStreamWriter.html>`__ 
-         to a new ``.csv`` file. Finally, use the ``start()`` method 
+         to the console. Finally, use the ``start()`` method 
          to begin the stream.
          
          As new data is inserted into MongoDB, MongoDB streams that 
-         data out to a ``.csv`` file in the `outputMode <https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/streaming/DataStreamWriter.html#outputMode(outputMode:String):org.apache.spark.sql.streaming.DataStreamWriter[T]>`__ 
+         data out to your console in the `outputMode <https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/streaming/DataStreamWriter.html#outputMode(outputMode:String):org.apache.spark.sql.streaming.DataStreamWriter[T]>`__ 
          you specify.
 
+         .. include:: /includes/warn-console-stream.txt
+
          .. code-block:: scala
             :copyable: true
             :emphasize-lines: 17, 25, 28
@@ -494,7 +497,7 @@ Stream to a CSV File from MongoDB
               .add("tx_time", TimestampType())
 
             // define a streaming query
-            val query = spark.readStream
+            val dataStreamWriter = spark.readStream
               .format("mongodb")
               .option("spark.mongodb.connection.uri", <mongodb-connection-string>)
               .option("spark.mongodb.database", <database-name>)
@@ -503,10 +506,9 @@ Stream to a CSV File from MongoDB
               .load()
               // manipulate your streaming data
               .writeStream
-              .format("csv")
-              .option("path", "/output/")
+              .format("console")
               .trigger(Trigger.Continuous("1 second"))
               .outputMode("append")
 
             // run the query
-            query.start()
+            val query = dataStreamWriter.start()