我在Microsoft Windows7上使用的是Spark2.2版本
。我想在一个变量中加载csv文件,以便稍后执行与SQL相关的操作,但无法这样做。我从这个链接引用了公认的答案,但没有用。我按照以下步骤创建sparkcontext
对象和sqlcontext
对象:
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
val sc=SparkContext.getOrCreate() // Creating spark context object
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // Creating SQL object for query related tasks
val df = sqlContext.read.format("csv").option("header", "true").load("D://ResourceData.csv")
当我尝试df.show(2)
时,它会说没有找到df。我尝试了从附加链接加载CSV的databricks解决方案。它下载软件包,但不加载csv文件。那么我怎样才能纠正我的问题呢?提前致谢:)
我使用Cloudera VM
中的1.6版本
解决了在dataframe中加载本地文件的问题,下面的代码帮助了我:
1) sudo spark-shell --jars /usr/lib/spark/lib/spark-csv_2.10-1.5.0.jar,/usr/lib/spark/lib/commons-csv-1.5.jar,/usr/lib/spark/lib/univocity-parsers-1.5.1.jar
2) val df1 = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("treatEmptyValuesAsNulls", "true" ).option("parserLib", "univocity").load("file:///home/cloudera/Desktop/ResourceData.csv")
注意:sc
和sqlcontext
变量是自动创建的,但是在最新版本即2.2.1中有许多改进,我无法使用,因为在Windows7中没有创建metastore_db。我将发布一个关于同样问题的新问题。
你好,我正在尝试在swagger hub中创建一个对象数组 然而,我似乎无缘无故地犯了一个错误 我仿照了官方文档https://swagger . io/docs/specification/data-models/data-types/# array 但是我得到的错误是 应该是对象 基本上,在type:array中,它表示它应该是一个对象 任何帮助都将不胜感激
问题内容: 问题 我想在Java中创建一个用户定义函数,可以将其称为Apache Spark运算符链中的Java方法。我在查找不需要UDF存在于SQL查询中的Java示例时遇到了麻烦。 版本号 Java 8 斯卡拉2.10.6 为Hadoop 2.6.0预先构建的Apache Spark 1.6.0 我尝试过的方法 我可以用Java成功创建UDF。但是,除非在SQL查询中,否则无法使用它: 我被困
问题内容: 我正在通过放入池中进行研究,以便可以重复使用它。 密码工厂 这就是我在 Example 类中实现的方式 打印池 我在正确的道路上吗?是否可以增加泳池大小? 编辑 @http的答案对我来说很好。但是,如果我有另一种方法,应该怎么写? 任何帮助,将不胜感激 ! 问题答案: 您走在正确的轨道上。构造GenericObjectPool时,可以使用接受GenericObjectPoolConfi
问题内容: 如何将JSON传递到RAILS应用程序,以便它将以has_many关系创建嵌套的子对象? 这是我到目前为止的内容: 两个模型对象。 使用通勤,我可以设置标准控制器。我希望能够使用JSON在一个REST调用中创建一个Commute对象以及几个子Location对象。我一直在尝试这样的事情: 更具可读性的JSON是: 执行该命令时,将得到以下输出: 看起来好像正在读取JSON数组的loca
我需要使用Jackson创建一个JSON字符串,如下所示。我知道这里已经回答了类似的问题:使用jackson创建一个json对象 但我期望的JSON字符串与上面示例中的有点不同。
我有一个包含对象数组的数组。以下是一个例子: 我想创建另一个数组,其中包含上述数组的所有对象,如下所示: 我写了下面的代码: 但是当我返回一个包含所有信息的数组时。问题是,此数组包含所需数组的12倍,因为customerContacts长度为12