当前位置: 首页 > 面试题库 >

在Apache Spark 2.0.0中,是否可以从外部数据库中获取查询(而不是获取整个表)?

阚砚文
2023-03-14
问题内容

使用pyspark:

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("spark play")\
    .getOrCreate()

df = spark.read\
    .format("jdbc")\
    .option("url", "jdbc:mysql://localhost:port")\
    .option("dbtable", "schema.tablename")\
    .option("user", "username")\
    .option("password", "password")\
    .load()

与其获取“ schema.tablename”,不如获取一个查询的结果集。


问题答案:

与1.x中的相同,您可以传递有效的子查询作为dbtable参数,例如:

...
.option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp")
...


 类似资料:
  • 问题内容: 有什么办法可以让子查询在oracle db中返回多个列?(我知道此特定的sql会导致错误,但总的来说我想要的很好) 我想要这样的结果: 我知道可以通过联接解决此问题,但这不是我要的。 我的问题很简单,是否有办法从子查询中获取两个或多个值?也许一些解决方法使用双重?这样就没有实际的联接,但是每行都有一个新的子查询? 编辑:这是一个原则性问题。我知道,您可以使用join解决所有这些问题。您

  • 问题内容: 我正在尝试一次从三个表中检索数据。这些表如下所示: 类别 讯息 评论 我想要得到的是1条消息(因为我有一个基于id的子句),3个类别(因为有3个类别链接到消息)和2条注释(因为有2条注释链接到消息)。 我正在尝试使用以下查询来检索数据: 但是,当运行此查询时,我得到6个结果: 在我预期结果如下的地方: 只有三行,我应该能够获取所有需要的数据。这有可能吗?我做错了吗?? 问题答案: 如评

  • 问题内容: 如果我能得到类似下面的信息,那将是很棒的。 伪代码: 在打印U时,将返回以下内容: 能够获得小部件设置将非常有用。这样我就可以相应地操纵其他小部件。 问题答案: 如果知道所需的设置,则可以使用该方法获取值,例如 它将打印 如果您想知道所有可用的选项,widget.config包含配置,并且如果您希望的话,可以创建您可能需要的全部或部分设置,例如 输出:

  • 问题内容: 我目前正在从数据存储区中请求20个条目,使用游标将其返回给用户,以防用户要求更多条目,请将游标用作新起点,并询问下一个20个条目。 该代码看起来像 万一重要的是这里的完整代码:https : //github.com/koffeinsource/kaffeeshare/blob/master/data/appengine.go#L23 使用带有的循环看起来像是反模式,但是使用/ 时我看

  • 问题内容: 从表单获取变量: 如果我输入1并使用gettype($ POST _ [‘a’]),它将返回字符串,可以输入int吗?因为在此之后,我要检查该变量是否为int。 更新 得到的答案是,它总是返回字符串,他们为我提供了使用(int)或intval()的方法,但是如果它真的像’a’这样的字符串,它会返回0,但它也可能是整数值0,如何克服这个问题? 更新 编辑错字后,Brad Christie

  • 我可以用这个条件对象来wait/notify/notifyall和synchronized方法吗? 还是坚持带锁的组合更好? 此外: