当前位置：首页 > 专题 >

《雪花算法》专题

WebStorm中的自动花括号，检查修改
我正在使用WebStorm制作React应用程序。首先，当我使用 JSX 标签属性时，它会自动创建大括号。如何禁用此选项？第二，当我们的源代码被修改时，许多IDE向我们显示这个文件被修改了。在VSCode中，它是这样做的：但WebStorm不是。所以我不知道这个文件是否已经更改。我如何设置？
Word2Vec ：阿帕奇火花和张量流实现
阅读 https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/feature/Word2Vec.scala 这种实现的文字是谷歌Word2Vec的一个端口 https://code.google.com/archive/p/word2vec/ 这是“向量空间中单词表示的有效估计”
HDFS目录作为火花流中的参数
我在使用 Spark 流式处理示例时遇到问题：https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/streaming/examples/HdfsWordCount.scala 当我尝试使用 SBT 启动它时我有这个例外我确定该目录存在于Hadoop fs上，我甚至在那里复制了一
工人之间的平衡RDD划分-火花
我正在使用的，并将其调用为。的方差非常高，以至于大约1%的对集（用百分位数方法验证）使得集合中的值总数的20%。如果Spark随机使用shuffle进行分区，那么很有可能会有1%的数据落入同一分区，从而导致工作人员之间的负载不平衡。有没有办法确保“重”元组在分区中正常分布？我实际上将分成两个分区，和，基于）给出的阈值，以便分离这组元组，然后重新分区。但获得几乎相同的运行时间。负载可能已
广播加入火花不工作为左外
我有一张小桌子（2k）的记录和一张大桌子（5 mil）的记录。我需要从小表中获取所有数据，只从大表中获取匹配数据，因此我在下面执行了查询
火花作业中的Kryo序列化错误
IOException：找不到键类'com.test.serializetest.toto'的序列化程序。如果使用自定义序列化，请确保配置“io.serializations”配置正确。在org.apache.hadoop.io.sequenceFile$writer.init(sequenceFile.java:1179)在org.apache.hadoop.io.sequenceFile$wr
OutofMemoryError用更多的阶段将DAG火花化
我有一个运行sql联接的火花作业。我可视化的DAG和它创建+5阶段的每个加入。无论如何，在DAG有大约40个阶段的阶段之后，下一个步骤总是以异常失败，即在8次迭代之后，每个迭代有5个阶段。每个节点3个实例(R3.2xLarge)=>12个执行器实例
火花2.1.1读/写EMR上的redshift时出错
尝试从/向redshift读/写(s3中的数据）。但在访问数据帧时会出现奇怪的错误。我可以看到正在创建数据帧，并且它能够访问数据，因为它输出表的列名
将函数应用于火花数据帧列
并将其应用于数据表的一列--这是我希望这样做的：我还没有找到任何简单的方法，正在努力找出如何做到这一点。一定有一个更简单的方法，比将数据rame转换为和RDD，然后从RDD中选择行来获得正确的字段，并将函数映射到所有的值，是吗？创建一个SQL表，然后用一个sparkSQL UDF来完成这个任务，这更简洁吗？
火花启动-从机未连接到主机
当我尝试使用start-slave.sh连接到主服务器时，spark：//master：port如这里所述我正在得到这个错误日志我尝试使用本地ip和本地名称访问主服务器（我设法同时使用和不使用密码ssh到主服务器、用户和root用户）谢了！
CRF模型制作花费了太多时间
我遵循这个链接制作一个CRF模型。我使用以下命令制作模型。模型制作成功，但我的训练数据非常多，花费了太多时间。当我仔细观察系统中发生的事情时。它只使用了我电脑的一个核心我能否以使用计算机多个核心的方式运行此命令？看起来它是作为单个线程实现的。是否支持多线程？如果是，请分享。
火花设备上没有剩余的空间
我有一个EMR作业，它读取大约1TB的数据，过滤它并对它进行重新分区（重新分区后有一些连接），但是我的作业在重新分区时失败，错误为“设备上没有空间”。我很想更改“spark.local.dir”，但没有用。我的工作只在D2.4xLarge实例上完成，但在具有类似内核和RAM的R3.4xLarge实例上失败。我找不到这个问题的根本原因。如有任何帮助，不胜感激。谢谢你抽出时间。
火花窗口聚合vs. Group By/Join性能
与group by/join相比，我对在窗口上运行聚合函数的性能特征感兴趣。在本例中，我对具有自定义帧边界或顺序的窗口函数不感兴趣，而只是作为运行聚合函数的一种方式。请注意，我只对大小适中的数据量的批处理（非流式）性能感兴趣，因此我禁用了以下广播连接。例如，假设我们从以下DataFrame开始：假设我们想要计算每个名称出现的次数，然后为具有匹配名称的行提供该计数。根据执行计划，窗口化看起来
火花2.0.2和2.1.1之间的缓存差异
如何在2.1.1中存档相同的行为？谢谢你。
sbt封装在火花抛出下方错误
我试过在Spark中构建包，它会抛出以下错误。命令：sbt包 hduser@hduser-virtualbox:/usr/local/spark-1.1.0-bin-hadoop1/project$cat>simple.sbt name:=“简单项目” scalaVersion:=“2.9.2” libraryDependencies+=“org.apache.spark”%“spark-core

首页

45

46

47

48

49

50

51

52

53

尾页

最新发布

Soul推荐算法日常实习面经记录一下华为时间线京东广告算法日常实习一面(业务面)京东广告算法日常实习二面(业务面)美团大模型实习一面

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

openwrt - 如何在外网访问家里openWrt IPv6 地址的 web 管理页面？性能优化 - 如何解决WPS加载VSTO插件缓慢的问题？javascript - 为什么我再npm写了一个包用的Common.js导出在页面可以用import引入呢?qt - 请问，Qt开发中： Qt Help Framework 可以有什么用？前端 - uniapp 使用plus.sqlite 数据库查询报错row too big to fit into CursorWindow requiredPos=13,totalRows=14?

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

Pothos SDR Railfrog Happy DOM jQuery Horizon Menu Plugin bdp-platform AFFiNE ValidationJS RSS-Planet

文档资料

CSS 学习笔记 Go 轻松学让深度学习更划算 Git 菜单 vue-element-admin