当前位置: 首页 > 知识库问答 >
问题:

从位置分隔的文件启动读取

湛鸿雪
2023-03-14

我有一个问题,我试图拆分一个文件沿着n个字符长度的记录为一个分布式系统。我有分解记录并将其映射到记录级别上的专有名称的功能,但需要从文件到系统,再分解文件并将其以n个长度大小的片段传递给节点进行分割和处理。

共有1个答案

阎晗日
2023-03-14

我已经研究了SparkContext对象的规范,有一种方法可以从Hadoop环境中拉入一个文件,并将其作为字节数组数据帧加载。函数是BytereCords。

 类似资料:
  • 问题内容: 我正在尝试读取以下形式的大文本文件: 我想在文本文件中将此字符串作为一个大的Java字符串读取。这可能吗?我知道使用split方法。 它可以逐行读取它,但我真正需要的是在“ +”号处分割此长文本字符串。之后,我想将其存储为数组,arraylist,列表,… 谁能帮我这个?因为互联网上的所有信息都只是逐行读取文件。提前致谢! 问题答案: 您可以使用或任何IO类读取文件。假设文件中包含该字

  • 我正在为我的大学OOP课程做一个学期项目。我正在做一个餐厅管理系统作为我的项目。 我有一个Order类、Main类和常量存储在一个名为GlobalConstants的类中。 我在这个网站上读到一篇文章说常量应该在相关的类中。我有一个运行在静态块中的方法,从文件中读取订单数据(订单号,时间,项目等),并将其存储在ArrayList(静态和最终)中,该ArrayList可由Main类中的多个方法访问。

  • 问题内容: 有没有办法从Windows上的网络共享位置读取文件? 例如,假设我有这个简单的代码,该代码从 Addons 文件夹中读取一个名为 readMe.txt 的文本文件。 __ 我使用Windows批处理 runme.bat 执行该文件, 仅当我将带有ReadMe.txt,Sample.class,runme.bat文件的Addons文件夹放置在本地驱动器中时,蝙蝠才会运行并执行上述类。 将

  • 我们使用Spark CSV reader读取CSV文件以转换为DataFrame,并在上运行该作业,它在本地模式下运行良好。 我们在中提交spark作业。 错误日志:

  • 问题内容: 我知道如何读取字节,但是如何在Python中读取位? 我只需要从二进制文件中读取5位(而不是8位[1字节]) 有什么想法或方法吗? 问题答案: Python一次只能读取一个字节。您需要读完整的字节,然后从该字节中提取所需的值,例如 或者,如果您想要5个最低有效位,而不是5个最高有效位: 一些其他有用的位操作信息可以在这里找到:http : //wiki.python.org/moin/

  • 问题内容: 我想从Java程序启动文件(文档),并逐步满足以下要求: 方法必须在Mac,Win和Linux系统上适用 我不允许使用“ Runtime.getRuntime()。exec(“ cmd.exe / C +”文件名“); 我正在启动的文件必须是.doc / .docx / .rtf 该文件是在运行时创建的,它是从创建报告得出的结果。有什么好的做法吗? 问题答案: 使用Java桌面API。