当前位置: 首页 > 面试题库 >

如何编辑300 GB文本文件(基因组数据)?

慕麒
2023-03-14
问题内容

我有一个300 GB的文本文件,其中包含超过250k条记录的基因组数据。有些记录有不良数据,我们的基因组程序“
Popoolution”使我们可以用星号注释掉“不良”记录。我们的问题是,我们找不到可以加载数据的文本编辑器,以便可以注释掉不良记录。有什么建议么?我们有Windows和Linux盒子。

更新:更多信息

Popoolution(https://code.google.com/p/popoolation/)程序在达到“不良”记录时崩溃,从而为我们提供了行号,我们可以将其注释掉。具体来说,我们从Perl收到一条消息,内容为“
F#€%&Scaffolding”。该手册建议我们可以仅使用星号注释掉该坏处。遗憾的是,我们将不得不重复多次此过程…

再想一想…有没有一种方法可以让我们将星号添加到行中,而无需立即打开整个文本文件。鉴于我们将不得不重复该过程未知次数,因此这可能非常有用。


问题答案:

根据您的更新:

再想一想…有没有一种方法可以让我们将星号添加到行中,而无需立即打开整个文本文件。鉴于我们将不得不重复该过程未知次数,因此这可能非常有用。

这是一种方法:如果知道行号,则可以在该行的开头添加一个星号,说明:

sed 'LINE_NUMBER s/^/*/' file

看一个例子:

$ cat file
aa
bb
cc
dd
ee
$ sed '3 s/^/*/' file
aa
bb
*cc
dd
ee

如果添加-i,文件将被更新:

$ sed -i '3 s/^/*/' file
$ cat file
aa
bb
*cc
dd
ee

即使我一直认为最好重定向到另一个文件

sed '3 s/^/*/' file > new_file

这样您就可以保留原始文件,并将更新后的文件保存在中new_file



 类似资料:
  • 问题内容: 例如,我有一个名为的文件。其内容是: 所以在这里我想为每个人添加图片链接 如何编写脚本以将密钥添加到每个人并添加person.name.lowercase +“ .png”作为值? 在此过程结束时,将对people.json进行编辑并将其保存到硬件中,而不是内存中。 非常感谢你。 问题答案: 这是一个完整的程序,使用JavaScript(使用node.js),可以完成所需的工作: 作为

  • 我正在使用报表工具编辑。Jasper文件。我正在更改参数的对齐方式左到中心,然后我保存该文件。它还生成“jrxml”文件。在我的Java代码中,我可以传递。jasper位置来打印一些项。但我的改变并不影响,旧的设计保持不变… 帮帮我,我怎么编辑和保存。贾斯珀??? public static JasperPrint CreateFundPrint(Ticket Ticket,HashMap map

  • 问题内容: 我正在尝试在蚂蚁构建过程中向.jad文件添加属性。 蚂蚁有任务要做吗?我需要做的就是在文本文件的末尾添加一行文本,但是我找不到执行此操作的任务。 问题答案: 我相信这会起作用。现在进行测试。

  • 问题内容: 关闭。 此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗? 更新问题,使其成为Stack Overflow的主题。 7年前关闭。 改善这个问题 例如,我有一个名为的文件。其内容是: 所以在这里我想为每个人添加图片链接 如何编写脚本以将密钥添加到每个人并添加person.name.lowercase +“ .png”作为值? 在该过程结束时,将对people.json进行编

  • vi 可以在命令行下编辑文件。 vi 要编辑的文件路径 练习:编辑文件 vi ninghao-project/README.md 这样会打开要编辑的文件,使用方向键可以移动光标。 编辑 想要编辑按一下小 i ,这样会进入到 vi 编辑器的编辑模式。这时你可以编辑文件里的内容,修改完成以后,按 esc 可以退出编辑模式。 搜索 搜索文件里的内容可以按 / ,然后输入要搜索的关键词,n 继续查找,

  • 我想在用户在EditText中键入文本时将文本放入我的应用程序中的某个字符串中,并使用它来生动地在活动上显示它(在不同的视图中...) - 就像谷歌的实时/即时搜索工作一样...