当前位置: 首页 > 面试题库 >

grep针对大型文件的大型列表

滑令
2023-03-14
问题内容

我目前正在尝试grep针对更大的csv文件(3.000.000行)使用大量的ID(〜5000)。

我想要所有包含ID文件中ID的csv行。

我的幼稚方法是:

cat the_ids.txt | while read line
do
  cat huge.csv | grep $line >> output_file
done

但这需要永远!

有没有更有效的方法来解决这个问题?


问题答案:

尝试

grep -f the_ids.txt huge.csv

另外,由于您的模式似乎是固定的字符串,因此提供-F选项可能会加快速度grep

   -F, --fixed-strings
          Interpret PATTERN as a  list  of  fixed  strings,  separated  by
          newlines,  any  of  which is to be matched.  (-F is specified by
          POSIX.)


 类似资料:
  • 问题内容: 我们可以仅在特定文件(html文件)中的某些文件夹中递归搜索术语(例如“ onblur”)吗? 这什么也不会返回。但, 从所有可用文件中返回搜索结果,例如text(“。txt”)、. mako,.jinja等。 问题答案: 这也可能对您有帮助:递归grep某些文件类型| commandlinefu.com 。 该命令是: 在您的情况下,它是:

  • 我们需要一个能够存储大量大型csv文件(1000个文件,每天每个1GB)的系统。 还有一些客户端应该连接到此系统并下载csv文件 系统应该容错和可扩展... 我考虑使用Hadoop集群并在其上运行FTP服务器。。。 Hadoop适合这个项目吗? 如果没有,什么技术是合适的?

  • 问题内容: 我正在研究可访问API的cron脚本,可接收JSON文件(大量对象)并将其存储在本地。完成后,另一个脚本需要解析下载的JSON文件,并将每个对象插入MySQL数据库。 我目前正在使用和。这将尝试在尝试处理之前将整个文件读入内存。除了我的JSON文件通常在250MB-1GB +之间的事实之外,这将很好。我知道我可以增加我的PHP内存限制,但这在我看来似乎并不是最大的答案。我知道我可以运行

  • 问题内容: 我有一个很大的xml文件,其中包含许多子元素。我希望能够运行一些xpath查询。我尝试在Java中使用vtd- xml,但有时会出现内存不足错误,因为xml太大,无法容纳到内存中。是否有替代方法来处理如此大的xml。 问题答案: 尝试http://code.google.com/p/jlibs/wiki/XMLDog 它使用sax执行xpaths,而无需创建xml文档的内存表示形式。

  • 问题内容: 我是一名学生,正在进行一些涉及数据挖掘的研究。我有几个自愿的“节点”服务器,这些服务器收集并生成SQL文件供我导入到我的服务器上并进行分析。 问题是,这些文件很大,我需要一种快速导入它们的方法。网络最近扩展了,现在硬盘上没有足够的吞吐量供MySQL控制台将其导入时导入。时间很重要- 进行研究存在最后期限,我想积极主动地收集尽可能多的时间,并且没有等待插入的队列。 我想知道是否有更好的方

  • 问题内容: 我正在创建一个Android应用程序,该应用程序应将Json从文件或URL解析为jsonarray和jsonobjects。问题是我的json是3.3 mb,当我使用一个简单的代码时,是这样的:(现在无法访问我的真实代码,因为我正在工作,从教程中复制了一些代码;因此其中可能有一些错误) (假设我已经有我的输入流内容) 当我在Android设备上运行此代码时,将字符串解析为jsonArr