当前位置：首页 > 面试题库 >

grep针对大型文件的大型列表

滑令

2023-03-14

问题内容：

我目前正在尝试grep针对更大的csv文件（3.000.000行）使用大量的ID（〜5000）。

我想要所有包含ID文件中ID的csv行。

我的幼稚方法是：

cat the_ids.txt | while read line
do
  cat huge.csv | grep $line >> output_file
done

但这需要永远！

有没有更有效的方法来解决这个问题？

问题答案：

尝试

grep -f the_ids.txt huge.csv

另外，由于您的模式似乎是固定的字符串，因此提供-F选项可能会加快速度grep。

   -F, --fixed-strings
          Interpret PATTERN as a  list  of  fixed  strings,  separated  by
          newlines,  any  of  which is to be matched.  (-F is specified by
          POSIX.)

类似资料：

在Linux上针对特定文件类型递归grep

问题内容：我们可以仅在特定文件（html文件）中的某些文件夹中递归搜索术语（例如“ onblur”）吗？这什么也不会返回。但，从所有可用文件中返回搜索结果，例如text（“。txt”）、. mako，.jinja等。问题答案：这也可能对您有帮助：递归grep某些文件类型| commandlinefu.com 。该命令是：在您的情况下，它是：
对大型文件使用Hadoop上的FTP

我们需要一个能够存储大量大型csv文件（1000个文件，每天每个1GB）的系统。还有一些客户端应该连接到此系统并下载csv文件系统应该容错和可扩展... 我考虑使用Hadoop集群并在其上运行FTP服务器。。。 Hadoop适合这个项目吗？如果没有，什么技术是合适的？
解析大型JSON文件[

问题内容：我正在研究可访问API的cron脚本，可接收JSON文件（大量对象）并将其存储在本地。完成后，另一个脚本需要解析下载的JSON文件，并将每个对象插入MySQL数据库。我目前正在使用和。这将尝试在尝试处理之前将整个文件读入内存。除了我的JSON文件通常在250MB-1GB +之间的事实之外，这将很好。我知道我可以增加我的PHP内存限制，但这在我看来似乎并不是最大的答案。我知道我可以运行
处理大型xml文件

问题内容：我有一个很大的xml文件，其中包含许多子元素。我希望能够运行一些xpath查询。我尝试在Java中使用vtd- xml，但有时会出现内存不足错误，因为xml太大，无法容纳到内存中。是否有替代方法来处理如此大的xml。问题答案：尝试http://code.google.com/p/jlibs/wiki/XMLDog 它使用sax执行xpaths，而无需创建xml文档的内存表示形式。
导入大型SQL文件

问题内容：我是一名学生，正在进行一些涉及数据挖掘的研究。我有几个自愿的“节点”服务器，这些服务器收集并生成SQL文件供我导入到我的服务器上并进行分析。问题是，这些文件很大，我需要一种快速导入它们的方法。网络最近扩展了，现在硬盘上没有足够的吞吐量供MySQL控制台将其导入时导入。时间很重要- 进行研究存在最后期限，我想积极主动地收集尽可能多的时间，并且没有等待插入的队列。我想知道是否有更好的方
Android：解析大型JSON文件

问题内容：我正在创建一个Android应用程序，该应用程序应将Json从文件或URL解析为jsonarray和jsonobjects。问题是我的json是3.3 mb，当我使用一个简单的代码时，是这样的：（现在无法访问我的真实代码，因为我正在工作，从教程中复制了一些代码；因此其中可能有一些错误）（假设我已经有我的输入流内容）当我在Android设备上运行此代码时，将字符串解析为jsonArr

grep针对大型文件的大型列表

相关阅读

相关文章

相关问答

相关工具

相关文档