【使用linux 并发命令parallel 加快处理文本文件】-原来是坑爹啊。

赖杰
2023-12-01


1,看到oschina 上面的一篇文章

如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

http://www.oschina.net/news/45477/use-cpu-cores-linux-commands

系统使用的是Redhat 5

parallel的官网:

http://www.gnu.org/software/parallel/

需要使用opensuse的源进行安装

http://software.opensuse.org/download.html?project=home%3Atange&package=parallel

对于 CentOS CentOS-6,请以 根用户 root 运行下面命令:

cd /etc/yum.repos.d/
wget http://download.opensuse.org/repositories/home:tange/CentOS_CentOS-6/home:tange.repo
yum install parallel

对于 CentOS CentOS-5,请以 根用户 root 运行下面命令:

cd /etc/yum.repos.d/
wget http://download.opensuse.org/repositories/home:tange/CentOS_CentOS-5/home:tange.repo
yum install parallel

经测试wc -l 命令 发现在cpu数量是4的时候并没有提高计算时间,反而慢了。

计算1G文件行数,用wc-l花费 1s而使用 parallel后花费 10s

对于200MB的文件也是10倍的关系。

总结:

理论和实际使用还是有差别啊。在4cup的机器上面测试一点 优势也没有啊。

基本上要慢个 10倍以上啊。看来要处理大文件,还是hadoop比较靠谱啊。


转载于:https://my.oschina.net/victorlovecode/blog/344608

 类似资料: