当前位置: 首页 > 知识库问答 >
问题:

Linux上的“快速选择”(或类似)实现?(而不是排序|uniq-c|排序-rn|head-$N)

郝冥夜
2023-03-14

问题:我经常需要查看在特定日志的最后一天中最频繁重复的“模式”是什么。类似于tomcat日志的一小部分:

GET /app1/public/pkg_e/v3/555413242345562/account/stats 401 954 5
GET /app1/public/pkg_e/v3/555412562561928/account/stats 200 954 97
GET /app1/secure/pkg_e/v3/555416251626403/ex/items/ 200 517 18
GET /app1/secure/pkg_e/v3/555412564516032/ex/cycle/items 200 32839 50
DELETE /app1/internal/pkg_e/v3/accounts/555411543532089/devices/bbbbbbbb-cccc-2000-dddd-43a8eabcdaa0 404 - 1
GET /app1/secure/pkg_e/v3/555412465246556/sessions 200 947 40
GET /app1/public/pkg_e/v3/555416264256223/account/stats 401 954 4
GET /app2/provisioning/v3/555412562561928/devices 200 1643 65
...

[root@srv112:~]$ N=6;cat test|awk '{print $1" "$2" ("$3")"}'\
|sed 's/[0-9a-f-]\+ (/%GUID% (/;s/\/[0-9]\{4,\}\//\/%USERNAME%\//'\
|sort|uniq -c|sort -rn|head -$N
      4 GET /app1/public/pkg_e/v3/%USERNAME%/account/stats (401)
      2 GET /app1/secure/pkg_e/v3/%USERNAME%/devices (200)
      2 GET /app1/public/pkg_e/v3/%USERNAME%/account/stats (200)
      2 DELETE /app1/internal/pkg_e/v3/accounts/%USERNAME%/devices/%GUID% (404)
      1 POST /app2/servlet/handler (200)
      1 POST /app1/servlet/handler (200)

如果我想从同一个文件中找出最频繁的用户名-我会这样做:

[root@srv112:~]$ N=4;cat test|grep -Po '(?<=\/)[0-9]{4,}(?=\/)'\
|sort|uniq -c|sort -rn|head -$N
      9 555412562561928
      2 555411543532089
      1 555417257243373
      1 555416264256223

上述方法在小型数据集上效果很好,但对于较大的输入集,排序的性能(复杂性)难以忍受(大约100台服务器,每台服务器约250个日志文件,每台日志文件约1百万行)

尝试解决以下问题:| sort | uniq-c零件可以轻松替换为awk 1-liner,将其转换为:

|awk '{S[$0]+=1}END{for(i in S)print S[i]"\t"i}'|sort -rn|head -$N

但我未能找到标准/简单且内存高效的“快速选择算法”(此处讨论)实现,以优化排序-rn |头-$N部分。我正在寻找GNU二进制文件、RPM、awk 1-liner或一些易于编译的Ansi C代码,我可以将这些代码携带/传播到数据中心,以便:

3   tasty oranges
225 magic balls
17  happy dolls
15  misty clouds
93  juicy melons
55  rusty ideas
...

进入(给定N=3):

225 magic balls
93  juicy melons
55  rusty ideas

其他障碍:对于大型数据集,还面临一些问题:

  • 日志文件位于大约100台服务器的NFS装载卷上,因此将工作并行化并拆分为较小的块是有意义的
  • 上面的awk{S[$0]=1} 需要内存-每当占用16GB内存时,我就会看到它死掉(尽管有48GB的可用RAM和大量的交换…可能是我忽略了一些linux限制)

我当前的解决方案仍然不可靠,也不是最优的(正在进行中),如下所示:

find /logs/mount/srv*/tomcat/2013-09-24/ -type f -name "*_22:*"|\ 
# TODO: reorder 'find' output to round-robin through srv1 srv2 ...
#       to help 'parallel' work with multiple servers at once
parallel -P20 $"zgrep -Po '[my pattern-grep regexp]' {}\
|awk '{S[\$0]+=1}
END{for(i in S)if(S[i]>4)print \"count: \"S[i]\"\\n\"i}'"
# I throw away patterns met less than 5 times per log file
# in hope those won't pop on top of result list anyway - bogus
# but helps to address 16GB-mem problem for 'awk' below
awk '{if("count:"==$1){C=$2}else{S[$0]+=C}}
END{for(i in S)if(S[i]>99)print S[i]"\t"i}'|\
# I also skip all patterns which are met less than 100 times
# the hope that these won't be on top of the list is quite reliable
sort -rn|head -$N
# above line is the inefficient one I strive to address

共有1个答案

顾恺
2023-03-14

我不确定您是否可以接受编写自己的小工具,但您可以轻松地编写一个小工具来替换|排序|uniq-c|排序-rn|head-$N-part with|排序|快速选择$N。该工具的好处是,它只逐行读取第一个排序的输出一次,并且不会在内存中保留太多数据。实际上,它只需要内存来保存当前行和顶部的$N行,然后将其打印出来。

这是源代码quickselect。cpp:

#include <iostream>
#include <string>
#include <map>
#include <cstdlib>
#include <cassert>

typedef std::multimap< std::size_t, std::string, std::greater< std::size_t > > winner_t;
winner_t winner;
std::size_t max;

void insert( int count, const std::string& line )
{
    winner.insert( winner_t::value_type( count, line ) );
    if( winner.size() > max )
        winner.erase( --winner.end() );
}

int main( int argc, char** argv )
{
    assert( argc == 2 );
    max = std::atol( argv[1] );
    assert( max > 0 );
    std::string current, last;
    std::size_t count = 0;
    while( std::getline( std::cin, current ) ) {
        if( current != last ) {
            insert( count, last );
            count = 1;
            last = current;
        }
        else ++count;
    }
    if( count ) insert( count, current );
    for( winner_t::iterator it = winner.begin(); it != winner.end(); ++it )
        std::cout << it->first << " " << it->second << std::endl;
}

编译时使用:

g++ -O3 quickselect.cpp -o quickselect

是的,我知道你要求的是开箱即用的解决方案,但我不知道任何同样有效的方法。而且上面的内容非常简单,几乎没有任何错误的余地(假设您没有弄乱单个数字命令行参数:)

 类似资料:
  • 如果我希望从同一个文件中找出最频繁的用户名,我会这样做: 上面的内容对小型数据集很好,但是对于较大的输入集,的性能(复杂性)是无法忍受的(谈到~100台服务器,每台服务器~250个日志文件,每个日志文件~1MLN行) 尝试解决:部分可以很容易地替换为awk1-liner,将其转换为: (给定n=3): 我可能会抓取示例Java代码并将其移植为以上的stdin格式(顺便说一句--对核心Java中缺少

  • 本文向大家介绍C++实现选择排序(selectionSort),包括了C++实现选择排序(selectionSort)的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了C++实现选择排序的具体代码,供大家参考,具体内容如下 一、思路 每次取剩下没排序的数中的最小数,然后,填到对应位置。(可以使用a[0]位置作为暂存单元) 如下: 二、实现程序 测试数据: 7 20 12 50 70 2

  • 本文向大家介绍C++实现选择性排序(SelectionSort),包括了C++实现选择性排序(SelectionSort)的使用技巧和注意事项,需要的朋友参考一下 “选择性排序”是数列排序的算法之一。 其思路引点来源于经典的“可乐雪碧问题” “现有两杯饮料,一杯是雪碧,一杯是可乐,试问如何可以将两杯饮料交换?” “答:最简单的解决方案就是利用一个空杯,创造一个缓存区。” 选择性排序就是利用线性搜索

  • 在处理接近排序的数组时,哪种算法的快速排序或合并排序性能更好?为什么?我意识到,在这种情况下,其他算法可能会比这些算法表现得更好。

  • 我试图理解快速排序机制,但到目前为止,我还不能弄清楚它。根据维基百科,步骤是: 1.从列表中选择一个元素,称为pivot。 这是代码: 除了一件事,对我来说一切都很清楚。为什么分区函数返回而不是?

  • 快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要 Ο(nlogn) 次比较。在最坏状况下则需要 Ο(n2) 次比较,但这种状况并不常见。事实上,快速排序通常明显比其他 Ο(nlogn) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。 快速排序使用分治法(Divide and conquer)策略来把一个串行(list)分为两