问题：

Linux上的“快速选择”（或类似的）实现？（而不是sortuniq-csort-rnhead-$n)

龙玄天

2023-03-14

GET /app1/public/pkg_e/v3/555413242345562/account/stats 401 954 5
GET /app1/public/pkg_e/v3/555412562561928/account/stats 200 954 97
GET /app1/secure/pkg_e/v3/555416251626403/ex/items/ 200 517 18
GET /app1/secure/pkg_e/v3/555412564516032/ex/cycle/items 200 32839 50
DELETE /app1/internal/pkg_e/v3/accounts/555411543532089/devices/bbbbbbbb-cccc-2000-dddd-43a8eabcdaa0 404 - 1
GET /app1/secure/pkg_e/v3/555412465246556/sessions 200 947 40
GET /app1/public/pkg_e/v3/555416264256223/account/stats 401 954 4
GET /app2/provisioning/v3/555412562561928/devices 200 1643 65
...

[root@srv112:~]$ N=6;cat test|awk '{print $1" "$2" ("$3")"}'\
|sed 's/[0-9a-f-]\+ (/%GUID% (/;s/\/[0-9]\{4,\}\//\/%USERNAME%\//'\
|sort|uniq -c|sort -rn|head -$N
      4 GET /app1/public/pkg_e/v3/%USERNAME%/account/stats (401)
      2 GET /app1/secure/pkg_e/v3/%USERNAME%/devices (200)
      2 GET /app1/public/pkg_e/v3/%USERNAME%/account/stats (200)
      2 DELETE /app1/internal/pkg_e/v3/accounts/%USERNAME%/devices/%GUID% (404)
      1 POST /app2/servlet/handler (200)
      1 POST /app1/servlet/handler (200)

如果我希望从同一个文件中找出最频繁的用户名，我会这样做：

[root@srv112:~]$ N=4;cat test|grep -Po '(?<=\/)[0-9]{4,}(?=\/)'\
|sort|uniq -c|sort -rn|head -$N
      9 555412562561928
      2 555411543532089
      1 555417257243373
      1 555416264256223

上面的内容对小型数据集很好，但是对于较大的输入集，sortuniq-csort-rnhead-$n的性能（复杂性）是无法忍受的（谈到~100台服务器，每台服务器~250个日志文件，每个日志文件~1MLN行）

尝试解决:sortuniq-c部分可以很容易地替换为awk1-liner，将其转换为：

|awk '{S[$0]+=1}END{for(i in S)print S[i]"\t"i}'|sort -rn|head -$N

3   tasty oranges
225 magic balls
17  happy dolls
15  misty clouds
93  juicy melons
55  rusty ideas
...

（给定n=3):

225 magic balls
93  juicy melons
55  rusty ideas

我可能会抓取示例Java代码并将其移植为以上的stdin格式（顺便说一句--对核心Java中缺少.quickselect(...)感到惊讶）--但是到处部署java-runtime的需求并不吸引人。我也许也可以获取它的示例（基于数组的）C代码片段，然后将其调整到上面的stdin格式，然后测试并修复泄漏等一段时间。甚至可以在awk中从头实现。但是（！）-超过1%的人可能会定期面临这个简单的需求--应该有一个标准的（预先测试的）实现？？希望...也许我用了错误的关键词来查找...

其他障碍：在处理大型数据集时还面临几个问题：

null

我目前的解决方案仍然不可靠，也不是最优的（正在进行中）看起来像：

find /logs/mount/srv*/tomcat/2013-09-24/ -type f -name "*_22:*"|\ 
# TODO: reorder 'find' output to round-robin through srv1 srv2 ...
#       to help 'parallel' work with multiple servers at once
parallel -P20 $"zgrep -Po '[my pattern-grep regexp]' {}\
|awk '{S[\$0]+=1}
END{for(i in S)if(S[i]>4)print \"count: \"S[i]\"\\n\"i}'"
# I throw away patterns met less than 5 times per log file
# in hope those won't pop on top of result list anyway - bogus
# but helps to address 16GB-mem problem for 'awk' below
awk '{if("count:"==$1){C=$2}else{S[$0]+=C}}
END{for(i in S)if(S[i]>99)print S[i]"\t"i}'|\
# I also skip all patterns which are met less than 100 times
# the hope that these won't be on top of the list is quite reliable
sort -rn|head -$N
# above line is the inefficient one I strive to address

共有1个答案

魏高邈

2023-03-14

我不确定编写自己的小工具是否可以接受，但您可以轻松地编写一个小工具，将sortuniq-csort-rnhead-$n-part替换为sortquickselect$n。该工具的好处是，它只读取第一个排序的输出一次，而且不需要在内存中保留太多数据。实际上，它只需要内存来保存当前行和顶部的$n行，然后打印这些行。

以下是QuickSelect.cpp:

#include <iostream>
#include <string>
#include <map>
#include <cstdlib>
#include <cassert>

typedef std::multimap< std::size_t, std::string, std::greater< std::size_t > > winner_t;
winner_t winner;
std::size_t max;

void insert( int count, const std::string& line )
{
    winner.insert( winner_t::value_type( count, line ) );
    if( winner.size() > max )
        winner.erase( --winner.end() );
}

int main( int argc, char** argv )
{
    assert( argc == 2 );
    max = std::atol( argv[1] );
    assert( max > 0 );
    std::string current, last;
    std::size_t count = 0;
    while( std::getline( std::cin, current ) ) {
        if( current != last ) {
            insert( count, last );
            count = 1;
            last = current;
        }
        else ++count;
    }
    if( count ) insert( count, current );
    for( winner_t::iterator it = winner.begin(); it != winner.end(); ++it )
        std::cout << it->first << " " << it->second << std::endl;
}

要用：

g++ -O3 quickselect.cpp -o quickselect

类似资料：

Linux上的“快速选择”（或类似）实现？（而不是排序|uniq-c|排序-rn|head-$N）

问题：我经常需要查看在特定日志的最后一天中最频繁重复的“模式”是什么。类似于tomcat日志的一小部分：如果我想从同一个文件中找出最频繁的用户名-我会这样做：上述方法在小型数据集上效果很好，但对于较大的输入集，排序的性能（复杂性）难以忍受（大约100台服务器，每台服务器约250个日志文件，每台日志文件约1百万行）尝试解决以下问题：零件可以轻松替换为awk 1-liner，将其转换为：但我未
快速的强类型选择器

问题内容：我想知道我们可以快速实现强类型选择器吗？例如，如果稍后在我的视图控制器中有一个方法命名，当我们将该方法作为目标添加到某个按钮时，我们可以说问题答案： Swift 2.2具有使用语法编译时检查的选择器，请参阅https://swift.org/blog/swift-2-2-new- features/ 以及将Swift与Cocoa和Objective-C一起使用（Swift 2.2）
原则22：选择定义并实现接口，而不是基类

抽象基类提供的是类继承结构的公共祖先。接口描述实现类的原子级功能。两者都更有千秋，却不尽相同。接口是一种合约式的设计：实现接口的类必须提供所有期望函数的实现。抽象基类提供一组相关类的共有抽象。这是老套的，它是这样的：继承是“ is a ”的关系，接口是“ behavies like ”的关系。这些陈词滥调已经说了很久了，因为它们的结构说明了彼此的不同：基类描述的是对象是什么，接口描述的是对象的表现
为什么选择结构而不是类？

在使用来自Java背景的Swift时，为什么要选择结构而不是类呢？似乎它们是一样的，结构提供的功能较少。那为什么选择它呢？
是否有类似Linux的WMI？

问题内容：我喜欢整个WMI概念，并且可以在Linux（在某些脚本中）中真正使用它。Linux系统有类似的东西吗？问题答案：并不是的。您是否正在使用WMI获取系统参数，查询过程，更改配置或监视系统事件，等等？内核通过和文件系统公开了许多信息和可调旋钮。没有查询语言，只有目录和文件的组织层次结构。其中一些文件是只读，读写或只写的。其中一些人有能力。有些服务可能具有动态自定义客户查询和更新配置
原则3：选择 is 或 as 而不是强制类型转换

当你使用 C# ，你就应该知道它是强类型语言。大多时候，这总是一个好事。强类型意味着编译器可以发现你的代码中的类型是否匹配。也可以减少运行时的类型检查。但是有些时候，类型检查是不可避免的。很多时候，函数的调用参数是 object ，因为在框架中定义好了函数原型。你很有可能要进行强制类型转换（cast）为其他类型的类或接口。你可以用两种选择：使用 as 操作符或者强制类型转换。在转换之前，你需要进行

Linux上的“快速选择”（或类似的）实现？（而不是sortuniq-csort-rnhead-$n)

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档