问题：

分支预测与性能

汪晟睿

2023-03-14

我正在读一本关于计算机体系结构的书，我在这一章讨论分支预测。有一个小练习，我很难把我的头缠绕在它周围。

考虑以下内部for循环

for (j = 0; j < 2; j++)
{
    for (i = 10; i > 0; i = i-1)
        x[i] = x[i] + s
}

------>内循环：

L.D       F0, 0(R1)
ADD.D     F4, F0, F2
S.D       F4, 0(R1)
DADDUI    R1, R1, -8
BNE       R1, R3, Loop

b）1位分支预测缓冲器会改善性能吗（与a相比）？假设第一个预测是“未采取”，并且没有其他分支映射到该条目。

----假设第一个预测是“不采取”，如果预测错误，则1位预测器反转该位。所以它将是NT/T/T。这是否使它具有与问题a）相同的性能？有1个未命中预测。

c）2位分支预测缓冲器会改善性能吗（与a相比）？假设第一个预测是“未采取”，并且没有其他分支映射到该条目。

那是我回答问题的尝试。谁能更详细地解释一下我的答案是对的/错的吗？多谢了。

共有1个答案

太叔涵亮

2023-03-14

因为循环只执行2次

你是说外循环条件，你没有显示asm的那个？我现在只回答问题的一部分，以防这个混乱是你的主要问题。如果这不是你困惑的地方，请留言。

内循环底部的条件分支执行20次，模式为：9xt,1xnt,9xt,1xnt。一个交替的预测器大约有50%的时间是错误的，+/-20%的时间取决于它的开始是正确的还是错误的。

类似资料：

分支目标预测与分支预测

分支目标预测（BTP）与分支预测（BP）不同。我知道BTP会找到分支将跳转到的位置，而BP只是决定可能采取哪个分支。 BTP依赖BP吗，如果BTP不使用BP来预测哪个分支被采用，它怎么可能知道分支的目标呢？我不明白为什么会有这么大的差异？一旦分支被预测为被占用，找到目标并不像读取指令中的地址一样简单吗？
分支预测与分支目标预测优化

我的代码经常调用具有多个（不可预测的）分支的函数。当我分析时，我发现这是一个小瓶颈，大部分CPU时间用于条件JMP。考虑以下两个函数，其中原始函数有多个显式分支。这是一个新函数，我试图在其中删除导致瓶颈的分支。然而，当我分析新代码时，性能只提高了大约20%，而且调用本身(对mem_funcs数组中的一个func)花费了很长时间。第二个变量仅仅是一个更隐含的条件吗，因为CPU仍然无法预测将要
分支预测和分支目标预测之间的性能差异？

我正在编写一些音频代码，其中基本上所有内容都是一个小循环。据我所知，分支预测失败是一个足够大的性能问题，我很难保持代码分支的自由。但是只有这么远的时间才能带我，这让我想知道不同类型的分支。在 c 中，固定目标的条件分支：并且（如果我正确理解这个问题），无条件分支到变量目标：是否存在性能差异？在我看来，如果这两种方法中的一种明显快于另一种，编译器只需将代码转换为匹配即可。对于那些分支预测非常
分支预测vs分支目标预测

如果语句更多地依赖于分支预测，而v表查找更多地依赖分支目标预测，那么
分支目标预测结合分支预测？

编辑：我的困惑出现了，因为通过预测哪个分支，你肯定也在有效地进行目标预测？？这个问题与我关于这个主题的第一个问题有内在联系：分支预测与分支目标预测无限循环语句或语句语句的“then”子句结尾（跳过子句）非虚函数调用从函数返回虚函数调用函数指针调用语句（如果编译为跳转表）语句语句（如果编译成一系列语句）循环条件测试和运算符三元运算符 null 如果我有以下代码： (B
相关分支预测

我有一个与相关预测因子相关的练习，它指出以下几点：答:贝兹·R1，D … D:贝兹·R1，F … F:不是R1的R1 预测工作如下 > 获取当前指令如果是分支，则确定预测器的当前状态并预测分支： a.row 由分支地址确定（在本例中为 A 或 D） b. 列由当前全局移位寄存器确定 c.使用单元格中的值确定来自状态机的预测（当前状态保存在单元格中）执行分支，并确定实际决策（已采取：1，未采取

分支预测与性能

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档