关于c ++：如何通过IO时序测量找到L1缓存行大小的大小？

How to find the size of the L1 cache line size with IO timing measurements?

作为学校作业，我需要找到一种方法来获取一级数据缓存线的大小，而不需要读取配置文件或使用API调用。应该使用内存访问读/写时间来分析和获取此信息。那我该怎么做呢？

在对分配的另一部分进行不完整的尝试时，为了找到缓存的级别和大小，我有：

1
2
3

for (i = 0; i < steps; i++) {
arr[(i * 4) & lengthMod]++;
}

我在想也许我只需要改变第2行，(i * 4)部分？所以一旦我超过了缓存线的大小，我可能需要替换它，这需要一些时间？但它是如此简单吗？所需的块可能已经在某个内存中了？或者说，我仍然可以依靠这样一个事实：如果我有一个足够大的steps，它仍然可以相当准确地计算出来？

更新

这是一个关于Github的尝试…下面主要部分

1
2
3
4
5
6
7
8
9
10
11

// repeatedly access/modify data, varying the STRIDE
for (int s = 4; s <= MAX_STRIDE/sizeof(int); s*=2) {
start = wall_clock_time();
for (unsigned int k = 0; k < REPS; k++) {
data[(k * s) & lengthMod]++;
}
end = wall_clock_time();
timeTaken = ((float)(end - start))/1000000000;
printf("%d, %1.2f
", s * sizeof(int), timeTaken);
}

问题是时间上似乎没有太大的差别。FYI。因为它用于一级缓存。我的大小=32K(数组大小)

相关讨论

可能HW预取会计算出"n"的步骤，并将在您之前加载。
@auselen，是否可以暂时禁用hw预取？
我可以加1(0)吗？或者你的意思是声明一个int数组？int将是4字节tho？
我认为这个想法应该有效，但是尝试以随机方式采取n个步骤来避免预取，例如n+(r*c)，其中c是大于可能缓存线大小的2的幂值，r是随机值。您需要确保n+(r*c)在您的数组中，可能使用的是modulo。
我想做一些假设也是公平的，比如，缓存线的大小必须是2的幂，至少32个字节，最大512个字节。
@在写这个答案之前，我也考虑了预取的效果，但是我仍然建议OP首先尝试这个方法，看看结果如何。这个基准的内部循环应该编译成~4条指令(如果他使用sentinels，则编译成~3条)。如果每4条指令中有1条缓存未命中，我认为即使预取也不会对您有太大帮助。其他比我更了解CPU硬件的读者可以在这里免费纠正我！
@杰蒙，当然可以，你可以加1[0]s。为什么不呢？总和可以是int或char。
隐马尔可夫模型。。。这是我在Github上的尝试。结果显示，所有时间~0.5s之间没有太大的差异。
你的data数组只有32kb，所以整个东西可以放在一级缓存中。请注意我上面说的第一件事："分配一个大字符数组。确保它太大，无法容纳在一级或二级缓存中。"。
我修改了你的代码并在我的系统上运行。结果：4，0.02 8，0.01 16，0.03 32，0.10 64，0.23 128，0.30 256，0.31 512，0.27。最大的跳转似乎是从32字节到64字节，所以我猜测我的缓存线大小可能是64字节。互联网搜索证实了这一点！
@洁明，我现在没有发布我的代码，因为你将通过自己解决代码问题来了解更多信息。在你弄清楚之后，我可以把我的代码发送给你进行比较。
起初我也在考虑分配一个大数组，但是问题是一级缓存线的大小，而不是二级缓存线的大小，那么为什么要分配一个大数组呢？它是否不适合缓存，从而使用L2/3？嗯，或者可能会部分使用l1？
@Jiewmeng，你已经做过的实验显示了为什么你需要分配一个大数组。如果整个数组适合一级缓存，那么在外部循环的第一次迭代时，它将全部加载到缓存中，在随后的迭代中，不会有遗漏。所以你的结果是一样的。本练习的全部要点是找到内部循环的每个迭代都将导致一级缓存丢失的步幅。要做到这一点，您需要使数组足够大，在到达末尾时，开始部分已经从缓存中移出。
顺便说一句，不需要您的"modulo"代码，它会稀释结果(取决于modulo值，它甚至可能使测试无效)。只要使数组足够大，对于内部循环的每一次运行，您就可以在不跑出末端的情况下线性地跨过它。
嗯，但我需要它来保持对数据数组边界的引用？否则我会被分割错误
是否再次更新了GitHub上的源。结果似乎还不清楚。我确实理解，如果MAX_STRIDE变得太大，那么&可能会导致对仍在缓存中的内存位置的引用，但我认为不会发生这种情况……与最大步幅(字节)相比，我的大小(MB)非常大
我用了128MB的大小，并使重复足够小，它永远不会跑完最后得到一个分割错误，即使有最大的步幅。
注意，如果测试按预期工作，那么当步幅等于(而不是超过)缓存线大小时，您应该在测量的时间内得到一个跳转。
我还运行了gcc，对(-O5)进行了优化，这可能会使您的内部循环更为紧张，从而使缓存未命中的效果更加明显。消除你的模块也会收紧内环。你不需要在内部循环中使用乘法(你能看到没有乘法如何达到同样的效果吗？)，但希望编译器会为您优化它。
让我们在聊天中继续讨论
@杰蒙，我没能在聊天室找到你。我建议你把你的电子邮件地址发给我。
我觉得这样不行。用这种方法你会发现关键的跨距，但是你仍然需要每一组的行数来计算行的大小。
@Luchiangrigore，这个想法与关键的步伐无关。其思想是这样的：如果您以小于缓存线大小的步骤遍历内存，那么在缓存未命中之后，下一次读取肯定是缓存命中。假设每行是32个字节，那么您将以10个字节的步幅跨越内存。您访问32字节区域的第一个字节，这将导致整个32字节被读取到缓存中。现在，接下来的2次读取都是保证缓存命中。如果以行大小或更大的单位进行跨步，则每次读取都将落在不同的行上，因此不会得到这些缓存命中。
@Luciangrigore：继续——我建议操作人员使用一个大于l1或l2缓存的数组。通过反复跨过一个大数组，OP可以保证一旦一条缓存线通过，就可以保证在外循环的下一次迭代中将其从缓存中删除(不考虑集关联性、临界跨距等问题)。
@Luchiangrigore：步幅不是造成冲突遗漏，而是看到一个步幅是缓存线大小的两倍，只触及缓存线数量的一半，而小于缓存线大小的步幅则得益于空间位置。HW预取可能会混淆这一点，特别是如果相邻的线路预取浪费带宽，在64B线路的系统上，用step=128B填充跳过的线路。(在Intel CPU上，当有大量未完成的请求时，HW预取应该会受到限制，因此如果让编译器生成正确的ASM，这仍然可以工作…)

看看校准器，所有的作品都有版权，但源代码是免费的。从它的文档思想到计算缓存线的大小，听起来比这里已经说过的要受教育得多。

The idea underlying our calibrator tool is to have a micro benchmark whose performance only depends
on the frequency of cache misses that occur. Our calibrator is a simple C program, mainly a small loop
that executes a million memory reads. By changing the stride (i.e., the offset between two subsequent
memory accesses) and the size of the memory area, we force varying cache miss rates.

In principle, the occurance of cache misses is determined by the array size. Array sizes that fit into
the L1 cache do not generate any cache misses once the data is loaded into the cache. Analogously,
arrays that exceed the L1 cache size but still fit into L2, will cause L1 misses but no L2 misses. Finally,
arrays larger than L2 cause both L1 and L2 misses.

The frequency of cache misses depends on the access stride and the cache line size. With strides
equal to or larger than the cache line size, a cache miss occurs with every iteration. With strides
smaller than the cache line size, a cache miss occurs only every n iterations (on average), where n is
the ratio cache
line
size/stride.

Thus, we can calculate the latency for a cache miss by comparing the execution time without
misses to the execution time with exactly one miss per iteration. This approach only works, if
memory accesses are executed purely sequential, i.e., we have to ensure that neither two or more load
instructions nor memory access and pure CPU work can overlap. We use a simple pointer chasing
mechanism to achieve this: the memory area we access is initialized such that each load returns the
address for the subsequent load in the next iteration. Thus, super-scalar CPUs cannot benefit from
their ability to hide memory access latency by speculative execution.

To measure the cache characteristics, we run our experiment several times, varying the stride and
the array size. We make sure that the stride varies at least between 4 bytes and twice the maximal
expected cache line size, and that the array size varies from half the minimal expected cache size to
at least ten times the maximal expected cache size.

< /块引用>
我不得不对#include"math.h"进行注释，以便编译它，然后它找到了我笔记本电脑的缓存值。我也无法查看生成的PostScript文件。

相关讨论

对于我的机器(haswell)，校准器错误地预测了线的大小，而@alexd的方法也不起作用。问题在于预取器，它能够猜测持续的步幅模式并欺骗实验。我想这可以用禁用预取器来衡量

您可以在汇编程序中使用CPUID函数，尽管它不可移植，但它会提供您想要的东西。

For Intel Microprocessors, the Cache Line Size can be calculated by multiplying bh by 8 after calling cpuid function 0x1.

For AMD Microprocessors, the data Cache Line Size is in cl and the instruction Cache Line Size is in dl after calling cpuid function 0x80000005.

我从这篇文章中得到了这个。

我认为您应该编写程序，它将以随机顺序遍历数组，而不是直接执行，因为现代进程执行硬件预取。例如，创建int数组，其中的值将是下一个单元格的编号。一年前我做过类似的节目http://pastebin.com/9mfscs9z对不起，我英语不好，我不会说英语。

如果你陷在泥里不能出去，看看这里。
有手册和代码可以解释如何执行您的要求。代码的质量也相当高。看看"子程序库"。
代码和手册基于x86处理器。

参见如何实现memtest86。他们以某种方式测量和分析数据传输率。速率变化点对应于l1、l2和可能的l3缓存大小。

相关讨论

较大数组的内存带宽衰减可以告诉您L1D/L2/L3的总大小，但这个问题是询问每行的大小，即缓存块大小。

只是一张便条。
缓存线大小在少数ARM Cortex家族中是可变的，在执行期间可以更改，而不需要向当前程序发出任何通知。

我认为这应该足够给一个使用一定内存的操作计时了。然后继续增加操作使用的内存(例如操作数)。当操作性能严重下降时，你就找到了极限。
我只需读取大量字节而不打印它们(打印会严重影响性能，从而成为瓶颈)。在读取时，计时应该直接与读取的字节数成比例，直到数据不再适合l1，然后您将获得性能影响。
您还应该在程序开始时和开始计算时间之前分配一次内存。

相关讨论

他的任务不是查找一级缓存的大小，而是查找一级缓存线的大小。