关于C++：为什么在独立循环中元素的添加比组合循环快得多？

Why are elementwise additions much faster in separate loops than in a combined loop?

我们a1，b1，c1，和d1点到广东的记忆和我的数值代码有下面的核环。＜／P >

1
2
3
4
5
6

const int n = 100000;

for (int j = 0; j < n; j++) {
a1[j] += b1[j];
c1[j] += d1[j];
}

这个环是executed 10000时报通过另一个for外环。它的速度上，改变了我的代码：＜／P >

1
2
3
4
5
6
7

for (int j = 0; j < n; j++) {
a1[j] += b1[j];
}

for (int j = 0; j < n; j++) {
c1[j] += d1[j];
}

编译的多发性硬化的Visual C + +和10.0全优化和SSE2 ''enabled for是一个32位英特尔酷睿2核心(64)，第一个实例把5.5和nbsp；秒和双回路以把只读1.9和nbsp；秒。我的问题是：(请参阅我的提问的问题的？＜／P >

PS：我是不担心，如果这helps：＜／P >

disassembly的第一环，基本上就像这样(这是五块重复约时报》在全程序)：＜／P >

1
2
3
4
5
6
7
8
9
10
11

movsd xmm0,mmword ptr [edx+18h]
addsd xmm0,mmword ptr [ecx+20h]
movsd mmword ptr [ecx+20h],xmm0
movsd xmm0,mmword ptr [esi+10h]
addsd xmm0,mmword ptr [eax+30h]
movsd mmword ptr [eax+30h],xmm0
movsd xmm0,mmword ptr [edx+20h]
addsd xmm0,mmword ptr [ecx+28h]
movsd mmword ptr [ecx+28h],xmm0
movsd xmm0,mmword ptr [esi+18h]
addsd xmm0,mmword ptr [eax+38h]

每个环的双回路以产生的这段代码(下面的是重复上面的三块：《纽约时报》) ＜／P >

1
2
3
4
5
6
7
8
9
10
11

addsd xmm0,mmword ptr [eax+28h]
movsd mmword ptr [eax+28h],xmm0
movsd xmm0,mmword ptr [ecx+20h]
addsd xmm0,mmword ptr [eax+30h]
movsd mmword ptr [eax+30h],xmm0
movsd xmm0,mmword ptr [ecx+28h]
addsd xmm0,mmword ptr [eax+38h]
movsd mmword ptr [eax+38h],xmm0
movsd xmm0,mmword ptr [ecx+30h]
addsd xmm0,mmword ptr [eax+40h]
movsd mmword ptr [eax+40h],xmm0

该问题被淘汰是不relevance，为行为severely depends的大小之翼(N)和CPU的缓存。所以，如果有进一步的兴趣，我rephrase的问题：＜／P >

你可以提供一些洞察入固的细节，那铅对不同的高速缓存的行为作为插图由五个地区是下面的图吗？＜／P >

它也可能是有趣的点出的差异之间的CPU /缓存architectures，用类似的方法提供一个图，这些CPU。＜／P >

PPS：这里是全码。它使用的Tick_CountTBB高分辨率为正时，这可以通过定义的残疾人不TBB_TIMING宏观调控：＜／P >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144

#include <iostream>
#include <iomanip>
#include <cmath>
#include <string>

//#define TBB_TIMING

#ifdef TBB_TIMING
#include <tbb/tick_count.h>
using tbb::tick_count;
#else
#include <time.h>
#endif

using namespace std;

//#define preallocate_memory new_cont

enum { new_cont, new_sep };

double *a1, *b1, *c1, *d1;

void allo(int cont, int n)
{
switch(cont) {
case new_cont:
a1 = new double[n*4];
b1 = a1 + n;
c1 = b1 + n;
d1 = c1 + n;
break;
case new_sep:
a1 = new double[n];
b1 = new double[n];
c1 = new double[n];
d1 = new double[n];
break;
}

for (int i = 0; i < n; i++) {
a1[i] = 1.0;
d1[i] = 1.0;
c1[i] = 1.0;
b1[i] = 1.0;
}
}

void ff(int cont)
{
switch(cont){
case new_sep:
delete[] b1;
delete[] c1;
delete[] d1;
case new_cont:
delete[] a1;
}
}

double plain(int n, int m, int cont, int loops)
{
#ifndef preallocate_memory
allo(cont,n);
#endif

#ifdef TBB_TIMING
tick_count t0 = tick_count::now();
#else
clock_t start = clock();
#endif

if (loops == 1) {
for (int i = 0; i < m; i++) {
for (int j = 0; j < n; j++){
a1[j] += b1[j];
c1[j] += d1[j];
}
}
} else {
for (int i = 0; i < m; i++) {
for (int j = 0; j < n; j++) {
a1[j] += b1[j];
}
for (int j = 0; j < n; j++) {
c1[j] += d1[j];
}
}
}
double ret;

#ifdef TBB_TIMING
tick_count t1 = tick_count::now();
ret = 2.0*double(n)*double(m)/(t1-t0).seconds();
#else
clock_t end = clock();
ret = 2.0*double(n)*double(m)/(double)(end - start) *double(CLOCKS_PER_SEC);
#endif

#ifndef preallocate_memory
ff(cont);
#endif

return ret;
}

void main()
{
freopen("C:\\test.csv","w", stdout);

char *s ="";

string na[2] ={"new_cont","new_sep"};

cout <<"n";

for (int j = 0; j < 2; j++)
for (int i = 1; i <= 2; i++)
#ifdef preallocate_memory
cout << s << i <<"_loops_" << na[preallocate_memory];
#else
cout << s << i <<"_loops_" << na[j];
#endif

cout << endl;

long long nmax = 1000000;

#ifdef preallocate_memory
allo(preallocate_memory, nmax);
#endif

for (long long n = 1L; n < nmax; n = max(n+1, long long(n*1.2)))
{
const long long m = 10000000/n;
cout << n;

for (int j = 0; j < 2; j++)
for (int i = 1; i <= 2; i++)
cout << s << plain(n, m, j, i);
cout << endl;
}
}

(它的交往中触发器/ s的方法的不同的值n。) ＜／P >

enter image description here ＜／P >

相关讨论

可能是每次访问物理内存时，在搜索物理内存时速度变慢的操作系统，并且在辅助访问同一内存块时具有类似缓存的功能。
您是否使用优化进行编译？看起来有很多关于o2的asm代码…
一段时间前我问过类似的问题。或者答案可能有感兴趣的信息。
可惜你没有显示代码地址。也很关键。
只是要挑剔一点，这两个代码片段由于指针可能重叠而不是等效的。c99有用于这种情况的restrict关键字。我不知道MSVC有没有类似的东西。当然，如果这是问题所在，那么SSE代码就不正确。
@用户578832我刚看到你问题的编辑。请给我一些时间，回答你在5个地区的新问题。
@用户578832仅供参考。对问题进行了9次编辑。在下一次编辑时，它将转到社区维基。所以不要再编辑了。(除非那是你想要的)
这可能与内存别名有关。在一个循环中，d1[j]可能与a1[j]化名，因此编译器可能会退出一些内存优化。但如果你把写的东西分成两个循环，就不会发生这种情况。
这些图表是用Excel手工制作的，数据来自我在这里发布的代码(pastebin.com/ivzkutzg)。但过了一段时间，我切换到gnuplot，因为它可以以更自动的方式使用。
我敢打赌，L1D、L1D_CACHE_ST、L2_RQSTS和L2_DATA_RQSTS的性能计数器将会显示出来。请参阅Intel Core i7(Nehalem)事件。
也许使用restrict，编译器会将循环本身分隔开。循环分离是优化器做的事情。
这将很大程度上取决于CPU的缓存和硬件预取器的配置方式，以及系统RAM带宽…在某些体系结构中，一个可能比另一个更好地工作。你可能会发现我的话很有用，是关于那些事情的。它还涉及到simd的主题。YouTube.com/观看？v=nsf2_6kxu同样，您的代码没有模拟化：编译器只生成标量SSE指令。如果强制编译器向量化(我从来没有这样做)，或者仅仅使用内部函数(最初很难学习)，它可能会更快。
@用户510306：两个ASM输出都只是加载/加载+添加/存储。restrict可以为两个版本启用自动矢量化，也可以启用软件管道(在使用之前加载多个指令，因此重新排序缓冲区没有等待加载数据的指令进行备份)。总之，使用restrict是一个很好的主意，但除了缓存效果外，两个ASM版本都可以应具有同等的性能。
显然，这里的每个人都更感兴趣的是向每个人展示他们有多聪明，而不是坐下来写他们自己的基准来看看他们是否能复制运营结果。正如我下面的代码所证明的，在尝试复制操作结果之前，这个问题是由跳到结论而产生的无知的、无意义的。往前走，这里没什么可看的，只是很多离题的误导伪装成知识。
@洛克特洛伊，在你到处指责人们编造东西之前，你为什么不试着去关注一些细节呢？你在回答中说你不能复制它。这个问题已经5岁了。你考虑过处理器从那以后改进的可能性吗？看看我的答案，它表明它在核心2上复制了大量的时间，但在Nehalem和后来的版本上则更少。
@神秘的，当任何人看到一些意想不到的、不太可能发生的事情时，他们首先应该做的就是做一个严格的测试，看看他们是否能重现结果。我做到了，但做不到，这意味着任何使用现代处理器的人都会被这里的大部分内容误导。除此之外，基准是残暴的，因为它涉及浮点处理器，这是一个巨大的无关变量。大多数情况下，整个页面只是一堆自大。非常令人失望。

进一步分析后，我认为这是(至少部分)由四个指针的数据对齐引起的。这将导致某种程度的缓存库/路径冲突。

如果我对您如何分配数组进行了正确的猜测，那么它们很可能与页面行对齐。

这意味着每个循环中的所有访问都将以相同的缓存方式进行。然而，英特尔处理器有一段时间具有8路L1缓存关联性。但实际上，演出并不完全一致。访问4路仍然比访问2路慢。

编辑：事实上，它看起来像是单独分配所有数组。通常，当请求如此大的分配时，分配程序将从操作系统请求新的页面。因此，大量分配很可能出现在与页面边界相同的偏移量处。

测试代码如下：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54

int main(){
const int n = 100000;

#ifdef ALLOCATE_SEPERATE
double *a1 = (double*)malloc(n * sizeof(double));
double *b1 = (double*)malloc(n * sizeof(double));
double *c1 = (double*)malloc(n * sizeof(double));
double *d1 = (double*)malloc(n * sizeof(double));
#else
double *a1 = (double*)malloc(n * sizeof(double) * 4);
double *b1 = a1 + n;
double *c1 = b1 + n;
double *d1 = c1 + n;
#endif

// Zero the data to prevent any chance of denormals.
memset(a1,0,n * sizeof(double));
memset(b1,0,n * sizeof(double));
memset(c1,0,n * sizeof(double));
memset(d1,0,n * sizeof(double));

// Print the addresses
cout << a1 << endl;
cout << b1 << endl;
cout << c1 << endl;
cout << d1 << endl;

clock_t start = clock();

int c = 0;
while (c++ < 10000){

#if ONE_LOOP
for(int j=0;j<n;j++){
a1[j] += b1[j];
c1[j] += d1[j];
}
#else
for(int j=0;j<n;j++){
a1[j] += b1[j];
}
for(int j=0;j<n;j++){
c1[j] += d1[j];
}
#endif

}

clock_t end = clock();
cout <<"seconds =" << (double)(end - start) / CLOCKS_PER_SEC << endl;

system("pause");
return 0;
}

基准结果：

编辑：实际核心2体系结构计算机上的结果：

2 x Intel Xeon X5482 [email protected] GHz：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

#define ALLOCATE_SEPERATE
#define ONE_LOOP
00600020
006D0020
007A0020
00870020
seconds = 6.206

#define ALLOCATE_SEPERATE
//#define ONE_LOOP
005E0020
006B0020
00780020
00850020
seconds = 2.116

//#define ALLOCATE_SEPERATE
#define ONE_LOOP
00570020
00633520
006F6A20
007B9F20
seconds = 1.894

//#define ALLOCATE_SEPERATE
//#define ONE_LOOP
008C0020
00983520
00A46A20
00B09F20
seconds = 1.993

观察：

一圈6.206秒，两圈2.116秒。这准确地复制了OP的结果。
在前两个测试中，数组是单独分配的。您会注意到，它们相对于页面都具有相同的对齐方式。
在第二个测试中，数组被打包在一起以破坏对齐。在这里你会发现两个循环都更快。此外，第二个(双)循环现在是您通常期望的较慢的循环。

正如@stephen cannon在评论中指出的那样，这种对齐很可能会导致加载/存储单元或缓存中出现假别名。我搜索了一下，发现英特尔实际上有一个硬件计数器，用于部分地址别名暂停：

http://software.intel.com/sites/products/documentation/doclib/stdxe/2013/~amplifierxe/pmw_-dp/events/partial_-address_-alias.html

5个地区-解释

区域1：

这个很容易。数据集太小，性能由循环和分支等开销控制。

区域2：

~~这里，随着数据大小的增加，相对开销的数量下降，性能"饱和"。这里，两个循环的速度较慢，因为它的循环和分支开销是原来的两倍。~~

~~我不确定这里到底发生了什么…当Agner Fog提到缓存库冲突时，对齐仍然会起到作用。(该链接是关于Sandy Bridge的，但该想法仍应适用于核心2。)~~

~~区域3：~~

~~此时，数据不再适合一级缓存。因此，性能受到l1<->l2缓存带宽的限制。~~

~~区域4：~~

~~我们正在观察单循环中的性能下降。如前所述，这是由于对齐(很可能)导致处理器加载/存储单元中出现假别名暂停。~~

~~但是，为了发生假别名，数据集之间必须有足够大的跨度。这就是为什么你在3区没有看到这个。~~

~~区域5：~~

~~此时，缓存中没有适合的内容。所以你受内存带宽的限制。~~

相关讨论

+1：我想这就是答案。与所有其他答案所说的相反，这不是单循环变量本身具有更多缓存未命中，而是导致缓存未命中的数组的特定对齐。

这是最可能的解释，一个虚假的混叠暂停。

@我记得你在这个问题上提到过。是的，我同意，这绝对是一个可能的结果对齐。

@Stephencanon只是确定：假别名是这样吗？我将在一台真正的Core2机器上对我的答案做一个巨大的编辑。

从这些机器中看到一个可比较的图表是很好的。这是代码(pastebin.com/ivzkutzg)

使用图表和(我的)5个区域的解释进行编辑。

但是在区域2中，这两个循环更快！

哦，你说得对……老实说，我不确定。它仍然可能与一级缓存中的对齐有关。

这可能是由于缓存银行冲突造成的。Agner Fog在这里谈论的是桑迪桥建筑，但我相信它也适用于核心2。

最好有更高的分辨率时间(例如，使用提供的tbb)。但那就这样了

更新。我没有tbb，但我使用了Windows性能计数器和10倍的迭代次数。

@神秘的稍微偏离主题，但你用什么来生成这些漂亮的图表？它是来自vs profiler吗？

@ VictorT。我使用了操作链接到的代码。它生成一个.css文件，我可以在Excel中打开该文件并从中生成一个图表。

对我来说，这四个案例产生的结果几乎相同。信息：GCC 4.6.1(mingw)，-O4优化标志；Intel(R)Core(tm)i3，[email protected]；64位操作系统(Windows Basic)。

@纳瓦兹什么机器？编译程序？操作系统？我不确定是否重要。在本例中，OP和我都在核心2计算机上使用了Visual Studio 2010。在核心I3/5/7上，差异接近20%。我最初在答案中有这些基准，但我把它们从我的答案中去掉了，因为这纯粹是噪音——而且使答案比需要的时间长。

@神秘：我刚刚用所有这些信息更新了我的评论。

@神秘的：顺便问一下，你能解释一下你的陈述吗：我怎么会注意到这一点？我对对齐和页面不太了解。所以请再解释一下这部分。

@纳瓦兹啊，是的，你有一台尼哈伦机器。两者之间的差别要小得多。GCC也有可能采取不同的措施。斯蒂芬·坎农指出，假别名是最有可能的罪魁祸首。如果是这样的话，我希望它对编译器生成的指令的顺序非常敏感。

@神秘：我不明白假别名是什么意思。你能解释一下吗？或者给我一个链接(如果你有)，我自己看。

@Nawaz A页面通常为4KB。如果您查看我输出的十六进制地址，单独分配的测试都具有相同的模块4096。(即从4KB边界开始的32个字节)可能gcc没有这种行为。这可以解释为什么你看不到这些区别。

@关于假别名的纳瓦兹。有人在聊天时问我这件事。在这里查看成绩单：chat.stackoverflow.com/script/message/2136055 2136055(当然，它与另一个对话交错…)

@神秘：谢谢。现在我明白了页面对齐的意思。但这是个问题吗？有什么关系？

@神秘主义：我真的不明白，因为聊天时间太短，而且我也不了解外面的很多术语。你能给我介绍些东西(书或文章)吗？这样我就可以自己详细阅读了。

@Nawaz在更大的范围内(超过4个指针)，这种对齐将导致冲突缓存未命中。但由于我在回答中提到的原因，这可能不是唯一的罪魁祸首。如果地址非常相似，可能会出现部分地址别名导致的假别名。(如果它们是一致的，情况就会是这样)不管怎样，如果没有对建筑的深入了解，就很难深入了解细节。要搜索的关键术语是"无序执行"、"加载/存储单元"和"存储缓冲区"。编辑：如果您有更多问题，我们可以在聊天中继续。

你说"缓存中没有适合的东西"。这里缓存大小的相关性是什么？每个元素只修改一次；我看不到在缓存中存储大量工作集有什么好处。

外部循环(测试循环)迭代了很多次。因此，如果整个数据集不适合缓存，它将反复刷新内存。

啊，对了。我没注意到你已经多次参加了整个测试。这是完全合理的。

不好意思弄混了。这是我问题的第二行："这个循环通过另一个外部for循环执行10000次。"

对于任何感兴趣的人来说，这里有关于内存对齐的好的阅读资料，这里有一些关于数据在内存中缓存方式的链接。

不好意思戳了这么一个旧的帖子。你的Harpertown Xeon是NetBurst微体系结构CPU吗？还是核心？

@Hexafraction是一个45纳米的核心2分之一。

@出于好奇的神秘…像我这样的n00b程序员还不应该知道这种东西…正确的？我是说，我是在读了问题和答案之后才明白的，但我永远也无法独自解决问题的本质，更不用说如何解决它了……

@基督是的。本主题高度专门针对HPC。因此，大多数程序员不会知道它，除非他们在这个领域，或者是通过so或其他渠道偶然发现了它。

内存混叠问题

这是一个很好的答案；但是，如果不涉及任何软件或硬件，两个for循环之间的差异已经存在问题。这个问题是一个数学算法问题。我喜欢把这个问题称为无效的内插瓶颈问题。你可以参考我已经给出的答案。

好的，正确的答案肯定与CPU缓存有关。但是使用cache参数可能非常困难，尤其是没有数据时。
有很多答案，导致了很多讨论，但让我们面对现实：缓存问题可能非常复杂，而且不是一维的。它们很大程度上依赖于数据的大小，所以我的问题是不公平的：在缓存图中，这是一个非常有趣的点。
@神秘主义的答案使很多人(包括我)信服，可能是因为它是唯一一个似乎依赖事实的答案，但它只是真理的一个"数据点"。
这就是为什么我结合了他的测试(使用连续的和单独的分配)和@james'答案的建议。
下面的图表显示，根据所使用的具体场景和参数，大多数答案，尤其是对问题和答案的大多数评论可能被认为是完全错误或真实的。
注意，我最初的问题是n=100000。这一点(偶然)表现出特殊行为：

它在单环版本和双环版本之间具有最大的差异(几乎是三倍)

这是唯一的一点，一个循环(即连续分配)胜过两个循环版本。(这使得神秘主义的答案成为可能。)

使用初始化数据的结果：
使用未初始化数据的结果(这是神秘测试的结果)：
这是一个很难解释的问题：初始化的数据，它被分配一次，并对每个不同向量大小的以下测试用例重复使用：
提议
堆栈溢出上的每一个低级性能相关问题都需要为整个缓存相关数据大小范围提供mflops信息！每个人都浪费时间去思考答案，尤其是在没有这些信息的情况下与他人讨论。

相关讨论

+1个不错的分析。我一开始并不打算让数据不初始化。碰巧分配器还是把它们归零了。所以初始化的数据才是重要的。我刚刚用一个实际的核心2体系结构机器上的结果编辑了我的答案，它们与您所观察到的非常接近。另一件事是我测试了一系列尺寸的n，它显示了n = 80000, n = 100000, n = 200000等的相同性能差距。

@神秘的，我认为操作系统在给一个进程提供新的页面以避免可能的进程间监视时，会实现页面归零。

第二个循环涉及的缓存活动要少得多，因此处理器更容易跟上内存需求。

相关讨论

您是说第二个变量会导致更少的缓存未命中？为什么？

@奥利：在第一种变体中，处理器一次需要访问四条内存线——a[i]、b[i]、c[i]和d[i]。在第二种变体中，它只需要两条内存线。这使得在添加时重新填充这些行更加可行。

但是，只要数组在缓存中不发生冲突，每个变量都需要与主内存完全相同的读写次数。所以得出的结论是(我认为)这两个数组总是发生碰撞。

@奥利：但在第一种变体中，所有的行都需要同时阅读。在第二个阵列中，处理器可以延迟读取第二个阵列。

我不明白。每个指令(即每个x += y实例)有两个读和一个写。这对于任何一种变体都是正确的。因此，缓存<->CPU带宽要求是相同的。只要没有冲突，缓存<->RAM带宽要求也一样。

@奥利：只有当CPU的读取速度超过它的执行速度时，这才是真的。在双循环变量中，CPU只需及时预测下一条+=指令的内存需求，以使ALU保持在最大容量。在单循环变量中，CPU需要预测两个+=指令的内存需求。如果CPU不能及时反应，内存读取就不会及时发出——也就是说，如果CPU只能提前一段时间预测内存需求，那么在单循环版本中，它就不能及时反应。

无论是数据从缓存传输到ALU的速度快到足以使其保持可用，还是不能。据我所知，缓存在这方面是"扁平的"；从一个缓存位置读取的成本与从另一个缓存位置读取的成本没有区别。

@奥利：这不是关于缓存是否是扁平的，而是关于CPU是否能够看到足够远的空间提前发出读取。您尝试执行的操作越多，CPU执行它们的顺序就越不正常。

好的，但是CPU在这方面做了什么预测？允许OOE的主要事情是跟踪寄存器依赖性的能力，不是吗？

@奥利：必须承认，我对这件事不太了解。然而，在我看来，看一个更简单的循环要容易得多，这是相当合乎逻辑的。

不用担心；你强迫我考虑它；)就像大多数关于缓存行为的讨论一样；我仍然不知道我们中的哪一个是正确的……(尽管我认为@mysticial在他的答案中发现了这个问题)。

@奥利：我怀疑在这个层次上，它超越了缓存理论，并且深入到了给定供应商在特定CPU上的特定实现的细节中。

如stackoverflow.com/a/1742231/102916中所述，Pentium M的硬件预取可以跟踪12个不同的前向流(我希望以后的硬件至少也有同样的能力)。循环2仍然只读取四个流，因此完全在该限制范围内。

@布鲁克斯：后来的硬件是从奔腾3体系结构派生出来的，而不是奔腾4。更重要的是，集成的ALU操作和SSE操作之间有很大的区别。

@Deadmg：后来的硬件是从PentiumM派生的，它是从Pentium3派生的。布鲁克斯的评论似乎承认这一点。

假设您正在一台机器上工作，其中n只是正确的值，因为它只可能一次在内存中保存两个阵列，但通过磁盘缓存，可用的总内存仍然足以容纳全部四个阵列。
假设有一个简单的后进先出缓存策略，此代码：

1
2
3
4
5
6
for(int j=0;j<n;j++){
a[j] += b[j];
}
for(int j=0;j<n;j++){
c[j] += d[j];
}

首先会导致a和b加载到RAM中，然后完全在RAM中工作。当第二个循环开始时，c和d将从磁盘加载到RAM中并在上面操作。
另一个循环

1
2
3
4
for(int j=0;j<n;j++){
a[j] += b[j];
c[j] += d[j];
}

每次循环时都会调出两个数组，并在另外两个数组中分页。这显然要慢得多。
您可能在测试中没有看到磁盘缓存，但您可能看到了其他缓存形式的副作用。
这里似乎有一点困惑/误解，所以我将尝试用一个例子来阐述一下。
比如说n = 2，我们使用的是字节。在我的场景中，我们只有4个字节的RAM，其余的内存速度明显较慢(比如说访问时间延长了100倍)。
假设一个相当愚蠢的缓存策略，如果字节不在缓存中，那么将其放在缓存中，并在我们进行缓存时获取以下字节，您将得到类似这样的场景：

用

1
2
3
4
5
6
for(int j=0;j<n;j++){
a[j] += b[j];
}
for(int j=0;j<n;j++){
c[j] += d[j];
}

缓存a[0]和a[1]，然后缓存b[0]和b[1]，并在缓存中设置a[0] = a[0] + b[0]-现在缓存中有四个字节，a[0], a[1]和b[0], b[1]。成本=100+100。

在缓存中设置a[1] = a[1] + b[1]。成本＝1＋1。

对c和d重复上述步骤。

总成本=(100 + 100 + 1 + 1) * 2 = 404。

用

1
2
3
4
for(int j=0;j<n;j++){
a[j] += b[j];
c[j] += d[j];
}

缓存a[0]和a[1]，然后缓存b[0]和b[1]并在缓存中设置a[0] = a[0] + b[0]—现在缓存中有四个字节，a[0], a[1]和b[0], b[1]。成本=100+100。

从缓存中弹出a[0], a[1], b[0], b[1]，缓存c[0]和c[1]，然后将d[0]和d[1]设置到缓存中。成本=100+100。

我怀疑你开始明白我要去哪里了。

总成本=(100 + 100 + 100 + 100) * 2 = 800。

这是一个经典的高速缓存重击场景。

相关讨论

这是不正确的。对数组的特定元素的引用不会导致从磁盘(或非缓存内存)调入整个数组；只调入相关的页或缓存行。

@布鲁克斯·摩西——如果你像这里发生的那样，穿过整个阵列，那么它就会。

是的，但这是整个操作过程中发生的事情，而不是循环中每次发生的事情。您声称第二个表单"将在循环中调出两个数组，并在其他两个数组中进行分页"，这正是我反对的。不管整个数组的大小，在这个循环的中间，您的RAM将保存四个数组中的每一个数组的一个页面，并且在循环完成之前，什么都不会被调出。

在特定情况下，n只是一次将两个数组保存在内存中的正确值，那么在一个循环中访问四个数组的所有元素肯定会导致冲突。

假设您只有10个字节的RAM，并且这些数组的长度为5个字节。循环1将在一个或两个页面错误(假设循环计数器保存在寄存器中)后终止，并将a1＋a2的所有10个字节留在RAM中。但是，循环2将在a1和b1中分页进行第一次分配，然后在第二次分配中使用c1和d1，这个过程必须重复n次。剩下的只是比例。

为什么在第一个任务中，你只保留循环2页的a1和b1的完整内容，而不只是每个任务的第一页？(假设页面为5字节，那么页面是RAM的一半吗？这不仅仅是缩放，这与真正的处理器完全不同。)

更现实的数字：32kb的RAM、1kb的页面、16kb的数组和1字节的整数。在第一次通过循环时，第一次分配会使a1和b1的第一个1kb页面被调入。这需要2千字节；您还有30千字节的空闲空间。因此，第二个任务可以在c1和d1的第一个1kb页面中翻页，而不必逐出a1和a2的第一个页面。在这一点上，您可以在没有页面错误的情况下，再执行1023次循环。在处理完页面很久之后，才需要将其移出。

内存层次结构根据地址的要求加载。只有当编译器发出某种预取指令时，这个答案才可能是相关的；如果它发出了预取指令，这个答案就会说明为什么它应该以一种大小感知的方式这样做，但是由于编译器不知道执行机器的内存大小，所以它不会这样做。通常，如果没有明确的指令，编译器甚至不知道缓存的大小。

这不是因为不同的代码，而是因为缓存：RAM比CPU寄存器慢，并且CPU内有缓存内存，以避免每次变量变化时都写入RAM。但是缓存并不像RAM那么大，因此它只映射其中的一小部分。
第一个代码修改远程内存地址，在每个循环中交替使用它们，因此需要不断地使缓存失效。
第二个代码不交替：它只在相邻地址上流动两次。这使得所有的作业都在缓存中完成，只有在第二个循环开始后才会失效。

相关讨论

为什么这会导致缓存持续失效？

@olicharlesworth：把缓存看作一个连续内存地址范围的硬拷贝。如果您假装访问的地址不是它们的一部分，则必须重新加载缓存。如果缓存中的某些内容被修改了，那么它必须被写回RAM，否则就会丢失。在示例代码中，4个包含100000个整数(400kbytes)的向量最有可能超过一级缓存(128或256K)的容量。

在这种情况下，缓存的大小没有影响。每个数组元素只使用一次，之后，它是否被逐出并不重要。缓存大小仅在具有时间位置时才重要(即，将来要重用相同的元素)。

@olicharlesworth：如果我必须在缓存中加载一个新值，并且其中已经有一个值被修改了，我必须先将其写下来，这会让我等待写入发生。

但是在两种不同的操作代码中，每个值都会精确地修改一次。这样做，每个变量的回写次数都相同。

Emilio，你的分析是错误的，因为你声称"缓存是…连续内存地址范围的副本"错误。这种连续范围称为"缓存线"，实际处理器缓存有许多单独的缓存线。因此，它们可以同时容纳来自多个不同区域的连续部分。

@布鲁克斯摩斯：这是真的，但在这个背景下并不相关(别忘了这是一个问题的答案)。我不是在描述处理器理论，而是在特定的上下文中实际发生的事情。这个答案[stackoverflow.com/a/8549223/924727]是"正确的"，但完全符合我的分析——因此——不能是明显错误的。它只是在更高的近似水平下工作。非编程缓存的程序员必须遵循的准则。你所说的只是一个细节，在更微观的层面上操作。

我不能复制这里讨论的结果。
我不知道是否应该怪糟糕的基准代码，或者是什么，但是在我的机器上，这两种方法使用以下代码的比例都在10%以内，而且一个循环通常比两个稍微快一点——正如您所期望的那样。
数组大小从2^16到2^24不等，使用八个循环。我很小心地初始化了源数组，所以+=分配没有要求fpu添加解释为double的内存垃圾。
我玩了各种各样的方案，比如把b[j]、d[j]分配给循环中的InitToZero[j]，也玩了+= b[j] = 1和+= d[j] = 1的分配，结果相当一致。
如您所料，使用InitToZero[j]在循环内部初始化b和d给了组合方法一个优势，因为它们是在分配给a和c之前背靠背完成的，但仍在10%以内。算了吧。
硬件是Dell XPS 8500，具有第3代核心[email protected] GHz和8 GB内存。对于2^16到2^24，使用八个循环，累计时间分别为44.987和40.965。Visual C++ 2010，完全优化。
PS：我把循环数改为倒数为零，合并后的方法稍微快一点。抓我的头。注意新的数组大小和循环计数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
// MemBufferMystery.cpp : Defines the entry point for the console application.
//
#include"stdafx.h"
#include <iostream>
#include <cmath>
#include <string>
#include <time.h>

#define dbl double
#define MAX_ARRAY_SZ 262145 //16777216 // AKA (2^24)
#define STEP_SZ 1024 // 65536 // AKA (2^16)

int _tmain(int argc, _TCHAR* argv[]) {
long i, j, ArraySz = 0, LoopKnt = 1024;
time_t start, Cumulative_Combined = 0, Cumulative_Separate = 0;
dbl *a = NULL, *b = NULL, *c = NULL, *d = NULL, *InitToOnes = NULL;

a = (dbl *)calloc( MAX_ARRAY_SZ, sizeof(dbl));
b = (dbl *)calloc( MAX_ARRAY_SZ, sizeof(dbl));
c = (dbl *)calloc( MAX_ARRAY_SZ, sizeof(dbl));
d = (dbl *)calloc( MAX_ARRAY_SZ, sizeof(dbl));
InitToOnes = (dbl *)calloc( MAX_ARRAY_SZ, sizeof(dbl));
// Initialize array to 1.0 second.
for(j = 0; j< MAX_ARRAY_SZ; j++) {
InitToOnes[j] = 1.0;
}

// Increase size of arrays and time
for(ArraySz = STEP_SZ; ArraySz<MAX_ARRAY_SZ; ArraySz += STEP_SZ) {
a = (dbl *)realloc(a, ArraySz * sizeof(dbl));
b = (dbl *)realloc(b, ArraySz * sizeof(dbl));
c = (dbl *)realloc(c, ArraySz * sizeof(dbl));
d = (dbl *)realloc(d, ArraySz * sizeof(dbl));
// Outside the timing loop, initialize
// b and d arrays to 1.0 sec for consistent += performance.
memcpy((void *)b, (void *)InitToOnes, ArraySz * sizeof(dbl));
memcpy((void *)d, (void *)InitToOnes, ArraySz * sizeof(dbl));

start = clock();
for(i = LoopKnt; i; i--) {
for(j = ArraySz; j; j--) {
a[j] += b[j];
c[j] += d[j];
}
}
Cumulative_Combined += (clock()-start);
printf("
%6i miliseconds for combined array sizes %i and %i loops",
(int)(clock()-start), ArraySz, LoopKnt);
start = clock();
for(i = LoopKnt; i; i--) {
for(j = ArraySz; j; j--) {
a[j] += b[j];
}
for(j = ArraySz; j; j--) {
c[j] += d[j];
}
}
Cumulative_Separate += (clock()-start);
printf("
%6i miliseconds for separate array sizes %i and %i loops
",
(int)(clock()-start), ArraySz, LoopKnt);
}
printf("
Cumulative combined array processing took %10.3f seconds",
(dbl)(Cumulative_Combined/(dbl)CLOCKS_PER_SEC));
printf("
Cumulative seperate array processing took %10.3f seconds",
(dbl)(Cumulative_Separate/(dbl)CLOCKS_PER_SEC));
getchar();

free(a); free(b); free(c); free(d); free(InitToOnes);
return 0;
}

我不知道为什么要确定mflops是一个相关的度量标准。我认为我的想法是把重点放在内存访问上，所以我尽量减少浮点计算时间。我离开了江户区，但我不知道为什么。
没有计算的直接分配将是对内存访问时间的一个更干净的测试，并且将创建一个不考虑循环计数的统一测试。也许我在谈话中遗漏了一些东西，但值得再想一想。如果在分配中忽略了加号，则累计时间在31秒时几乎相同。

相关讨论

您在这里提到的未对齐惩罚是指单个未对齐的加载/存储(包括未对齐的SSE加载/存储)。但这里不是这样，因为性能对不同数组的相对对齐很敏感。指令级没有错位。每个装载/存储都正确对齐。

这是因为CPU没有那么多的缓存未命中(它必须等待来自RAM芯片的阵列数据)。对您来说，连续地调整数组的大小是很有趣的，这样您就可以超过CPU的1级缓存(l1)和2级缓存(l2)的大小，并绘制代码根据数组大小执行所需的时间。图不应该像你想象的那样是直线。

相关讨论

我不相信缓存大小和数组大小之间有任何交互作用。每个数组元素只使用一次，然后可以安全地收回。不过，如果缓存线大小与数组大小发生冲突，则很可能会在这四个数组之间发生交互。

第一个循环交替写入每个变量。第二个和第三个只进行元素大小的小跳跃。
试着用一支笔和一张纸，用20厘米分开，写两条20个十字的平行线。试着先写完一行再写完另一行，然后在每一行交替地写一个十字。

最初的问题好的。

Why is one loop so much slower than two loops?

Ok.

结论：好的。
案例1是一个典型的插值问题，恰好是一个效率低下的问题。我还认为，这是许多机器体系结构和开发人员最终构建和设计具有多线程应用程序和并行编程能力的多核系统的主要原因之一。好的。
从这种方法看它，而不涉及硬件、操作系统和编译器如何一起工作堆堆分配，包括处理RAM、缓存、页文件等等；在这些算法的基础上的数学告诉我们这两者中哪一个是更好的解决方案。我们可以使用一个类比，其中一个Boss或Summation，它将表示一个For Loop，它必须在工人之间移动A&B，我们可以很容易地看到，情况2至少是1/_{2，如果不是比情况1快一点，因为需要移动的距离和所用的时间不同工人之间。这一数学几乎与基准时间以及装配说明中的差异量完全一致。好的。}
下面我将开始解释所有这些是如何工作的。好的。
评估问题好的。
OP的代码：好的。

1
2
3
4
5
6
const int n=100000;

for(int j=0;j<n;j++){
a1[j] += b1[j];
c1[j] += d1[j];
}

和好的。

1
2
3
4
5
6
for(int j=0;j<n;j++){
a1[j] += b1[j];
}
for(int j=0;j<n;j++){
c1[j] += d1[j];
}

对价好的。
考虑到OP关于for循环的2个变体的原始问题，以及他对缓存行为的修正问题，以及许多其他优秀的答案和有用的评论；我想尝试通过对这种情况和问题采取不同的方法来做一些不同的事情。好的。
途径好的。
考虑到这两个循环以及所有关于缓存和页面归档的讨论，我想从另一个角度来看待这个问题。一种不涉及缓存和页面文件，也不涉及为分配内存而执行的方法，实际上这种方法甚至根本不涉及实际的硬件或软件。好的。
透视好的。
在看了一会儿代码之后，问题是什么以及产生问题的原因变得非常明显。让我们把它分解成一个算法问题，从使用数学符号的角度来看，然后对数学问题和算法进行类比。好的。
我们所知道的好的。
我们知道他的循环将运行100000次。我们还知道a1、b1、c1和d1是64位体系结构上的指针。在32位计算机上的C++中，所有指针都是4字节，而在64位机器上，它们的大小是8字节，因为指针是固定长度的。我们知道在这两种情况下，我们都有32个字节需要分配。唯一的区别是我们在每次迭代中分配32个字节或2组2-8字节，在第二种情况下，我们为两个独立循环的每次迭代分配16个字节。所以两个循环在总分配中仍然等于32个字节。利用这些信息，让我们继续展示它的一般数学、算法和类比。我们知道在这两种情况下必须执行同一组或同一组操作的次数。我们知道在这两种情况下需要分配的内存量。我们可以认为，两种情况之间分配的总体工作负载将大致相同。好的。
我们不知道的好的。
我们不知道每种情况需要多长时间，除非我们设置计数器并进行基准测试。然而，基准点已经包括在最初的问题和一些答案和评论中，我们可以看到这两者之间的显著差异，这就是这个问题对这个问题的整体推理，并从回答开始。好的。
让我们调查一下好的。
很明显，许多人已经通过查看堆分配、基准测试、RAM、缓存和页面文件来完成了这项工作。查看特定的数据点和特定的迭代索引也包括在内，关于这个特定问题的各种对话让许多人开始质疑与之相关的其他事情。那么，我们如何开始用数学算法和类比来看待这个问题呢？我们先做几个断言！然后我们从那里构建了我们的算法。好的。
我们的主张：好的。

我们将让循环及其迭代是从1开始到100000结束的求和，而不是像循环中那样从0开始，因为我们不需要担心内存寻址的0索引方案，因为我们只是对算法本身感兴趣。

在这两种情况下，我们都有4个要处理的函数和2个函数调用，每个函数调用都要执行2个操作。因此，我们将这些函数和函数调用设置为F1()、F2()、f(a)、f(b)、f(c)和f(d)。

算法：好的。
第一种情况：只有一个求和，但有两个独立的函数调用。好的。

1
2
3
Sum n=1 : [1,100000] = F1(), F2();
F1() = { f(a) = f(a) + f(b); }
F2() = { f(c) = f(c) + f(d); }

第二种情况：两个求和，但每个求和都有自己的函数调用。好的。

1
2
3
4
5
Sum1 n=1 : [1,100000] = F1();
F1() = { f(a) = f(a) + f(b); }

Sum2 n=1 : [1,100000] = F1();
F1() = { f(c) = f(c) + f(d); }

如果你注意到F2()只存在于Sum中，其中Sum1和Sum2都只包含F1()。当我们开始得出第二种算法正在进行某种优化的结论时，这一点在以后也会很明显。好的。
通过第一种情况的迭代，Sum调用f(a)，它将添加到自己的f(b)，然后调用f(c)，它将做同样的事情，但为每个100000 iterations添加f(d)。在第二种情况下，我们有Sum1和Sum2两个函数的作用相同，就像它们是连续两次被调用的同一个函数一样。在这种情况下，我们可以将Sum1和Sum2视为普通的老Sum，在这种情况下，Sum看起来是这样的：Sum n=1 : [1,100000] { f(a) = f(a) + f(b); }，现在这看起来是一种优化，我们可以将其视为相同的功能。好的。
类比总结好的。
在第二种情况下，我们看到的几乎是优化，因为两个for循环具有相同的精确签名，但这不是真正的问题。问题不在于f(a)、f(b)、f(c)和f(d)在这两种情况下所做的工作，而在于两种情况下求和所需移动的距离的差异，这两种情况会导致执行时间的差异。好的。
把For Loops看作是执行迭代的Summations，它是一个Boss，它向两个人发出命令，A和B，他们的工作分别是肉食C和D，并从他们那里取一些包裹并返回。在这里的类比中，for循环或求和迭代和条件检查本身并不代表Boss。这里真正代表Boss的不是直接从实际的数学算法，而是从Scope和Code Block在一个例程或子例程、方法、函数、翻译单元等中的实际概念，第一个算法有一个范围，第二个算法有两个连续的范围。好的。
在每个呼叫单的第一个案例中，Boss转到A并发出命令，A转到B's包，然后Boss转到C并发出相同的命令，并在每次迭代中从D接收包。好的。
在第二种情况下，Boss直接与A合作，去取B's包，直到收到所有包为止。然后，Boss与C合作，以获得所有D's包。好的。
既然我们正在处理一个8字节指针和堆分配，那么让我们在这里考虑这个问题。假设Boss距A100英尺，A距C500英尺。我们不需要担心由于执行命令，Boss最初与C的距离有多远。在这两种情况下，Boss最初从A开始，然后到B。这个类比并不是说这个距离是精确的；它只是一个使用测试用例场景来显示算法的工作情况。在许多情况下，当执行堆分配和处理缓存和页面文件时，地址位置之间的距离可能不会有太大的差异，或者根据数据类型的性质和数组大小，它们可能会非常明显。好的。
测试用例：好的。
第一种情况：在第一次迭代中，Boss必须先走100英尺，才能给A下订单，A走了，做了他的事情，但是Boss必须走500英尺到C给他下订单。然后，在下一次迭代和在Boss之后的每一次迭代中，必须在两次迭代之间来回移动500英尺。好的。
第二种情况：The Boss必须在第一次迭代到A时移动100英尺，但之后他已经在那里，等待A返回，直到所有的滑动都被填满。然后，由于C距离A500英尺，因此Boss在第一次迭代时必须移动500英尺，因为C在与A一起工作后立即调用该Boss( Summation, For Loop )，然后像对待A一样等待，直到完成所有C's订单滑动。好的。
行驶距离的差异好的。

1
2
3
4
5
6
7
8
9
10
const n = 100000
distTraveledOfFirst = (100 + 500) + ((n-1)*(500 + 500);
// Simplify
distTraveledOfFirst = 600 + (99999*100);
distTraveledOfFirst = 600 + 9999900;
distTraveledOfFirst = 10000500;
// Distance Traveled On First Algorithm = 10,000,500ft

distTraveledOfSecond = 100 + 500 = 600;
// Distance Traveled On Second Algorithm = 600ft;

任意值的比较好的。
我们可以很容易地看到，600远低于1000万。现在这并不准确，因为我们不知道在每次迭代中哪个RAM地址，哪个缓存或页面文件之间的实际距离差异，每个调用都是由许多其他未看到的变量造成的，但这只是对需要注意的情况的一个评估，并试图从最坏的情况来看。好的。
因此，从这些数字来看，算法1的速度应该比算法2慢99%；然而，这只是算法的The Boss's部分或职责，它不能解释实际工作人员A、B、C、和D，以及他们在每次迭代中必须做什么。循环的所以老板的工作只占总工作的15-40%。因此，通过工人完成的大部分工作对将速度差比率保持在50-70%左右有着更大的影响。好的。
观察：两种算法的区别好的。
在这种情况下，它是正在进行的工作的过程的结构，并且它确实表明，情况2比具有类似函数声明和定义的部分优化更有效，因为只有名称不同的变量。我们还可以看到，案例1中的总行驶距离远大于案例2中的总行驶距离，我们可以考虑这两种算法之间的时间系数。案例1比案例2有更多的工作要做。这一点也在两起案件之间显示的ASM的证据中得到了证实。即使已经对这些案例进行了说明，也不能说明在案例1中，老板必须等待A和C返回，然后才能在下一次迭代中再次返回A，也不能说明如果A或B正在进行一次外部测试。很长一段时间之后，Boss和其他工人也在等待空闲。在情况2中，唯一空闲的是Boss，直到工人回来。所以即使这样也会对算法产生影响。好的。
行动组修改了问题好的。

EDIT: The question turned out to be of no relevance, as the behavior severely depends on the sizes of the arrays (n) and the CPU cache. So if there is further interest, I rephrase the question:

Ok.

好的。

Could you provide some solid insight into the details that lead to the different cache behaviors as illustrated by the five regions on the following graph?

Ok.

好的。

It might also be interesting to point out the differences between CPU/cache architectures, by providing a similar graph for these CPUs.

Ok.

关于这些问题好的。
正如我毫无疑问地证明的那样，即使在涉及到硬件和软件之前，也存在一个潜在的问题。现在关于内存和缓存以及页面文件等的管理，它们都是在一组集成的系统中工作的：The Architecture硬件、固件、一些嵌入式驱动程序、内核和asm指令集、The OS文件和内存管理系统、驱动程序和注册表、The Compiler翻译单元以及源代码的优化，甚至是Source Code本身及其一组独特的算法；我们已经看到，在将第一个算法应用于任何具有任意Architecture、OS和Programmable Language的机器之前，第一个算法中发生了瓶颈。因此，在涉及到现代计算机的内部原理之前，已经存在一个问题。好的。
最后的结果好的。
然而，并不是说这些新问题并不重要，因为它们本身就是，而且它们毕竟扮演了一个角色。它们确实会影响程序和整体性能，这一点从许多给出答案和/或评论的人的各种图表和评估中可以明显看出。如果你注意到Boss和两个工人A和B的类比，他们必须分别从C和D取包，并且考虑到所讨论的两个算法的数学符号，你可以看到，即使没有计算机The OS的参与，你也可以看到这一点。12]比Case 1快大约60%，当您在将这些算法应用于源代码、通过操作系统编译和优化并执行以在给定硬件上执行操作后查看图表时，您甚至会发现这些算法之间的差异有点退化。好的。
现在，如果"数据"集相当小，那么一开始看起来差异并不是那么糟糕，但是由于Case 1大约比Case 2慢，我们可以将此函数的增长视为时间执行的差异：好的。

1
2
3
4
5
6
7
DeltaTimeDifference approximately = Loop1(time) - Loop2(time)
//where
Loop1(time) = Loop2(time) + (Loop2(time)*[0.6,0.7]) // approximately
// So when we substitute this back into the difference equation we end up with
DeltaTimeDifference approximately = (Loop2(time) + (Loop2(time)*[0.6,0.7])) - Loop2(time)
// And finally we can simplify this to
DeltaTimeDifference approximately = [0.6,0.7]*(Loop2(time)

这个近似值是这两个循环之间的平均差，无论是算法上的还是涉及软件优化和机器指令的机器操作。所以当数据集呈线性增长时，两者之间的时间差也是如此。算法1比算法2具有更多的取数，这一点很明显，当Boss在第一次迭代后每次迭代都必须来回移动A和C之间的最大距离时，算法1的取数就比算法2多了一次，然后在完成A之后，Boss必须来回移动A。从A到C时，只需行驶一次最大距离。好的。
因此，让Boss集中精力同时做两件相似的事情，来回地摆弄它们，而不是集中于相似的连续任务，这会使他在一天结束时非常生气，因为他必须旅行和工作两倍。因此，不要因为老板的配偶和孩子不喜欢这样做而让你的老板陷入一个被插入的瓶颈，从而失去这种情况的范围。好的。好啊。

相关讨论

我发布这个答案已经有一段时间了，但我也想添加一个快速评论，这可能有助于理解这一点：在我将老板比作for循环或通过循环进行的求和或迭代时，我们还可以将这个老板视为管理范围和sta的堆栈框架和堆栈指针之间的组合。for循环的ck变量和内存寻址。

@我已经考虑了你的建议，稍微修改了我的原始答案。我相信这就是你的建议。

它可以是旧C++和优化。在我的电脑上，我获得了几乎相同的速度：
单回路：1.577 ms
双回路：1.507 ms
我在带有16 GB RAM的E5-1620 3.5 GHz处理器上运行Visual Studio 2015。

关于c ++：如果内部的总工作量相同，那么将for循环拆分成多个for循环的开销是多少？

关于c ++：哪种算法带来最佳性能？

关于C#：L1 Cache Miss的成本是多少？

关于C#：矩阵乘法：矩阵大小差异小，时序差异大

关于c ++：内存分配/解除分配？

关于c ++：如何通过IO时序测量找到L1缓存行大小的大小？

关于c ++：为什么我观察多重继承比单一更快？

关于C#：2-power-of-size数据的性能优势？

关于程序集：预取指令

关于性能：什么时候组装比C快？

为什么C++中的STDIN读行比Python慢得多？

关于Java：为什么处理一个排序数组比一个未排序数组更快？

关于性能：为什么Python代码在函数中运行得更快？

关于C++：<比<=更快吗？

关于c ++：为什么我的程序在完全循环8192个元素时会变慢？

关于Java：为什么打印"B"比打印"#"慢得多？

关于C++：为什么我要使用指针而不是对象本身呢？

关于python：为什么[]比list()快？

关于性能：C++代码用于测试Collatz猜想比手写汇编快-为什么？