关于c＃：比较.NET中的两个字节数组

Comparing two byte arrays in .NET

我怎么能这么快？

当然我能做到：

1
2
3
4
5
6
7
8
9
10
11

static bool ByteArrayCompare(byte[] a1, byte[] a2)
{
if (a1.Length != a2.Length)
return false;

for (int i=0; i<a1.Length; i++)
if (a1[i]!=a2[i])
return false;

return true;
}

但我正在寻找一个BCL函数或者一些经过高度优化的、经过验证的方法来实现这一点。

1	java.util.Arrays.equals((sbyte[])(Array)a1, (sbyte[])(Array)a2);

号

工作得很好，但看起来不适合X64。

注意我的超快速答案。

相关讨论

可以使用Enumerable.SequenceEqual方法。

1
2
3
4
5
6
7
8

using System;
using System.Linq;
...
var a1 = new int[] { 1, 2, 3};
var a2 = new int[] { 1, 2, 3};
var a3 = new int[] { 1, 2, 4};
var x = a1.SequenceEqual(a2); // true
var y = a1.SequenceEqual(a3); // false

号

如果由于某种原因不能使用.NET 3.5，那么您的方法就可以了。编译器运行时环境将优化您的循环，因此您不必担心性能。

相关讨论

但是，序列相等是否比不安全的比较需要更长的时间？尤其是当你做1000次比较的时候？
是的，这比不安全的比较慢了大约50倍。
感谢您比较性能-对我来说，它使决策清晰-SequenceEqual在这种情况下是安全的，但速度很慢。
这真的让这里的死人复活了，但在这里，"慢"是个不好的词。50倍的慢听起来很糟糕，但你并不是经常比较足够的数据来让它产生影响，如果你是这样的话，你真的需要为你自己的情况做基准测试，原因有很多。例如，注意不安全答案的创建者注意到7倍慢，而不是50倍慢(不安全方法的速度还取决于数据的对齐)。在这些数字很重要的罕见情况下，p/invoke甚至更快。
那么，速度较慢的实现获得了超过300个喜欢？我建议挂接msvcrt.dll，因为这是完成任务的最快方法。
对企业来说，最快不是最重要的事情。可维护性比在99%的情况下节省的代码要快得多。我正在使用SequenceEqual，并且我的整个代码都小于1毫秒。您正在保存的那些&181；s不会加起来是P/Invoke的5分钟不可读性。
@我理解你的观点，但不完全同意。你很少会回到你的代码中你非常确信它能工作并试图再次理解的部分。你的同事也一样。用类似/*这样经过良好测试的快速数组比较方法*/来评论这部分代码已经足够了，不会损害您的业务。另一方面，试图优化一个程序员在整个开发过程中粗心大意的应用程序…它基本上是检查代码的所有部分；)
"compiler
un-time environment will optimize your loop"-此语句的有效性是否与(反)斜杠的方向相同？
速度还取决于数据的大小和执行此操作的频率。我将一个字节数组与一个循环外的maybee 10字节进行比较。如果我试图比较10MB的位图，也许值得研究一下P/Invoke解决方案。过早的优化和微观优化可能是致命的
P/Invoke方法显然也不可移植；这是。我写这句话花费的时间远远超过了在我们的应用程序中为此目的使用p/invoke所节省的时间，不说可移植性。

激活P/Invoke Powers！

1
2
3
4
5
6
7
8
9

[DllImport("msvcrt.dll", CallingConvention=CallingConvention.Cdecl)]
static extern int memcmp(byte[] b1, byte[] b2, long count);

static bool ByteArrayCompare(byte[] b1, byte[] b2)
{
// Validate buffers are the same length.
// This also ensures that the count does not exceed the length of either buffer.
return b1.Length == b2.Length && memcmp(b1, b2, b1.Length) == 0;
}

相关讨论

P/调用…博奥……
p/invoke yaay——这在位图上被证明是最快的，至少是：stackoverflow.com/questions/2031217/&hellip；
很好的解决方案，但是除非你把字节数组固定在适当的位置上，否则你就是在问大时间问题。
在这种情况下，不需要固定。当使用pinvoke调用本机代码时，封送拆收器执行自动固定。参考：stackoverflow.com/questions/2218444/&hellip；
p/invoke可能会引发boos，但它是目前所有解决方案中最快的，包括我提出的使用不安全指针大小比较的实现。在调用本机代码之前，您可以进行一些优化，包括引用相等和比较第一个和最后一个元素。
为什么会这样？海报需要一个快速的实现和一个优化的汇编语言的比较是无法击败的。我不知道如何在没有p/invoke的情况下从.NET中获取"repe cmpsd"。
memcmp解决方案的另一个好处是，它可以扩展为实现字节数组的完整排序，而不仅仅是比较是否相等。大+1。
我在这个方法的具体实现中遇到了一些问题；通过在这里找到的信息解决了这些问题：pinvoke.net/default.aspx/msvcrt.memcmp
比简单的for循环快11倍。比不安全的.NET代码快50%。
这很快，但也可能不同于使用for循环。此实现将比较内存，而不是使用相等比较。对于byte[]，结果应该相同，但此解决方案不能推广到任意数组。
这很巧妙。因为这些都是编译器内部函数，所以我从未想过可以使用p/invoke来调用它们，而且加速是由于超标量/矢量化优化。很难去其他地方…很好的发现！
nitpick:msvcr.dll不应该由用户代码使用。要使用MSVCR，必须使用分发的版本分发运行时。(msdn.microsoft.com/en-us/library/&hellip；and blogs.msdn.com/b/oldnewthing/archive/2014/04/11/10516280.asp&zwnj；&8203；x)
注意，memcmp的最后一个参数是IntPtr，而不是long，因为如果程序以32位运行，它是32位，而64位运行，它是64位。很明显，你得去memcmp(b1, b2, (IntPtr)b1.Length)。
看看我的答案-建立了一个运行更快的方法。
该函数应称为ByteArrayEquals。等于方法返回真/假。对于小于、等于或大于的值，比较方法返回<0、0、>0。
该死，我喜欢P/Invoke。
在部署CRT时，不要忘记将它与应用程序一起分发…

在.NET 4中有一个新的内置解决方案-IStructuralQuatable

1
2
3
4

static bool ByteArrayCompare(byte[] a1, byte[] a2)
{
return StructuralComparisons.StructuralEqualityComparer.Equals(a1, a2);
}

。

相关讨论

用户gil建议产生此解决方案的不安全代码：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

// Copyright (c) 2008-2013 Hafthor Stefansson
// Distributed under the MIT/X11 software license
// Ref: http://www.opensource.org/licenses/mit-license.php.
static unsafe bool UnsafeCompare(byte[] a1, byte[] a2) {
if(a1==a2) return true;
if(a1==null || a2==null || a1.Length!=a2.Length)
return false;
fixed (byte* p1=a1, p2=a2) {
byte* x1=p1, x2=p2;
int l = a1.Length;
for (int i=0; i < l/8; i++, x1+=8, x2+=8)
if (*((long*)x1) != *((long*)x2)) return false;
if ((l & 4)!=0) { if (*((int*)x1)!=*((int*)x2)) return false; x1+=4; x2+=4; }
if ((l & 2)!=0) { if (*((short*)x1)!=*((short*)x2)) return false; x1+=2; x2+=2; }
if ((l & 1)!=0) if (*((byte*)x1) != *((byte*)x2)) return false;
return true;
}
}

它将尽可能多的数组进行64位比较。这种情况依赖于数组开始qword对齐的事实。如果Qword没有对齐，它就可以工作，只是速度不如以前快。

它比简单的for循环执行大约7个计时器。使用j库执行与原始for循环相同的操作。使用.SequenceEqual的运行速度大约是使用ienumerator.moveNext的7倍。我认为基于LINQ的解决方案至少有那么慢或者更糟。

相关讨论

很好的解决方案。但有一个(小)提示：如果引用a1和a2相等，则比较可能会加快速度，如果为a1和b1提供相同的数组。
btw：尝试强制转换为guid进行128位比较，但这使它运行得更慢。
.NET 4 x64版本上的新测试数据：IStructualEquitable.Equals约慢180倍，SequenceEqual慢15倍，sha1哈希比较慢11倍，bitconverter~相同，不安全的7倍快，pinvoke快11倍。相当酷，不安全只比memcmp上的p/invoke慢一点。
我理解您的代码，但不理解您对"qword对齐"的评论。它是什么？为什么会影响性能？
这个链接提供了关于为什么内存对齐很重要的详细信息ibm.com/developerworks/library/pa-dalign-因此，一个优化可能是检查对齐情况，如果两个数组的对齐量相同，则执行字节比较，直到它们都位于Qword边界上。
@哈夫托尔：有趣的文章。但它已经过时了(2005年2月)。我想知道现在情况如何(例如，如果一些处理器仍然要求操作系统处理对齐问题)。
当a1和a2都为空时，这不会给出假值吗？
@hafthor您应该将"新的测试数据"集成到您的答案中，以获得更好的可视性。我认为这真的让事情变得有了远见！
@哈夫托尔，你如何使用比特转换器比较阵列？
@克里斯蒂亚科涅斯库我把凯文德里格的回答翻了个圈。我应该做的是让测试套件和我的结果在Github上可用，并在我的答案上链接到它。
如果a1或a2为空，if(a1==null || a2==null || a1.Length!=a2.Length)将抛出异常，因为长度将是对空对象的引用。
@robear en.wikipedia.org/wiki/short-circuit_评估
谢谢：出于某种原因，我不认为是C干的。
@r&252；digerstevens在开头添加一个简单的if (a1 == a2) return true;的想法也会使这个返回成为现实，如果两者都为空，解决@nawfal对空值比较不相等的担忧。
@哈夫托尔不安全可能比松沃克更快的循环展开。看看我的答案。
关于pinned gc对象是64位对齐的假设，很可能是这样，但是您知道任何官方提到或保证吗？它可能只是遵循GC堆对齐，这将是一个可靠的代理，可以对其进行严格的强制执行。你有没有在压力下检查过x86？另外，对于你的陈述，一个小的点，即错位将运行"但不是那么快"。公平地说，您可能会注意到，通过不断地坚持歪斜访问，您的代码在这种(完全排除的)情况下会永久受到相当严重的惩罚，甚至可能比字节访问更糟糕。
@R&252；Digerstevens完全并适当地尊重原始海报(我们当然要撤销)，我添加了您提议的更改。正如您注意到的，这增加了引用相等作为放弃比较的真正积极因素(在本例中避免完全固定)，正式化了一个新的正确性假设，即null==null，同时也避免了NullReferenceException情况。与以前相比，null永远不等于任何byte[0]。

Span提供了一种极具竞争力的替代方案，无需在自己的应用程序的代码库中添加混淆和/或不可移植的绒毛：

1
2
3
4
5

// byte[] is implicitly convertible to ReadOnlySpan<byte>
static bool ByteArrayCompare(ReadOnlySpan<byte> a1, ReadOnlySpan<byte> a2)
{
return a1.SequenceEqual(a2);
}

在这里可以找到.NET Core 2.2.3之后的实现(guts)。

我修改了@eliarbel的要点，将此方法添加为SpansEqual，删除其他基准中不太有趣的执行者，使用不同的数组大小、输出图运行它，并将SpansEqual标记为基线，以便报告不同方法与SpansEqual的比较情况。

下面的数字来自结果，稍微编辑以删除"错误"列。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

| Method | ByteCount | Mean | StdDev | Ratio |
|-------------- |----------- |-------------------:|------------------:|------:|
| SpansEqual | 15 | 3.813 ns | 0.0043 ns | 1.00 |
| LongPointers | 15 | 4.768 ns | 0.0081 ns | 1.25 |
| Unrolled | 15 | 17.763 ns | 0.0319 ns | 4.66 |
| PInvokeMemcmp | 15 | 12.280 ns | 0.0221 ns | 3.22 |
| | | | | |
| SpansEqual | 1026 | 29.181 ns | 0.0461 ns | 1.00 |
| LongPointers | 1026 | 63.050 ns | 0.0785 ns | 2.16 |
| Unrolled | 1026 | 39.070 ns | 0.0412 ns | 1.34 |
| PInvokeMemcmp | 1026 | 44.531 ns | 0.0581 ns | 1.53 |
| | | | | |
| SpansEqual | 1048585 | 43,838.865 ns | 56.7144 ns | 1.00 |
| LongPointers | 1048585 | 59,629.381 ns | 194.0304 ns | 1.36 |
| Unrolled | 1048585 | 54,765.863 ns | 34.2403 ns | 1.25 |
| PInvokeMemcmp | 1048585 | 55,250.573 ns | 49.3965 ns | 1.26 |
| | | | | |
| SpansEqual | 2147483591 | 247,237,201.379 ns | 2,734,143.0863 ns | 1.00 |
| LongPointers | 2147483591 | 241,535,134.852 ns | 2,720,870.8915 ns | 0.98 |
| Unrolled | 2147483591 | 240,170,750.054 ns | 2,729,935.0576 ns | 0.97 |
| PInvokeMemcmp | 2147483591 | 238,953,916.032 ns | 2,692,490.7016 ns | 0.97 |

。

我很惊讶地看到SpansEqual在最大数组大小方法方面没有名列前茅，但是差别太小了，我认为这永远都不重要。

我的系统信息：

1
2
3
4
5
6

BenchmarkDotNet=v0.11.5, OS=Windows 10.0.17134.706 (1803/April2018Update/Redstone4)
Intel Core i7-6850K CPU 3.60GHz (Skylake), 1 CPU, 12 logical and 6 physical cores
Frequency=3515626 Hz, Resolution=284.4444 ns, Timer=TSC
.NET Core SDK=2.2.202
[Host] : .NET Core 2.2.3 (CoreCLR 4.6.27414.05, CoreFX 4.6.27414.05), 64bit RyuJIT
DefaultJob : .NET Core 2.2.3 (CoreCLR 4.6.27414.05, CoreFX 4.6.27414.05), 64bit RyuJIT

相关讨论

如果您不反对这样做，您可以导入J程序集"vjslib.dll"并使用它的数组.equals(byte[]，byte[])方法…

如果有人嘲笑你，别怪我…

编辑：我用Reflector来分解代码，因为它值不了多少钱，下面是它的样子：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

public static bool equals(sbyte[] a1, sbyte[] a2)
{
if (a1 == a2)
{
return true;
}
if ((a1 != null) && (a2 != null))
{
if (a1.Length != a2.Length)
{
return false;
}
for (int i = 0; i < a1.Length; i++)
{
if (a1[i] != a2[i])
{
return false;
}
}
return true;
}
return false;
}

.NET 3.5和更新版本有一个新的公共类型，即封装byte[]的System.Data.Linq.Binary。它实现了(实际上)比较两个字节数组的IEquatable。注意，System.Data.Linq.Binary也有来自byte[]的隐式转换运算符。

msdn文档：system.data.linq.binary

Equals方法的反射镜反编译：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

private bool EqualsTo(Binary binary)
{
if (this != binary)
{
if (binary == null)
{
return false;
}
if (this.bytes.Length != binary.bytes.Length)
{
return false;
}
if (this.hashCode != binary.hashCode)
{
return false;
}
int index = 0;
int length = this.bytes.Length;
while (index < length)
{
if (this.bytes[index] != binary.bytes[index])
{
return false;
}
index++;
}
}
return true;
}

有趣的是，如果两个二进制对象的散列值相同，那么它们只能进行逐字节比较循环。然而，这是以计算Binary对象的构造函数中的哈希(通过使用for循环遍历数组：-)为代价的。

上述实现意味着，在最坏的情况下，您可能需要遍历数组三次：首先计算array1的散列，然后计算array2的散列，最后(因为这是最坏的情况，长度和散列相等)将array1中的字节与array2中的字节进行比较。

总的来说，尽管System.Data.Linq.Binary内置于bcl中，但我认为它不是比较两个字节数组的最快方法。

我提出了一个类似的问题，检查字节[]是否充满了零。(simd代码被破坏了，所以我从这个答案中删除了它。)下面是我比较中最快的代码：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

static unsafe bool EqualBytesLongUnrolled (byte[] data1, byte[] data2)
{
if (data1 == data2)
return true;
if (data1.Length != data2.Length)
return false;

fixed (byte* bytes1 = data1, bytes2 = data2) {
int len = data1.Length;
int rem = len % (sizeof(long) * 16);
long* b1 = (long*)bytes1;
long* b2 = (long*)bytes2;
long* e1 = (long*)(bytes1 + len - rem);

while (b1 < e1) {
if (*(b1) != *(b2) || *(b1 + 1) != *(b2 + 1) ||
*(b1 + 2) != *(b2 + 2) || *(b1 + 3) != *(b2 + 3) ||
*(b1 + 4) != *(b2 + 4) || *(b1 + 5) != *(b2 + 5) ||
*(b1 + 6) != *(b2 + 6) || *(b1 + 7) != *(b2 + 7) ||
*(b1 + 8) != *(b2 + 8) || *(b1 + 9) != *(b2 + 9) ||
*(b1 + 10) != *(b2 + 10) || *(b1 + 11) != *(b2 + 11) ||
*(b1 + 12) != *(b2 + 12) || *(b1 + 13) != *(b2 + 13) ||
*(b1 + 14) != *(b2 + 14) || *(b1 + 15) != *(b2 + 15))
return false;
b1 += 16;
b2 += 16;
}

for (int i = 0; i < rem; i++)
if (data1 [len - 1 - i] != data2 [len - 1 - i])
return false;

return true;
}
}

在两个256MB字节数组上测量：

1
2
3
4

UnsafeCompare : 86,8784 ms
EqualBytesSimd : 71,5125 ms
EqualBytesSimdUnrolled : 73,1917 ms
EqualBytesLongUnrolled : 39,8623 ms

。

相关讨论

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

using System.Linq; //SequenceEqual

byte[] ByteArray1 = null;
byte[] ByteArray2 = null;

ByteArray1 = MyFunct1();
ByteArray2 = MyFunct2();

if (ByteArray1.SequenceEqual<byte>(ByteArray2) == true)
{
MessageBox.Show("Match");
}
else
{
MessageBox.Show("Don't match");
}

。

相关讨论

我们再加一个！

最近，微软发布了一个特殊的nuget包，system.runtime.compilerservices.unsafe。它很特别，因为它是用IL编写的，并且提供了C_中不直接可用的低级功能。

其方法之一，Unsafe.As(object)允许将任何引用类型强制转换为另一个引用类型，跳过任何安全检查。这通常是一个非常糟糕的主意，但是如果两种类型都有相同的结构，它就可以工作。所以我们可以用它把一个byte[]转换成一个long[]：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

bool CompareWithUnsafeLibrary(byte[] a1, byte[] a2)
{
if (a1.Length != a2.Length) return false;

var longSize = (int)Math.Floor(a1.Length / 8.0);
var long1 = Unsafe.As<long[]>(a1);
var long2 = Unsafe.As<long[]>(a2);

for (var i = 0; i < longSize; i++)
{
if (long1[i] != long2[i]) return false;
}

for (var i = longSize * 8; i < a1.Length; i++)
{
if (a1[i] != a2[i]) return false;
}

return true;
}

注意，long1.Length仍然会返回原始数组的长度，因为它存储在数组内存结构中的一个字段中。

这个方法不如这里演示的其他方法快，但是它比简单的方法快得多，不使用不安全的代码或p/invoke或pinning，并且实现非常简单(IMO)。以下是我的机器的一些BenchmarkDotNet结果：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

BenchmarkDotNet=v0.10.3.0, OS=Microsoft Windows NT 6.2.9200.0
Processor=Intel(R) Core(TM) i7-4870HQ CPU 2.50GHz, ProcessorCount=8
Frequency=2435775 Hz, Resolution=410.5470 ns, Timer=TSC
[Host] : Clr 4.0.30319.42000, 64bit RyuJIT-v4.6.1637.0
DefaultJob : Clr 4.0.30319.42000, 64bit RyuJIT-v4.6.1637.0

Method | Mean | StdDev |
----------------------- |-------------- |---------- |
UnsafeLibrary | 125.8229 ns | 0.3588 ns |
UnsafeCompare | 89.9036 ns | 0.8243 ns |
JSharpEquals | 1,432.1717 ns | 1.3161 ns |
EqualBytesLongUnrolled | 43.7863 ns | 0.8923 ns |
NewMemCmp | 65.4108 ns | 0.2202 ns |
ArraysEqual | 910.8372 ns | 2.6082 ns |
PInvokeMemcmp | 52.7201 ns | 0.1105 ns |

号

我还为所有的测试创建了一个要点。

相关讨论

我开发了一种方法，在我的个人电脑上轻微地击败EDOCX1(普林特的答案)，非常轻微地击败EDOCX1(阿莱克·布尔斯基的答案)。基本上，它将循环展开4而不是8。

更新日期：2019年3月30日：

从.NET核心3.0开始，我们有SIMD支持！

这个解决方案在我的电脑上以相当大的利润增长最快：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132

#if NETCOREAPP3_0
using System.Runtime.Intrinsics.X86;
#endif
…

public static unsafe bool Compare(byte[] arr0, byte[] arr1)
{
if (arr0 == arr1)
{
return true;
}
if (arr0 == null || arr1 == null)
{
return false;
}
if (arr0.Length != arr1.Length)
{
return false;
}
if (arr0.Length == 0)
{
return true;
}
fixed (byte* b0 = arr0, b1 = arr1)
{
#if NETCOREAPP3_0
if (Avx2.IsSupported)
{
return Compare256(b0, b1, arr0.Length);
}
else if (Sse2.IsSupported)
{
return Compare128(b0, b1, arr0.Length);
}
else
#endif
{
return Compare64(b0, b1, arr0.Length);
}
}
}
#if NETCOREAPP3_0
public static unsafe bool Compare256(byte* b0, byte* b1, int length)
{
byte* lastAddr = b0 + length;
byte* lastAddrMinus128 = lastAddr - 128;
const int mask = -1;
while (b0 < lastAddrMinus128) // unroll the loop so that we are comparing 128 bytes at a time.
{
if (Avx2.MoveMask(Avx2.CompareEqual(Avx.LoadVector256(b0), Avx.LoadVector256(b1))) != mask)
{
return false;
}
if (Avx2.MoveMask(Avx2.CompareEqual(Avx.LoadVector256(b0 + 32), Avx.LoadVector256(b1 + 32))) != mask)
{
return false;
}
if (Avx2.MoveMask(Avx2.CompareEqual(Avx.LoadVector256(b0 + 64), Avx.LoadVector256(b1 + 64))) != mask)
{
return false;
}
if (Avx2.MoveMask(Avx2.CompareEqual(Avx.LoadVector256(b0 + 96), Avx.LoadVector256(b1 + 96))) != mask)
{
return false;
}
b0 += 128;
b1 += 128;
}
while (b0 < lastAddr)
{
if (*b0 != *b1) return false;
b0++;
b1++;
}
return true;
}
public static unsafe bool Compare128(byte* b0, byte* b1, int length)
{
byte* lastAddr = b0 + length;
byte* lastAddrMinus64 = lastAddr - 64;
const int mask = 0xFFFF;
while (b0 < lastAddrMinus64) // unroll the loop so that we are comparing 64 bytes at a time.
{
if (Sse2.MoveMask(Sse2.CompareEqual(Sse2.LoadVector128(b0), Sse2.LoadVector128(b1))) != mask)
{
return false;
}
if (Sse2.MoveMask(Sse2.CompareEqual(Sse2.LoadVector128(b0 + 16), Sse2.LoadVector128(b1 + 16))) != mask)
{
return false;
}
if (Sse2.MoveMask(Sse2.CompareEqual(Sse2.LoadVector128(b0 + 32), Sse2.LoadVector128(b1 + 32))) != mask)
{
return false;
}
if (Sse2.MoveMask(Sse2.CompareEqual(Sse2.LoadVector128(b0 + 48), Sse2.LoadVector128(b1 + 48))) != mask)
{
return false;
}
b0 += 64;
b1 += 64;
}
while (b0 < lastAddr)
{
if (*b0 != *b1) return false;
b0++;
b1++;
}
return true;
}
#endif
public static unsafe bool Compare64(byte* b0, byte* b1, int length)
{
byte* lastAddr = b0 + length;
byte* lastAddrMinus32 = lastAddr - 32;
while (b0 < lastAddrMinus32) // unroll the loop so that we are comparing 32 bytes at a time.
{
if (*(ulong*)b0 != *(ulong*)b1) return false;
if (*(ulong*)(b0 + 8) != *(ulong*)(b1 + 8)) return false;
if (*(ulong*)(b0 + 16) != *(ulong*)(b1 + 16)) return false;
if (*(ulong*)(b0 + 24) != *(ulong*)(b1 + 24)) return false;
b0 += 32;
b1 += 32;
}
while (b0 < lastAddr)
{
if (*b0 != *b1) return false;
b0++;
b1++;
}
return true;
}

相关讨论

我将使用不安全的代码并运行for循环，比较Int32指针。

也许您还应该考虑检查数组是否为非空。

如果你看一下.NET如何处理string.equals，你会发现它使用了一个名为equalshelper的私有方法，这个方法有一个"不安全"的指针实现。.NET Reflector是您的朋友，您可以了解如何在内部进行操作。

这可以用作字节数组比较的模板，我在博客文章中用C_实现了字节数组比较。我还做了一些基本的基准测试，看看安全实现何时比不安全实现更快。

也就是说，除非您真的需要杀手级的性能，否则我将进行一个简单的fr循环比较。

从以上建议来看，长展开的等号似乎是最好的。

跳过的方法(Enumerable.SequenceEqual、StructuralComparisons.StructuralEqualityComparer.Equals)不是Slow的病人。在265MB阵列上，我测量了：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

Host Process Environment Information:
BenchmarkDotNet.Core=v0.9.9.0
OS=Microsoft Windows NT 6.2.9200.0
Processor=Intel(R) Core(TM) i7-3770 CPU 3.40GHz, ProcessorCount=8
Frequency=3323582 ticks, Resolution=300.8802 ns, Timer=TSC
CLR=MS.NET 4.0.30319.42000, Arch=64-bit RELEASE [RyuJIT]
GC=Concurrent Workstation
JitModules=clrjit-v4.6.1590.0

Type=CompareMemoriesBenchmarks Mode=Throughput

Method | Median | StdDev | Scaled | Scaled-SD |
----------------------- |------------ |---------- |------- |---------- |
NewMemCopy | 30.0443 ms | 1.1880 ms | 1.00 | 0.00 |
EqualBytesLongUnrolled | 29.9917 ms | 0.7480 ms | 0.99 | 0.04 |
msvcrt_memcmp | 30.0930 ms | 0.2964 ms | 1.00 | 0.03 |
UnsafeCompare | 31.0520 ms | 0.7072 ms | 1.03 | 0.04 |
ByteArrayCompare | 212.9980 ms | 2.0776 ms | 7.06 | 0.25 |

。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

OS=Windows
Processor=?, ProcessorCount=8
Frequency=3323582 ticks, Resolution=300.8802 ns, Timer=TSC
CLR=CORE, Arch=64-bit ? [RyuJIT]
GC=Concurrent Workstation
dotnet cli version: 1.0.0-preview2-003131

Type=CompareMemoriesBenchmarks Mode=Throughput

Method | Median | StdDev | Scaled | Scaled-SD |
----------------------- |------------ |---------- |------- |---------- |
NewMemCopy | 30.1789 ms | 0.0437 ms | 1.00 | 0.00 |
EqualBytesLongUnrolled | 30.1985 ms | 0.1782 ms | 1.00 | 0.01 |
msvcrt_memcmp | 30.1084 ms | 0.0660 ms | 1.00 | 0.00 |
UnsafeCompare | 31.1845 ms | 0.4051 ms | 1.03 | 0.01 |
ByteArrayCompare | 212.0213 ms | 0.1694 ms | 7.03 | 0.01 |

相关讨论

我使用附加的程序.NET 4.7发布版本在没有附加调试器的情况下进行了一些测量。我认为人们一直在使用错误的度量标准，因为如果您关心速度，那么需要多长时间来确定两个字节数组是否相等。即吞吐量(字节)。

1
2
3
4
5

StructuralComparison : 4.6 MiB/s
for : 274.5 MiB/s
ToUInt32 : 263.6 MiB/s
ToUInt64 : 474.9 MiB/s
memcmp : 8500.8 MiB/s

。

如你所见，没有比memcmp更好的方法了，它的数量级更快。简单的for循环是第二个最佳选择。我仍然很困惑为什么微软不能简单地包括一个Buffer.Compare方法。

[程序.cs]：

using System;
using System.Collections;
using System.Collections.Generic;
using System.Diagnostics;
using System.Linq;
using System.Runtime.InteropServices;
using System.Text;
using System.Threading.Tasks;

namespace memcmp
{
class Program
{
static byte[] TestVector(int size)
{
var data = new byte[size];
using (var rng = new System.Security.Cryptography.RNGCryptoServiceProvider())
{
rng.GetBytes(data);
}
return data;
}

static TimeSpan Measure(string testCase, TimeSpan offset, Action action, bool ignore = false)
{
var t = Stopwatch.StartNew();
var n = 0L;
while (t.Elapsed < TimeSpan.FromSeconds(10))
{
action();
n++;
}
var elapsed = t.Elapsed - offset;
if (!ignore)
{
Console.WriteLine($"{testCase,-16} : {n / elapsed.TotalSeconds,16:0.0} MiB/s");
}
return elapsed;
}

[DllImport("msvcrt.dll", CallingConvention = CallingConvention.Cdecl)]
static extern int memcmp(byte[] b1, byte[] b2, long count);

static void Main(string[] args)
{
// how quickly can we establish if two sequences of bytes are equal?

// note that we are testing the speed of different comparsion methods

var a = TestVector(1024 * 1024); // 1 MiB
var b = (byte[])a.Clone();

// was meant to offset the overhead of everything but copying but my attempt was a horrible mistake... should have reacted sooner due to the initially ridiculous throughput values...
// Measure("offset", new TimeSpan(), () => { return; }, ignore: true);
var offset = TimeZone.Zero

Measure("StructuralComparison", offset, () =>
{
StructuralComparisons.StructuralEqualityComparer.Equals(a, b);
});

Measure("for", offset, () =>
{
for (int i = 0; i < a.Length; i++)
{
if (a[i] != b[i]) break;
}
});

Measure("ToUInt32", offset, () =>
{
for (int i = 0; i < a.Length; i += 4)
{
if (BitConverter.ToUInt32(a, i) != BitConverter.ToUInt32(b, i)) break;
}
});

Measure("ToUInt64", offset, () =>
{
for (int i = 0; i < a.Length; i += 8)
{
if (BitConverter.ToUInt64(a, i) != BitConverter.ToUInt64(b, i)) break;
}
});

Measure("memcmp", offset, () =>
{
memcmp(a, b, a.Length);
});
}
}
}

我在这里没有看到很多Linq解决方案。

我不确定性能的影响，但是我通常坚持使用linq作为经验法则，然后在必要时进行优化。

1
2
3
4

public bool CompareTwoArrays(byte[] array1, byte[] array2)
{
return !array1.Where((t, i) => t != array2[i]).Any();
}

。

请注意，这只适用于相同大小的数组。分机看起来是这样的

1
2
3
4
5

public bool CompareTwoArrays(byte[] array1, byte[] array2)
{
if (array1.Length != array2.Length) return false;
return !array1.Where((t, i) => t != array2[i]).Any();
}

。

相关讨论

找不到我完全满意的解决方案(合理的性能，但没有不安全的代码/pinvoke)，因此我想出了一个解决方案，没有真正的原创，但有效：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

/// <summary>
///
/// </summary>
/// <param name="array1"></param>
/// <param name="array2"></param>
/// <param name="bytesToCompare"> 0 means compare entire arrays</param>
/// <returns></returns>
public static bool ArraysEqual(byte[] array1, byte[] array2, int bytesToCompare = 0)
{
if (array1.Length != array2.Length) return false;

var length = (bytesToCompare == 0) ? array1.Length : bytesToCompare;
var tailIdx = length - length % sizeof(Int64);

//check in 8 byte chunks
for (var i = 0; i < tailIdx; i += sizeof(Int64))
{
if (BitConverter.ToInt64(array1, i) != BitConverter.ToInt64(array2, i)) return false;
}

//check the remainder of the array, always shorter than 8 bytes
for (var i = tailIdx; i < length; i++)
{
if (array1[i] != array2[i]) return false;
}

return true;
}

。

性能与本页上的其他一些解决方案相比：

简单循环：19837 ticks，1.00

*比特转换器：4886滴答，4.06

不安全：1636滴答，12.12

EqualBytesLongUnrolled:637滴答，31.09

p/invoke memcmp:369滴答，53.67

在linqpad中测试，1000000个字节的相同数组(最坏情况)，每个迭代500次。

相关讨论

为了比较短字节数组，下面是一个有趣的黑客：

1
2
3
4
5

if(myByteArray1.Length != myByteArray2.Length) return false;
if(myByteArray1.Length == 8)
return BitConverter.ToInt64(myByteArray1, 0) == BitConverter.ToInt64(myByteArray2, 0);
else if(myByteArray.Length == 4)
return BitConverter.ToInt32(myByteArray2, 0) == BitConverter.ToInt32(myByteArray2, 0);

。

然后我可能会得出问题中列出的解决方案。

对这段代码进行性能分析是很有趣的。

相关讨论

我确定了一个解决方案，灵感来自于Arekbulski发布的EqualBytesLongUnrolled方法，还有一个额外的优化。在我的例子中，数组中的数组差异往往靠近数组的尾部。在测试中，我发现当大型阵列出现这种情况时，能够以相反的顺序比较阵列元素会比基于memcmp的解决方案带来巨大的性能增益。这就是解决方案：

public enum CompareDirection { Forward, Backward }

private static unsafe bool UnsafeEquals(byte[] a, byte[] b, CompareDirection direction = CompareDirection.Forward)
{
// returns when a and b are same array or both null
if (a == b) return true;

// if either is null or different lengths, can't be equal
if (a == null || b == null || a.Length != b.Length)
return false;

const int UNROLLED = 16; // count of longs 'unrolled' in optimization
int size = sizeof(long) * UNROLLED; // 128 bytes (min size for 'unrolled' optimization)
int len = a.Length;
int n = len / size; // count of full 128 byte segments
int r = len % size; // count of remaining 'unoptimized' bytes

// pin the arrays and access them via pointers
fixed (byte* pb_a = a, pb_b = b)
{
if (r > 0 && direction == CompareDirection.Backward)
{
byte* pa = pb_a + len - 1;
byte* pb = pb_b + len - 1;
byte* phead = pb_a + len - r;
while(pa >= phead)
{
if (*pa != *pb) return false;
pa--;
pb--;
}
}

if (n > 0)
{
int nOffset = n * size;
if (direction == CompareDirection.Forward)
{
long* pa = (long*)pb_a;
long* pb = (long*)pb_b;
long* ptail = (long*)(pb_a + nOffset);
while (pa < ptail)
{
if (*(pa + 0) != *(pb + 0) || *(pa + 1) != *(pb + 1) ||
*(pa + 2) != *(pb + 2) || *(pa + 3) != *(pb + 3) ||
*(pa + 4) != *(pb + 4) || *(pa + 5) != *(pb + 5) ||
*(pa + 6) != *(pb + 6) || *(pa + 7) != *(pb + 7) ||
*(pa + 8) != *(pb + 8) || *(pa + 9) != *(pb + 9) ||
*(pa + 10) != *(pb + 10) || *(pa + 11) != *(pb + 11) ||
*(pa + 12) != *(pb + 12) || *(pa + 13) != *(pb + 13) ||
*(pa + 14) != *(pb + 14) || *(pa + 15) != *(pb + 15)
)
{
return false;
}
pa += UNROLLED;
pb += UNROLLED;
}
}
else
{
long* pa = (long*)(pb_a + nOffset);
long* pb = (long*)(pb_b + nOffset);
long* phead = (long*)pb_a;
while (phead < pa)
{
if (*(pa - 1) != *(pb - 1) || *(pa - 2) != *(pb - 2) ||
*(pa - 3) != *(pb - 3) || *(pa - 4) != *(pb - 4) ||
*(pa - 5) != *(pb - 5) || *(pa - 6) != *(pb - 6) ||
*(pa - 7) != *(pb - 7) || *(pa - 8) != *(pb - 8) ||
*(pa - 9) != *(pb - 9) || *(pa - 10) != *(pb - 10) ||
*(pa - 11) != *(pb - 11) || *(pa - 12) != *(pb - 12) ||
*(pa - 13) != *(pb - 13) || *(pa - 14) != *(pb - 14) ||
*(pa - 15) != *(pb - 15) || *(pa - 16) != *(pb - 16)
)
{
return false;
}
pa -= UNROLLED;
pb -= UNROLLED;
}
}
}

if (r > 0 && direction == CompareDirection.Forward)
{
byte* pa = pb_a + len - r;
byte* pb = pb_b + len - r;
byte* ptail = pb_a + len;
while(pa < ptail)
{
if (*pa != *pb) return false;
pa++;
pb++;
}
}
}

return true;
}

号

我想到了许多图形卡内置的块传输加速方法。但是，如果不想在非托管和依赖硬件的代码中实现逻辑的整个部分，那么您就必须按字节顺序复制所有数据，因此这对您没有多大帮助…

与上面所示方法类似的另一种优化方法是将尽可能多的数据存储在long[]中，而不是从一开始就存储在byte[]中，例如，如果是从二进制文件按顺序读取数据，或者如果使用内存映射文件，则将数据读取为long[]或单个长值。然后，对于包含相同数据量的byte[]，比较循环将只需要迭代次数的1/8。需要比较的时间和频率与需要以逐字节方式访问数据的时间和频率有关，例如在API调用中使用数据作为需要字节[]的方法中的参数。最后，你只知道你是否真的知道用例…

相关讨论

这几乎肯定要比这里给出的任何其他版本慢得多，但写起来很有趣。

1
2
3
4

static bool ByteArrayEquals(byte[] a1, byte[] a2)
{
return a1.Zip(a2, (l, r) => l == r).All(x => x);
}

相关讨论

抱歉，如果您正在寻找一种管理方式，您已经正确地执行了它，据我所知，BCL中没有内置的方法来执行此操作。

您应该添加一些初始的空检查，然后像在bcl中那样重新使用它。

相关讨论

使用SequenceEquals进行比较。

因为上面的许多花哨的解决方案不适用于UWP，而且因为我喜欢LINQ和功能性方法，所以我向您施压，让您了解我的版本。为了避免第一个差异出现时的比较，我选择了.FirstOrDefault()。

1
2
3

public static bool CompareByteArrays(byte[] ba0, byte[] ba1) =>
!(ba0.Length != ba1.Length || Enumerable.Range(1,ba0.Length)
.FirstOrDefault(n => ba0[n] != ba1[n]) > 0);

。

相关讨论

简短的回答是：

1
2
3
4

public bool Compare(byte[] b1, byte[] b2)
{
return Encoding.ASCII.GetString(b1) == Encoding.ASCII.GetString(b2);
}

通过这种方式，您可以使用优化的.NET字符串比较来进行字节数组比较，而无需编写不安全的代码。这是在后台完成的方法：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53

private unsafe static bool EqualsHelper(String strA, String strB)
{
Contract.Requires(strA != null);
Contract.Requires(strB != null);
Contract.Requires(strA.Length == strB.Length);

int length = strA.Length;

fixed (char* ap = &strA.m_firstChar) fixed (char* bp = &strB.m_firstChar)
{
char* a = ap;
char* b = bp;

// Unroll the loop

#if AMD64
// For the AMD64 bit platform we unroll by 12 and
// check three qwords at a time. This is less code
// than the 32 bit case and is shorter
// pathlength.

while (length >= 12)
{
if (*(long*)a != *(long*)b) return false;
if (*(long*)(a+4) != *(long*)(b+4)) return false;
if (*(long*)(a+8) != *(long*)(b+8)) return false;
a += 12; b += 12; length -= 12;
}
#else
while (length >= 10)
{
if (*(int*)a != *(int*)b) return false;
if (*(int*)(a+2) != *(int*)(b+2)) return false;
if (*(int*)(a+4) != *(int*)(b+4)) return false;
if (*(int*)(a+6) != *(int*)(b+6)) return false;
if (*(int*)(a+8) != *(int*)(b+8)) return false;
a += 10; b += 10; length -= 10;
}
#endif

// This depends on the fact that the String objects are
// always zero terminated and that the terminating zero is not included
// in the length. For odd string sizes, the last compare will include
// the zero terminator.
while (length > 0)
{
if (*(int*)a != *(int*)b) break;
a += 2; b += 2; length -= 2;
}

return (length <= 0);
}
}

。

相关讨论

如果您正在寻找一个非常快的字节数组相等比较器，我建议您看看STSDB实验室的文章：字节数组相等比较器。它提供了一些字节[]数组相等性比较的最快实现，并对性能进行了测试和总结。

您还可以关注这些实现：

bigendian byte array比较器-从左到右快速字节[]数组比较器(bigendian)bigendianbytearrayEqualityComparer--从左到右快速字节[]相等比较器(bigendian)LittleEndianBytearrayComparer-从右到左快速字节[]数组比较器(LittleEndian)LittleEndianBytearrayEqualityComparer-快速字节[]从右到左的相等比较器(LittleEndian)

如果您有一个巨大的字节数组，您可以通过将它们转换为字符串来比较它们。

你可以用类似的东西

1
2
3
4

byte[] b1 = // Your array
byte[] b2 = // Your array
string s1 = Encoding.Default.GetString( b1 );
string s2 = Encoding.Default.GetString( b2 );

号

我用过这个，我看到了巨大的性能影响。

相关讨论