为什么在C＃中没有引用计数+垃圾收集？

Why no Reference Counting + Garbage Collection in C#?

我来自C++背景，我和C一直工作了大约一年。像其他许多人一样，我对为什么确定性资源管理不内置于语言感到困惑。我们有Dispose模式，而不是确定性析构函数。人们开始怀疑通过他们的代码传播易感染的癌症是否值得这么做。

在我的C++偏颇的大脑中，好像使用引用计数的智能指针，确定性析构函数是垃圾回收器的一个主要步骤，它要求您实现IDISPOSIDLE和调用DATABLE来清理非内存资源。不可否认，我不是很聪明…所以我问这个纯粹是为了更好地理解为什么事情是这样的。

如果C被修改为：

对象被引用计数。当一个对象的引用计数为零时，对该对象调用一个资源清理方法，然后将该对象标记为垃圾收集。垃圾收集发生在将来某个不确定的时间，此时内存被回收。在这种情况下，您不必实现IDisposable或记住调用Dispose。如果要释放非内存资源，则只需实现资源清理功能。

为什么这是个坏主意？
这会破坏垃圾回收的目的吗？
实施这样一件事是可行的吗？

编辑：从目前的评论来看，这是个坏主意，因为

GC速度更快，无需参考计数

对象图中循环的处理问题

我认为数字1是有效的，但数字2使用弱引用很容易处理。

因此，速度优化是否会超过以下缺点：

不能及时释放非内存资源

可能会很快释放非内存资源

如果您的资源清理机制是确定性的，并且内置于语言中，那么您可以消除这些可能性。

相关讨论

BradAbrams发布了一封来自BrianHarry的电子邮件，这封邮件是在开发.NET框架时写的。它详细说明了没有使用引用计数的许多原因，即使早期的优先事项之一是保持与使用引用计数的vb6的语义等价。它研究了一些可能性，例如计算了一些类型的引用，而没有计算其他类型的引用(IRefCounted)或统计特定实例，以及为什么这些解决方案都不被认为是可接受的。

Because [the issue of resource
management and deterministic
finalization] is such a
sensitive topic I am going to try to
be as precise and complete in my
explanation as I can. I apologize for
the length of the mail. The first 90%
of this mail is trying to convince you
that the problem really is hard. In
that last part, I'll talk about things
we are trying to do but you need the
first part to understand why we are
looking at these options.

...

We initially started with the
assumption that the solution would
take the form of automatic ref
counting (so the programmer couldn't
forget) plus some other stuff to
detect and handle cycles
automatically. ...we ultimately concluded that
this was not going to work in the
general case.

...

In summary:

We feel that it is very important to solve the cycle problem
without forcing programmers to
understand, track down and design
around these complex data structure
problems.

We want to make sure we have a high performance (both speed and
working set) system and our analysis
shows that using reference counting
for every single object in the system
will not allow us to achieve this
goal.

For a variety of reasons, including composition and casting
issues, there is no simple transparent
solution to having just those objects
that need it be ref counted.

We chose not to select a solution that provides deterministic
finalization for a single
language/context because it inhibits
interop with other languages and
causes bifurcation of class libraries
by creating language specific
versions.

相关讨论

垃圾收集器不要求您为定义的每个类/类型编写Dispose方法。当您需要显式地做一些清理工作时，您只定义一个；当您显式地分配了本机资源时。大多数情况下，GC只是回收内存，即使您只对对象执行new()之类的操作。

gc进行引用计数-但是它通过查找每次执行收集时"可访问"的对象(Ref Count > 0)以不同的方式进行计数…它并不是以整数计数器的方式完成的。.收集无法访问的对象(Ref Count = 0)。这样，运行时就不必在每次分配或释放对象时都进行内务管理/更新表…应该更快。

C++(确定性)和C(非确定性)之间唯一的主要区别是当对象被清理时。你无法预测一个对象在C中的确切收集时间。

无数次插拔：我建议你读一下杰弗里·里克特通过C写的关于CLR中GC的站立章节，以防你真的对GC的工作方式感兴趣。

相关讨论

在C中尝试了参考计数。我相信，那些发布rotor(一个提供源代码的clr的参考实现)的人确实引用了基于计数的gc，只是为了看看它将如何与世代的gc进行比较。结果令人惊讶，"stock"GC速度更快，甚至不好笑。我不清楚我在哪里听到的，我想那是汉斯孟特的播客之一。如果你想看到C++GET基本上被压碎的性能比较，与谷歌Raymond Chen的中文词典应用程序比较。他做了一个C++版本，然后Rico Mariani做了一个C版本。我认为雷蒙德需要6次迭代来最终打败C版本，但到那时，他必须放弃所有优秀的C++对象，并进入Win32 API级别。整个事情都变成了一个性能黑客。同时，C程序只优化了一次，最终看起来还是一个不错的OO项目。

相关讨论

型已知参考计数总体上比跟踪GCS慢。但是，它的优点是最大暂停时间较短，而且内存通常会尽快释放。
型从内存来看，我不认为Rotor运行时非常优化，所以我认为它不是一个很好的数据点。+1.对于字典应用程序参考，这很有趣。以下是参考链接：blogs.msdn.com/ricom/archive/2005/05/10/416151.aspx
型我觉得有必要指出陈先生不得不去做的一个非平凡的工作量，这是因为标准C++库——或者可能只是目前的大多数实现——是一个性能的CRAP(被设计为一个"足够智能的优化器")——完全可以用OO方式编写一个高效的程序。
型西蒙：尽管如此，但事实上，使用目前可用的工具，编写C代码比编写良好的C++代码要容易得多，速度快，而且容易出错。
型@未知："[引用计数]具有较低的最大暂停时间的优点，并且通常会尽快释放内存。"相反，引用计数会引入无限的暂停时间，因为整个堆都可以在析构函数的雪崩中收集，而引用计数会将收集延迟到范围结束(通常比活动结束晚)。
型这取决于参考计数算法。如果您在每次分配时使用它，它将杀死您，因为它不仅是一个写访问，而且是一个完整的具有写屏障的CA，以使引用计数mt安全。但是，如果您使用cocoa风格的内存策略，我怀疑跟踪GC速度更快。
型@洛萨：你能详细介绍一下"可可风格的记忆策略"吗？显然，在几十年的GC研究论文中有大量的证据表明跟踪GC更快…
型@在现代参考计数算法中，jonharop不需要同时处理所有的增量/减量。相反，它们被放置到一个队列中并定期进行处理。它允许非常小的暂停时间：research.watson.ibm.com/researcher/files/us bacon/&hellip；
型@Lukequinane：所以当你写"更快"的时候，你的意思是延迟而不是吞吐量？
有趣的例子。所以，我想简单的理解是，如果我在一个向量中有10000个指针，并且把这些指针复制到1000个新的向量上，基本上每个副本，我必须不断增加指针的计数。这相当于10000*1000个计数的增量。但是，在C上，它只是忽略了它，并在最后计算它。它可能在1之后停止计数，因为不需要知道1000个向量存储了这个指针。另一个重要的事情可能是内存碎片，如果您过早地释放它。简而言之，在C++上，垃圾邮件是新的，在C++上，不要垃圾邮件新的SydDypTR。

C++风格的智能指针引用计数和引用计数垃圾收集有区别。我也在我的博客上讨论过这些差异，但这里有一个简短的总结：< BR>< BR>

C++样式引用计数：

递减时的无边界成本：如果一个大型数据结构的根被递减到零，则有一个无边界成本来释放所有数据。
手动循环收集：为了防止循环数据结构泄漏内存，程序员必须用一个弱的智能指针替换循环的一部分，从而手动破坏任何潜在的结构。这是潜在缺陷的另一个来源。

引用计数垃圾收集

延迟rc：堆栈和寄存器引用忽略对对象引用计数的更改。相反，当触发GC时，这些对象通过收集根集来保留。对引用计数的更改可以延迟并分批处理。这将导致更高的吞吐量。
合并：使用写屏障可以合并对引用计数的更改。这使得可以忽略对对象引用计数的大多数更改，从而提高频繁变化的引用的rc性能。
循环检测：对于完整的GC实现，还必须使用循环检测器。然而，可以以增量的方式执行循环检测，这反过来意味着有限的GC时间。

基本上，可以实现一个高性能的基于RC的垃圾收集器，用于运行时，如Java的JVM和.NET CLR运行时。

我认为跟踪收集器的使用部分是出于历史原因：最近在引用计数方面的许多改进都是在JVM和.NET运行时发布之后才开始的。研究工作也需要时间过渡到生产项目。< BR>< BR>

确定性资源处置

这几乎是一个单独的问题。.NET运行时使使用IDisposable接口成为可能，如下示例。我也喜欢Gishu的回答。

@skrymsli，这是"使用"关键字的目的。例如。：

1
2
3
4
5
6
7
8
9
10
11
12

public abstract class BaseCriticalResource : IDiposable {
~ BaseCriticalResource () {
Dispose(false);
}

public void Dispose() {
Dispose(true);
GC.SuppressFinalize(this); // No need to call finalizer now
}

protected virtual void Dispose(bool disposing) { }
}

然后添加具有关键资源的类：

1
2
3
4
5
6
7
8
9
10
11
12

public class ComFileCritical : BaseCriticalResource {

private IntPtr nativeResource;

protected override Dispose(bool disposing) {
// free native resources if there are any.
if (nativeResource != IntPtr.Zero) {
ComCallToFreeUnmangedPointer(nativeResource);
nativeResource = IntPtr.Zero;
}
}
}

然后使用它就简单到：

1
2
3
4
5

using (ComFileCritical fileResource = new ComFileCritical()) {
// Some actions on fileResource
}

// fileResource's critical resources freed at this point

另请参见正确实现IDisposable。

相关讨论

有趣的博客文章…比起释放可能是时间关键的非内存资源，我更关心的是释放内存。(想想拥有文件锁的COM对象的句柄。您希望锁在完成操作后释放，而不是在将来某个时候GC运行终结器时释放。)我认为必须有一些GC和智能指针的组合，它们提供了两个世界中最好的，在这两个世界中，您可以获得异常的内存管理，但关键资源可以确定地释放，而不会给您带来不必要的负担。E程序员。
当我问这不是因为我不知道如何使用或正确地处置资源。我只是觉得我们必须这么做是不对的！它通常如您上面所描述的那样工作。如果你需要保留这个资源怎么办？现在需要实现IDisposable。另外，程序员必须知道在使用结构中包装这些东西。(我知道，使用fxcop！)这只是用于调用free、release、dispose的语法甜头。编译器应该知道怎么做。这是C++ RAII成语的主要优点。对不起，我可能只是个哑巴。
@skrymsli你并不是唯一一个"哑巴"的人，几年前我也建议过：dotnet247.com/247reference/msgs/26/131667.aspx
@ Skrymsli：FWIW，EDCOX1，0是C，RAII等其他语言的解决方案更像C++中的C++。
"有可能实现一个高性能的基于RC的垃圾收集器，用于运行时，如Java的JVM和.NETCLR运行时"。使用跟踪而不是RC生成GCS，因为这不是真的。
@Jonharrop您应该查看现代引用计数实现，例如Ulterior引用计数。它们可以实现比简单的标记扫描更高的吞吐量，并且仍然保持较低的暂停时间。
@Luke"您应该查看现代引用计数实现，例如Ulterior引用计数"。这已经10年了，它只通过延迟引入浮动垃圾的减量(即牺牲了幼稚引用计数的核心好处之一)获得更好的性能。这些用于JVM和.NET的"基于RC的高性能垃圾收集器"在哪里？《垃圾收集手册》(2012年)并未提及它们的存在……GCHANDBOOK.ORG
@这里有一份更新的报纸：为伯爵而降？.I还应该提到Steve在Anu教过我，所以我在这方面有点偏袒：)因为在大多数情况下，在选择GC时显然需要权衡，但在某些情况下，RC工作得很好，我不确定为什么现代VM中没有更多的GC算法可用。最后我听说ApacheHarmony将考虑添加mmtk以允许使用更多的GC算法。
@他们声称引用计数"一旦不再被引用就可以回收对象"，但随后承认这将是"极其昂贵的"，并声明他们"不知道任何依赖引用计数的高性能系统"。此外，假装引用计数比跟踪收集更增量也是错误的。简单的引用计数会导致雪崩，但可以使ATL递增。朴素的标记扫描是一个批处理操作，但Dijkstra风格的三色标记可以使它像增量一样。
另外，假设它们只在只有两个核心的机器上基准化串行程序，我是否正确？如果是这样，那是非常不明智的，因为四核更常见，而且大多数与性能相关的程序是并行的。
我想看看实验测量结果来证明他们关于"恢复的迅速性"的说法是正确的。根据我的经验，基于范围的引用计数比代标记扫描产生更多的浮动垃圾，并且要慢很多倍。延迟将提高性能，但也会增加浮动垃圾的数量。fwiw，我使用的唯一一个基于参考计数的生产系统是mathematica，它很糟糕(非常慢，停顿时间长)。

I come from a C++ background and I've been working with C# for about a year. Like many others I'm flummoxed as to why deterministic resource management is not built-in to the language.

using结构提供"确定性"资源管理，并内置于C语言中。注意，"确定性"是指Dispose保证在using块开始执行后的代码之前被调用。还要注意，这不是"确定性"这个词的意思，但每个人似乎都在这种情况下滥用它，这很糟糕。

In my C++-biased brain it seems like using reference-counted smart pointers with deterministic destructors is a major step up from a garbage collector that requires you to implement IDisposable and call dispose to clean up your non-memory resources.

垃圾收集器不要求您实现IDisposable。实际上，GC完全不知道它。

Admittedly, I'm not very smart... so I'm asking this purely from a desire to better understand why things are the way they are.

跟踪垃圾收集是模拟无限内存机的一种快速、可靠的方法，从而使程序员摆脱了手动内存管理的负担。这消除了几类错误(悬空指针、释放得太快、双重释放、忘记释放)。

What if C# were modified such that:

Objects are reference counted. When an object's reference count goes to zero, a resource cleanup method is called deterministically on the object,

考虑两个线程之间共享的对象。线程竞相将引用计数递减为零。一个线程将赢得比赛，另一个线程将负责清理。这是不确定性的。认为参考计数本质上是确定性的观点是一个神话。

另一个常见的神话是引用计数在程序中最早可能的点释放对象。它没有。减量总是被延迟，通常是在范围的末尾。这样可以使对象的存活时间比需要的时间长，从而使所谓的"漂浮垃圾"随处可见。请注意，特别是，一些跟踪垃圾收集器可以并且可以在基于范围的引用计数实现之前回收对象。

then the object is marked for garbage collection. Garbage collection occurs at some non-deterministic time in the future at which point memory is reclaimed. In this scenario you don't have to implement IDisposable or remember to call Dispose.

不管怎样，您不必为垃圾收集对象实现IDisposable，因此这是一种非效益。

You just implement the resource cleanup function if you have non-memory resources to release.

Why is that a bad idea?

幼稚的引用计数非常缓慢，并且泄漏循环。例如，在C++中，Boost的EDOCX1 5度比OCAM的跟踪GC慢10倍。即使是基于范围的引用计数，在多线程程序(几乎是所有现代程序)的存在下也是不确定的。

Would that defeat the purpose of the garbage collector?

一点也不，不。事实上，这是一个坏主意，它是在20世纪60年代发明的，在接下来的54年里受到了激烈的学术研究，结论是参考计数在一般情况下很糟糕。

Would it be feasible to implement such a thing?

当然。早期的原型.NET和JVM使用了引用计数。他们还发现它被吸走了，并将其丢弃，以便追踪GC。

EDIT: From the comments so far, this is a bad idea because

GC is faster without reference counting

对。注意，通过延迟计数器的递增和递减，您可以使引用计数更快，但是这样会牺牲您非常渴望的确定论，而且它仍然比使用当前堆大小跟踪GC慢。但是，引用计数渐进地更快，所以在将来某个时候，当堆变得非常大时，我们可能会开始在生产自动化内存管理解决方案中使用rc。

problem of dealing with cycles in the object graph

试删除是一种在参考计数系统中专门设计用来检测和收集循环的算法。然而，它是缓慢和不确定性的。

I think number one is valid, but number two is easy to deal with using weak references.

将弱引用称为"容易"是希望战胜现实的胜利。他们是一场噩梦。它们不仅不可预测而且难以构建，而且还会污染API。

So does the speed optimization outweigh the cons that you:

may not free a non-memory resource in a timely manner

using是否及时释放非内存资源？

might free a non-memory resource too soon
If your resource cleanup mechanism is deterministic and built-in to the language you can eliminate those possibilities.

using构造是确定性的，并内置于语言中。

我认为你真正想问的问题是，为什么江户十一〔三〕不使用参考计数法。我的回答是一个轶事：我已经使用垃圾收集语言18年了，我从来没有必要求助于引用计数。因此，我更喜欢简单的API，它们不会受到弱引用等附带复杂性的污染。

相关讨论

我对垃圾收集有些了解。这是一个简短的总结，因为完整的解释超出了这个问题的范围。

.NET使用复制和压缩一代垃圾收集器。这比引用计数更先进，并且有利于收集直接或通过链引用自身的对象。

参考计数不会收集周期。引用计数也具有较低的吞吐量(总体速度较慢)，但与跟踪收集器相比，具有更快的暂停(最大暂停较小)的好处。

相关讨论

这里有很多问题。首先，您需要区分释放托管内存和清理其他资源。前者可能非常快，而后者可能非常慢。在.NET中，两者是分开的，这样可以更快地清理托管内存。这还意味着，只有当您有超出托管内存范围的内容需要清理时，才应该实现Dispose/Finalizer。

.NET使用了标记和扫描技术，通过堆查找对象的根。根实例在垃圾收集中存活。其他的一切都可以通过回收内存来清理。GC必须时不时地压缩内存，但除此之外，即使在回收多个实例时，回收内存也是一个简单的指针操作。将此与C++中的析构函数的多个调用进行比较。

相关讨论

确定性非内存资源管理是语言的一部分，但是它不是用析构函数完成的。

您的意见在来自C++背景的人中很常见，试图使用RAII设计模式。在C++中，您可以保证某些代码将在一个作用域的末端运行，即使抛出一个请求，也就是在堆栈上分配一个对象，并将清理代码放入析构函数中。

在其他语言(C语言，Java，Python，Ruby，Erlang，…)中，您可以使用TestEnter(或者最后尝试catch)，以确保清理代码始终运行。

1
2
3
4
5
6
7
8

// Initialize some resource.
try {
// Use the resource.
}
finally {
// Clean-up.
// This code will always run, whether there was an exception or not.
}

i c_，您也可以使用using结构：

1
2
3
4
5

using (Foo foo = new Foo()) {
// Do something with foo.
}
// foo.Dispose() will be called afterwards, even if there
// was an exception.

因此，对于C++程序员来说，考虑"运行清理代码"和"释放内存"可能是两个独立的事情。将清理代码放在finally块中，然后留给GC来处理内存。

参考计数

使用引用计数的成本是双重的：首先，每个对象都需要特殊的引用计数字段。通常，这意味着必须在每个对象中分配一个额外的存储字。第二，每次将一个参考分配给另一个参考时，必须调整参考计数。这显著增加了赋值语句所花费的时间。

.NET中的垃圾收集

C不使用对象的引用计数。相反，它维护一个来自堆栈的对象引用图，并从根目录导航以覆盖所有被引用的对象。图中的所有被引用对象都在堆中压缩，以便将来的对象可以使用连续的内存。回收所有不需要最终确定的未引用对象的内存。那些未被引用但要在其上执行终结器的对象将被移动到一个称为F-reachable队列的单独队列中，在该队列中，垃圾收集器在后台调用其终结器。

除了上述的GC之外，还使用了生成的概念来实现更高效的垃圾收集。它基于以下概念1。压缩托管堆的一部分内存比压缩整个托管堆更快。2。较新的对象寿命较短，较旧的对象寿命较长三。较新的对象往往相互关联，并由应用程序同时访问。

托管堆分为三代：0、1和2。新对象存储在gen 0中。GC循环未回收的对象将升级到下一代。因此，如果第0代中的较新对象在GC循环1之后仍存在，则它们将升级到第1代。其中那些在GC循环2中存活下来的被提升到第2代。因为垃圾收集器只支持三代，所以第2代中在收集后仍存在的对象将保留在第2代中，直到确定在将来的收集中无法访问它们为止。

垃圾收集器在第0代已满且需要为新对象分配内存时执行收集。如果第0代的集合没有回收足够的内存，垃圾收集器可以执行第1代的集合，然后执行第0代。如果这不能回收足够的内存，垃圾收集器可以执行第2、1和0代的收集。

因此，GC比引用计数更有效。

相关讨论

当用户未显式调用Dispose时，实现IDisposable的对象还必须实现由GC调用的终结器-请参阅位于msdn的IDisposable.Dispose。

IDisposable的关键是GC在某个不确定的时间运行，而您实现IDisposable是因为您拥有一个有价值的资源，并且希望在确定的时间释放它。

所以你的提议不会改变我的身份。

编辑：

对不起的。没有正确阅读你的建议。：

维基百科对引用计数GC的缺点有一个简单的解释。

相关讨论