自动内存管理让开发人员聚焦于应用程序逻辑上(例如,报表、解决数学问题)而不是内在细节,如内存分配。但是流行的计算机语言,如C和C++,直到最近才为支持自动内存管理提供了标准的方法。通用性和标准化是伴随着受控虚拟机的出现而产生的,这些虚拟机能执行中间语言,例如用于运行Java或者.NET语言的虚拟机。
一个事实上不太困难但是需要解决的有趣问题存在于自动内存管理领域中。问题的一半,即为一个程序分配内存是相对容易解决的??难以解决的部分是程序结束时留下的一块内存。不再需要的内存,或者叫垃圾内存,由一个垃圾(内存)收集程序收集。其目的是在内存一变成垃圾时就将其释放掉,这样如果需要的话后来的程序就能重复使用这部分内存。
许多不同类型的算法已经能够处理内存管理的问题,但是仍没有一次解决所有问题的最好方法。本文所要讨论的算法是现在在Java和.NET虚拟机中使用的最流行的垃圾收集程序(GC)中的几种。垃圾收集算法或者是在对象被参照或者参照解除过程中被执行,或者是在快照模式下执行,后者就好像应用程序的内存分配情况被定期冻结住,同时收集算法被运行,来找出垃圾。
参照计数
最直观的自动内存管理算法可能就是参照计数了。如果你不停地跟踪程序正在参照的是哪个对象,这些对象必须仍然是程序需要的。要实现这个算法,每个对象都有一个数据字段用于更新,以掌握有多少其他的程序对象在参照(也就是说,指向)它。任何指向对象自身的参照都被忽略掉。如果计数到达了0,这个正在被考察的对象就被认为是垃圾。如果一个对象没有被任何程序参照,它事实上在内存里就是孤立的。从内存和性能的角度来看,这是收集垃圾内存最有效的方法。
不幸的是,计算机科学家在这个算法上面临一个无法克服的问题。如果两个对象或者一大串对象都相互指向对方,而且这一堆对象被从内存中孤立出来,那么就没有明显的方法指明这样的循环。既然所有的对象都含有一个至少为1的参照计数,那么它们就会一直保持非垃圾状态。
由于有这个问题,参照计数在现代虚拟机中不再常用。实际上,Java只对分布式对象(即远程方法的调用)使用参照计数,这种方法是从Modula-3的网络对象借用来的。分布式内存管理对垃圾收集产生了新的限制。这些在被较慢的对象访问和参照时可能在网络中丢失的东西必须要处理。尽管参照计数会让循环的垃圾对象存活在内存中,但是出于对性能和适用性的考虑,它仍比其它算法更适合垃圾收集。
标记和清除
标记和清除垃圾收集法看上去总是开发人员开发新系统时首选的垃圾收集法。这在理论上要比其它系统更容易实现,但是心里应该清楚的是,这个容易是相对的。这种算法在很多较早版本的Java虚拟机里使用过,现在仍然作为高级垃圾收集程序的子算法。
标记和清除是从穿越某个标准系统对象的指针开始的。这个对象对于虚拟机来说是非常关键的,因为如果这个对象将不再存在,那么这个虚拟机就结束了任务(也就是说程序执行完了)。每个通过穿越指针时碰到的对象被标记为“访问过”。这样通过递归的方式,所有碰到过的对象的所有指针都被穿越。实际上,这项操作穿越了位于系统标准对象根部的整个指针参照树,将沿路碰到的对象都标记一遍。
一旦这一步骤完成,算法就检查已知的存在对象的完整列表。如果发现有任何对象没有被标记,它们就被认为脱离了系统(即垃圾)。
这个算法很彻底、很简单,但是却摆脱不了一些很恼人的问题。首先它要求在其工作时所有的程序都要暂停运行。在穿越途中对参照树的更改也会给这个算法带来不利的影响。这个算法要对早期臭名昭著的Java执行的停顿负责。同时,断断续续的清除导致了内存碎片,这让(内存)分配程序的负担更重。最终必须进行内存整理已清除碎片,这又会导致执行过程中更多的停顿。
查看本文来源
停止和复制
标记和清除法的兄弟就是停止和复制收集法了。停止和复制法解决了标记和清除法的碎片问题,但是对内存提出了更高的要求(或者是对一个较小的对象池进行更加频繁的收集)。微软的Java虚拟机使用的就是这个算法,而在当时这是最快的虚拟机之一。
停止和复制法的原理是为对象创建两个内存池,但是每次只使用其中的一个。在你分配对象的时候,它就简单地在活动的内存池中为你指定下一个可用空间。如果内存池填满了――或者如果系统决定该收集了――它就进行同标记和清除法相同动作,跟踪程序里系统对象的所有指针。但是不仅仅标记这些对象,它把它们从当前的内存池里复制到另一个非活动的内存池里。
这个复制动作将活动着的对象一个一个安置到新的内存池里。一完成这个过程,它就将原来这个原本非活动的内存池切换成活动的。由于它只复制活动的对象,所以垃圾对象被留了下来。要收集的总是会比要扔掉的少。复制这一过程事实上整理了新的内存池,因为对象是一个接一个放置的。
停止和复制法仍然必须要停止正在运行的程序,以收集对象并把它们移到内存池里。在这个算法运行的时候,它在清理的应用程序会停下来,导致程序的波动。
世代
活动垃圾收集法的轮廓揭示了一些基础性错误,这些错误在垃圾收集算法如何工作同垃圾需要如何被收集比较时产生。正在运行的应用程序的大多数对象只会存活很短的时间,只有极少数会存活在应用程序运行的全过程中。前面勾画的算法平等地处理所有对象。不幸的是,每个活动的对象都需要被处理(例如移动、标记),这会对性能造成负面影响。长时间存活的对象是持续的――所以不需要――在每次收集时被移来移去。
当前,像最新的Java Hotspot虚拟机里使用的垃圾收集程序分别为新老对象创建各自的内存池,这样的新老对象叫做“代”。如果一个对象经历了特定的收集次数(有的时候就一次,但是次数依赖于收集程序),它就被从新内存池移到老内存池里。老内存池,从本质上讲,收集的次数会更少,这样考虑的原因是:既然这些对象已经存活了一段时间了,它们会存活得更长。
这样就大大降低了垃圾收集程序的负载。一轮收集过程中就结束的短时间存活对象对收集程序的影响较小,因为收集程序主要对存活的对象进行处理。对老一代对象的收集要少得多,这就减少了对老对象不必要的移动。
不同的代甚至可以有不同的算法来处理它们。例如,停止和复制法适用于新对象池,因为它认为新对象结束得更快(对于非垃圾对象而言,停止和复制法的性能耗费是线性的)。对老一代的对象能够采取额外的步骤以实现更加精确的算法,因为对性能的要求不是问题。
好好利用垃圾收集
尽管有各种好处,垃圾收集法仍然会从正在运行的应用程序手中抢夺CPU。要最小化这种影响的最好办法其实很简单:少创建对象。更少的对象需要更少收集操作,理论上这会提高性能。
垃圾收集是迈向摆脱每日编程中一些难缠细节的坚实步骤。这个问题是过去几年讨论的热点。现在所使用的技术已经很老了(从计算机领域来看),所以是该好好利用垃圾收集程序的时候了。
查看本文来源