首页 > 文章 > java教程

Java垃圾回收算法详解：标记清除与复制原理

时间：2025-09-09 18:00:53 300浏览收藏

Java的垃圾回收（GC）是自动管理内存的关键机制，它通过标记-清除、复制和标记-整理等算法来识别和回收不再使用的对象，极大地提高了开发效率和程序的健壮性。这些算法各有优缺点，现代JVM通常采用分代垃圾回收策略，将堆内存划分为年轻代和老年代，并结合不同算法的优势，以提升性能。年轻代常使用复制算法，因其高效处理“朝生暮死”的对象；老年代则多采用标记-整理算法，以减少内存碎片。选择合适的垃圾回收器对应用性能至关重要，需根据应用类型、硬件资源和性能指标综合考量，例如，Parallel GC适用于吞吐量优先的应用，而CMS、G1、ZGC等则适用于低延迟优先的应用。深入理解GC原理，结合实际监控数据进行调优，是优化Java应用性能的关键。

Java的垃圾回收通过标记-清除、复制、标记-整理算法实现自动内存管理，分代回收结合三者优势，提升性能。

请详细解释Java的垃圾回收算法（标记-清除、复制、标记-整理）

Java的垃圾回收（GC）算法，本质上是为了自动化内存管理，让开发者可以专注于业务逻辑，而不用像C/C++那样，时刻提防内存泄漏或野指针。核心的几种算法——标记-清除、复制、标记-整理——各有侧重，它们像工具箱里的不同扳手，解决着不同的内存回收难题，各有优缺点，也因此在现代JVM中常被组合使用。

解决方案

理解Java的垃圾回收算法，首先要明白GC的根本任务：识别出那些不再被程序引用的对象（即“垃圾”），然后回收它们占用的内存空间。这三个经典算法，就是实现这一任务的不同策略。

标记-清除（Mark-Sweep）算法 这是最基础，也是很多其他算法的起点。它的工作分为两个阶段：

标记（Mark）阶段：从根对象（比如线程栈中的引用、静态变量等）开始遍历，标记所有可达（reachable）的对象。这些被标记的对象就是“活”的，程序还在使用它们。
清除（Sweep）阶段：遍历整个堆，将所有未被标记的对象（即“死”的、不可达的对象）进行回收，释放它们占用的内存。

我个人觉得，Mark-Sweep算法的思路非常直观，就像你清点仓库，先给有用的东西贴上标签，然后把没标签的都扔掉。它的优点是实现相对简单，能处理循环引用（只要循环引用链整体不可达，就能被回收）。但缺点也相当明显：

效率问题：它需要扫描整个堆两次，一次标记，一次清除，如果堆很大，这个开销不容忽视。
内存碎片：清除后，内存空间会变得支离破碎，产生大量不连续的小块空闲内存。当程序需要分配一个大对象时，即使总空闲内存足够，也可能因为没有足够大的连续空间而提前触发GC，甚至抛出OutOfMemoryError。这就像你把一堆散落的沙子堆起来，虽然总量很多，但很难从中挖出一个规整的大坑。在早期JVM中，这确实是个令人头疼的问题。

复制（Copying）算法 为了解决Mark-Sweep的效率和碎片问题，复制算法应运而生。它通常用于Java堆的年轻代（Young Generation），因为年轻代的对象生命周期短，大部分对象很快就会变成垃圾。

它将可用内存划分为大小相等的两块，比如From Space和To Space。
每次只使用其中一块（比如From Space）。
当From Space的内存用完时，GC会启动，将From Space中所有存活的对象复制到To Space中。
复制完成后，From Space中所有对象都被视为垃圾，直接清空From Space。
然后，From Space和To Space的角色互换，下一次GC时重复这个过程。

这个算法的优点非常突出：

没有内存碎片：因为每次都是将存活对象复制到一块全新的空间，内存总是紧凑的。
效率高：对于年轻代这种“朝生暮死”的对象特性，只需要复制少数存活对象，效率远高于扫描整个堆。这就像你把有用的文件从旧文件夹拖到一个新文件夹，然后直接删除旧文件夹，非常干脆。但它的缺点也很明显：
内存利用率低：它需要将一半的内存空间作为备用，这意味着在任何时刻，都有一半的内存是闲置的。对于老年代这种存活对象多的区域，如果使用复制算法，内存浪费会非常严重。
复制开销：如果存活对象很多，复制的开销也会变得很大。

标记-整理（Mark-Compact）算法 Mark-Compact算法可以看作是Mark-Sweep和Copying算法的结合与改进，主要用于老年代（Old Generation）。它也分为两个阶段：

标记（Mark）阶段：与Mark-Sweep一样，从根对象开始，标记所有可达的存活对象。
整理（Compact）阶段：将所有存活的对象都移动到内存的一端，然后直接清理掉边界以外的所有内存。

Mark-Compact算法的优点是：

解决了内存碎片问题：通过移动对象，保证了内存的连续性，为大对象分配提供了便利。
内存利用率高：不像Copying算法那样需要预留一半空间。但它的代价也很大：
暂停时间长：对象移动需要更新所有引用这些对象的指针，这个过程非常耗时，会导致较长的GC停顿（Stop-The-World，STW），对实时性要求高的应用影响很大。想象一下，你把家里的所有家具都挪到一边，打扫完再挪回来，这个过程肯定需要你暂停所有活动。

为什么Java需要垃圾回收，而不是手动管理内存？

这是个老生常谈的问题，但每次讨论都觉得GC是Java生态的基石之一。从我个人的经验来看，手动内存管理就像是给你一把瑞士军刀，功能强大，但一个不小心就可能伤到自己。C/C++的开发者需要时刻关注malloc/free或new/delete的配对使用，稍有疏忽，就可能引入内存泄漏（忘记释放内存）或野指针（释放后继续使用已释放的内存），这些错误往往难以追踪，导致程序不稳定甚至崩溃。

Java的垃圾回收机制，就是把这把“危险的瑞士军刀”换成了“全自动洗碗机”。它极大地提高了开发效率和程序的健壮性。开发者可以将精力集中在业务逻辑上，而不用分心去处理繁琐且容易出错的内存细节。虽然GC本身也会带来一些性能开销和不确定性（比如GC停顿），但对于绝大多数应用而言，这种抽象带来的收益远大于成本。它让Java成为了一个更安全、更易于维护的平台，尤其是在大型、复杂的企业级应用中，这种优势体现得淋漓尽致。当然，理解GC的工作原理，对于优化应用性能、避免潜在的GC瓶颈仍然至关重要。

分代垃圾回收（Generational GC）是如何结合这些算法的？

现代JVM中的垃圾回收器，很少会单独使用上述某一种算法，而是巧妙地将它们组合起来，形成了所谓的“分代垃圾回收”（Generational GC）。这个策略是基于一个非常重要的观察——“弱分代假说”（Weak Generational Hypothesis）：绝大多数对象都是朝生暮死的，少数对象会存活很长时间。

基于这个假说，Java堆被划分为几个区域：

年轻代（Young Generation）：存放新创建的对象。这里又进一步细分为一个Eden区和两个Survivor区（通常是S0和S1）。
老年代（Old Generation）：存放那些在年轻代多次GC后仍然存活的对象。
永久代/元空间（Permanent Generation/Metaspace）：存放类的元数据等信息，与GC关系相对较小。

分代GC的工作流程大致是这样：

年轻代GC（Minor GC）：当Eden区满时，会触发年轻代GC。这里主要采用复制（Copying）算法。新对象先在Eden区分配，当Eden区满时，GC会将Eden区和其中一个Survivor区（比如S0）中所有存活的对象复制到另一个空的Survivor区（S1）。同时，对象每经历一次GC并存活，其年龄就会增加。当年龄达到一定阈值（通常是15次），或者Survivor区空间不足时，这些对象就会被晋升（Promote）到老年代。清空Eden区和S0区，然后S0和S1角色互换。这种方式非常高效，因为年轻代中大部分对象确实很快就“死了”，需要复制的活对象很少。
老年代GC（Major GC / Full GC）：当老年代空间不足时，会触发老年代GC，通常也会伴随年轻代GC，这被称为“Full GC”。老年代的对象存活时间长，数量也相对较多，如果使用复制算法，开销会非常大，内存浪费也严重。因此，老年代通常采用标记-整理（Mark-Compact）算法，或者标记-清除（Mark-Sweep）算法（通常会结合压缩操作）。例如，CMS（Concurrent Mark Sweep）垃圾回收器就使用了Mark-Sweep算法，但为了减少停顿，它在标记和清除阶段是与用户线程并发执行的。而G1（Garbage First）垃圾回收器则将堆划分为多个Region，每个Region可以根据需要采用不同的GC策略，但在整体上，它也是通过标记和整理来回收内存的。

这种分代策略是一个非常精妙的设计，它根据对象的生命周期特性，量体裁衣地选择了最适合的GC算法。对于“短命”的年轻对象，复制算法效率最高；对于“长寿”的老年对象，标记-整理算法在保证内存连续性的同时，避免了内存的浪费。这种组合拳极大地优化了JVM的整体性能，减少了GC对应用程序的冲击。

选择合适的垃圾回收器对应用性能有何影响？

选择合适的垃圾回收器，对于Java应用的性能表现至关重要，这就像给赛车选择合适的轮胎，不同的赛道和天气需要不同的策略。JVM提供了多种垃圾回收器，它们各自有不同的设计目标和权衡点：

吞吐量优先（Throughput Priority）：如Parallel GC，它会尽可能缩短GC时间，以最大化应用程序的吞吐量。这意味着它可能会导致较长的GC停顿，但总的GC时间占比会很小。对于那些可以容忍较长停顿的批处理应用、数据分析任务来说，这是一个很好的选择。
低延迟优先（Low Latency Priority）：如CMS（Concurrent Mark Sweep）、G1（Garbage First）、ZGC、Shenandoah等。它们的目标是尽量减少GC停顿时间，让应用程序的响应更加平滑。
- CMS：在标记和清除阶段与应用线程并发执行，显著降低了停顿时间，但它会产生内存碎片，并且在并发阶段会消耗CPU资源。
- G1：将堆划分为多个大小相等的Region，它试图在保持高吞吐量的同时，控制GC停顿时间。G1通过预测停顿时间来选择要回收的Region，以达到用户设定的停顿目标。
- ZGC和Shenandoah：这些是更先进的低延迟GC，它们可以在几乎不中断应用线程的情况下进行大部分GC工作，将GC停顿时间控制在毫秒甚至微秒级别。它们适用于对延迟极度敏感的应用，如金融交易系统、实时Web服务等。

选择哪个GC，往往需要根据你的应用场景和性能需求来决定。

应用类型：是需要高吞吐量的批处理，还是需要低延迟响应的交互式服务？
硬件资源：CPU核数、内存大小都会影响GC器的选择和性能。例如，Parallel GC会利用多核并行执行，而ZGC和Shenandoah通常需要更多的CPU和内存资源来保证其低延迟特性。
内存大小：大内存堆通常更适合G1、ZGC或Shenandoah，因为它们能够更好地管理大堆。
性能指标：你最关心的是平均响应时间、99%分位延迟，还是每秒事务数？

我个人在实际工作中，就遇到过因为GC选择不当导致系统性能瓶颈的案例。一个高并发的Web服务，如果使用了默认的Parallel GC，在高负载下可能会出现频繁的长停顿，导致用户体验极差。切换到G1甚至ZGC后，系统的响应速度和稳定性会明显提升。但反过来，如果是一个数据仓库的离线批处理任务，使用ZGC可能就有点“杀鸡用牛刀”了，Parallel GC可能更适合，因为它能提供更高的整体吞吐量。所以，GC的调优从来都不是一劳永逸的，它需要深入理解应用特点，结合实际的监控数据进行分析和调整。这就像是调教一匹烈马，需要耐心和经验，才能让它发挥出最大的潜力。

理论要掌握，实操不能落！以上关于《Java垃圾回收算法详解：标记清除与复制原理》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

前往漫画官网入口并下载 ➜