JVM虚拟机结构与机制

张明慧

2017-04-17

JVM（Java Virtual Machine）在研究JVM的过程中会发现，其实JVM本身就是一个计算机体系结构，很多原理和我们平时的硬件、微机原理、操作系统都有十分相似的地方，所以学习JVM本身也是加深自我对计算机结构认识的一个很好的途径。

虽然平时我们用的大多是Sun（已被Oracle收购）JDK提供的JVM，但是JVM本身是一个规范，所以可以有多种实现，除了Hotspot外，还有诸如Oracle的JRockit、IBM的J9也都是非常有名的JVM。

一、JVM结构

下图展示了JVM的主要结构：

JVM虚拟机结构与机制

1.从上图可以看出，JVM主要由类加载器子系统、运行时数据区（内存空间）、执行引擎以及与本地方法接口等组成。其中运行时数据区又由方法区、堆、Java栈、PC寄存器、本地方法栈组成。

2.从上图中还可以看出，在内存空间中方法区和堆是所有Java线程共享的，而Java栈、本地方法栈、PC寄存器则由每个线程私有。

3.Java语言具有跨平台的特性，这也是由JVM来实现的。更准确地说，是Sun利用JVM在不同平台上的实现帮我们把平台相关性的问题给解决了，这就好比是HTML语言可以在不同厂商的浏览器上呈现元素（虽然某些浏览器在对W3C标准的支持上还有一些问题）。同时，Java语言支持通过JNI（Java Native Interface）来实现本地方法的调用，但是需要注意到，如果你在Java程序用调用了本地方法，那么你的程序就很可能不再具有跨平台性，即本地方法会破坏平台无关性。

二、类加载器子系统（Class Loader）

类加载器子系统负责加载编译好的.class字节码文件并装入内存，使JVM可以实例化或以其它方式使用加载后的类。

1.ClassLoader的分类：

1）启动类加载器（BootStrap Class Loader）：负责加载rt.jar文件中所有的Java类，Java的核心类都是由该ClassLoader加载。在Sun JDK中，这个类加载器是由C++实现的，并且在Java语言中无法获得它的引用。

2）扩展类加载器（Extension Class Loader）：负责加载一些扩展功能的jar包。

3）系统类加载器（System Class Loader）：负责加载启动参数中指定的Classpath中的jar包及目录。

4）用户自定义类加载器（User Defined Class Loader）：由用户自定义类的加载规则，可以手动控制加载过程中的步骤。

2.ClassLoader的工作原理：

类加载分为装载、链接、初始化三步。

1）装载：

通过类的全名和ClassLoader加载类，主要是将指定的.class文件加载至JVM。当类被加载以后，在JVM内部就以“类的全限定名+ClassLoader实例ID”来标明类。

在内存中，ClassLoader实例和类的实例都位于堆中，它们的类信息都位于方法区。装载过程采用了一种被称为“双亲委派模型（Parent Delegation Model）”的方式，当一个ClassLoader要加载类时，它会先请求它的双亲ClassLoader（其实这里只有两个ClassLoader，所以称为父ClassLoader可能更容易理解）加载类，而它的双亲ClassLoader会继续把加载请求提交再上一级的ClassLoader，直到启动类加载器。只有其双亲ClassLoader无法加载指定的类时，它才会自己加载类。双亲委派模型是JVM的第一道安全防线，它保证了类的安全加载，这里同时依赖了类加载器隔离的原理：不同类加载器加载的类之间是无法直接交互的，即使是同一个类，被不同的ClassLoader加载，它们也无法感知到彼此的存在。

2) 链接:

链接的任务是把二进制的类型信息合并到JVM运行时状态中去。

链接分为三部分：

验证：校验.class文件的正确性，确保该文件是符合规范定义的。

准备：为类分配内存，同时初始化类中的静态变量赋值为默认值。

解析（可选）：主要是把类的常量池中的符号引用解析为直接引用，这一步可以在用到相应的引用时再解析。

3）初始化：

初始化类中的静态变量，并执行类中的static代码、构造函数。

JVM规范严格定义了何时需要对类进行初始化：

a.通过new关键字、反射、clone、反序列化机制实例化对象时。

b.调用类的静态方法。

c.通过反射调用类的方法时。

d.初始化该类的子类时（初始化子类前其父类必须已经被初始化）。

e.JVM启动时被标记为启动类的类（简单理解为具有main方法的类）。

三、Java栈（Java Stack）

Java栈由栈帧组成，一个帧对应一个方法调用。调用方法时压入栈帧，方法返回时弹出栈帧并抛弃。Java栈的主要任务是存储方法参数、局部变量、中间运算结果，Java栈是线程私有的，这就保证了线程安全性，使得程序员无需考虑栈同步访问的问题，只有线程本身可以访问它自己的局部变量区。

它分为三部分：局部变量区、操作数栈、帧数据区。

1.局部变量区

局部变量区是以字长为单位的数组，在这里byte、short、char类型会被转换成int类型存储，除了long和double类型占两个字长以外，其余类型都只占用一个字长。特别地，boolean类型在编译时会被转换成int或byte类型，boolean数组会被当做byte类型数组来处理。

2.操作数栈

操作数栈和局部变量区一样，操作数栈也被组织成一个以字长为单位的数组。但和前者不同的是，它不是通过索引来访问的，而是通过入栈和出栈来访问的。可把操作数栈理解为存储计算时，临时数据的存储区域。

3.帧数据区

当JVM执行到需要常量池数据的指令时，它都会通过帧数据区中指向常量池的指针来访问它。除了处理常量池解析外，帧里的数据还要处理java方法的正常结束和异常终止。如果是通过return正常结束，则当前栈帧从Java栈中弹出，恢复发起调用的方法的栈。如果方法又返回值，JVM会把返回值压入到发起调用方法的操作数栈。

为了处理java方法中的异常情况，帧数据区还必须保存一个对此方法异常引用表的引用。当异常抛出时，JVM给catch块中的代码。如果没发现，方法立即终止，然后JVM用帧区数据的信息恢复发起调用的方法的帧。然后再发起调用方法的上下文重新抛出同样的异常。

四、本地方法栈（Native Method Stack）

本地方法栈类似于Java栈，主要存储了本地方法调用的状态。在Sun JDK中，本地方法栈和Java栈是同一个。

五、方法区（Method Area）

方法区是系统分配的一个内存逻辑区域，是用来存储类型信息的(类型信息可理解为类的描述信息)。方法区主要有以下几个特点：
1.方法区是线程安全的。由于所有的线程都共享方法区，所以，方法区里的数据访问必须被设计成线程安全的。例如，假如同时有两个线程都企图访问方法区中的同一个类，而这个类还没有被装入JVM，那么只允许一个线程去装载它，而其它线程必须等待
2.方法区的大小不必是固定的，JVM可根据应用需要动态调整。同时，方法区也不一定是连续的，方法区可以在一个堆(甚至是JVM自己的堆)中自由分配。
3.方法区也可被垃圾收集，当某个类不在被使用(不可触及)时，JVM将卸载这个类，进行垃圾收集

六、堆（Heap）

堆用于存储对象实例以及数组值。堆中有指向类数据的指针，该指针指向了方法区中对应的类型信息。堆中还可能存放了指向方法表的指针。堆是所有线程共享的，所以在进行实例化对象等操作时，需要解决同步问题。此外，堆中的实例数据中还包含了对象锁，并且针对不同的垃圾收集策略，可能存放了引用计数或清扫标记等数据。

在堆的管理上主要分为新生代、旧生代。

1.新生代（New Generation）

HotSpot JVM把年轻代分为了三部分：1个Eden区和2个Survivor区（分别叫from和to）。默认比例为8：1,为啥默认会是这个比例，接下来我们会聊到。一般情况下，新创建的对象都会被分配到Eden区(一些大对象特殊处理),这些对象经过第一次Minor GC后，如果仍然存活，将会被移到Survivor区。对象在Survivor区中每熬过一次Minor GC，年龄就会增加1岁，当它的年龄增加到一定程度时，就会被移动到年老代中。

因为年轻代中的对象基本都是朝生夕死的(80%以上)，所以在年轻代的垃圾回收算法使用的是复制算法，复制算法的基本思想就是将内存分为两块，每次只用其中一块，当这一块内存用完，就将还活着的对象复制到另外一块上面。复制算法不会产生内存碎片。

在GC开始的时候，对象只会存在于Eden区和名为“From”的Survivor区，Survivor区“To”是空的。紧接着进行GC，Eden区中所有存活的对象都会被复制到“To”，而在“From”区中，仍存活的对象会根据他们的年龄值来决定去向。年龄达到一定值(年龄阈值，可以通过-XX:MaxTenuringThreshold来设置)的对象会被移动到年老代中，没有达到阈值的对象会被复制到“To”区域。经过这次GC后，Eden区和From区已经被清空。这个时候，“From”和“To”会交换他们的角色，也就是新的“To”就是上次GC前的“From”，新的“From”就是上次GC前的“To”。不管怎样，都会保证名为To的Survivor区域是空的。Minor GC会一直重复这样的过程，直到“To”区被填满，“To”区被填满之后，会将所有对象移动到年老代中。

2.旧生代（Old Generation/Tenuring Generation）

旧生代与新生代不同，对象存活的时间比较长，比较稳定，因此采用标记（Mark）算法来进行回收，所谓标记就是扫描出存活的对象，然后再进行回收未被标记的对象，回收后对用空出的空间要么进行合并，要么标记出来便于下次进行分配，总之就是要减少内存碎片带来的效率损耗。

七、执行引擎

执行引擎是JVM执行Java字节码的核心，执行方式主要分为解释执行、编译执行、自适应优化执行、硬件芯片执行方式。

JVM的指令集是基于栈而非寄存器的，这样做的好处在于可以使指令尽可能紧凑，便于快速地在网络上传输（别忘了Java最初就是为网络设计的），同时也很容易适应通用寄存器较少的平台，并且有利于代码优化，由于Java栈和PC寄存器是线程私有的，线程之间无法互相干涉彼此的栈。每个线程拥有独立的JVM执行引擎实例。

1.解释执行

JVM可以解释执行字节码。Sun JDK采用了token-threading的方式。

解释执行中有几种优化方式：

a.栈顶缓存

将位于操作数栈顶的值直接缓存在寄存器上。

b.部分栈帧共享

调用方法可将调用方法栈帧中的操作数栈作为自己的局部变量区，这样在获取方法参数时减少了复制参数的开销。

c.执行机器指令

JVM会执行机器指令以提高速度。

2.编译执行

为了提升执行速度，Sun JDK提供了将字节码编译为机器指令的支持，主要利用了JIT（Just-In-Time）编译器在运行时进行编译，它会在第一次执行时编译字节码为机器码并缓存，之后就可以重复利用。Oracle JRockit采用的是完全的编译执行。

Sun JDK在编译上采用了两种模式：Client和Server模式。前者较为轻量级，占用内存较少。后者的优化程序更高，占用内存更多。

虚拟机 jvm

安科网

JVM虚拟机结构与机制

张明慧

张明慧

相关推荐

JVM中必须要掌握的java的.class文件的加载过程

理论+实战构建完整JVM知识体系

JVM(类加载机制,虚拟机栈,)

我把JVM的类加载器整理了一下

jvm

浅谈jvm

面试中必问的JVM应该怎么学（面试题含答案）

[Java] JVM（4）垃圾回收的实现算法和执行细节

JVM类加载机制

如何在Fedora中安装VirtualBox

程序员也需了解的主流云计算网络架构

10分钟快速掌握Docker必备基础知识

虚拟机发展依然强劲，但会被容器取代吗？

虚拟机克隆镜像service network restart 报错处理

再见！虚拟机。Windows和Linux终于合体了

Linux下Shell日期的格式，你知道几种？

vmware扩展跟分区

nao机器人在虚拟机上搭建编译环境总结

Linux系统安装(虚拟机)

Windows10电脑和虚拟器如何共享蓝牙简单两步快速解决

张明慧