Python 中变量与内存的关系
老手都是从新手一路过来的,提起Python中难以理解的概念,可能很多人对于Python变量赋值的机制有些疑惑,不过对于习惯于求根究底的程序员,只有深入理解了某个事物本质,掌握了它的客观规律,才能得心应手、运用自如,进阶更高层次来看待这个事物,此刻“庖丁解牛”这个成语能够贴切表达这个意思,你看见的是整头的牛,而我看见的是牛的内部肌理筋骨,就是这个状态!!!
那么为什么Python变量赋值的机制难以理解呢?
我想可能是我们的思维被C语言变量赋值的机制所固化了。在C语言中变量所分配到的地址是内存空间中一个固定的位置,当我们改变变量值时,对应内存空间中的值也相应改变。在Python中变量存储的机制是完全不一样的,当给一个变量赋值时首先解释器会给这个值分配内存空间,然后将变量指向这个值的地址,那么当我们改变变量值的时候解释器又会给新的值分配另一个内存空间,再将变量指向这个新值的地址,所以和C语言相比,在Python中改变的是变量所指向的地址,而内存空间中的值是固定不变的。
接下来我们要由浅入深的去验证下我们的结论。在Ubuntu 16.04 LTS 32 位的环境下通过id方法查看变量的内存地址的方式来进行验证,为什么要强调环境呢?因为不同的环境下测试结果可能会由于解释器的优化不同而有所不同。
那这里我们就以Python的int类型为例,可以看到执行 i += 1 后,变量i的内存地址会发生变化,事实上 i += 1 并不是在原有变量i的地址上加1,而是重新创建一个值为6的int对象,变量i则引用了这个新的对象,因此当变量i和变量j的值相同时会指向同个内存地址。同样以Python的float 类型为例也验证了这个变量存储管理的机制。
陆陆续续的试了列表、字典、字符串、元组等变量类型赋值的效果,我发现其实Python中的对象分为可变类型和不可变类型,列表、字典是可变类型,而整数、浮点、短字符串、元组等是不可变类型。可变类型的变量赋值与我们了解的C语言机制相同,而不可变类型的变量赋值时,实际上是重新创建一个不可变类型的对象,并将原来的变量重新指向新创建的对象,当然如果没有其他变量引用原有对象时,原有对象就会被回收。这也是Python作为动态类型语言的特点,即变量不需要预先声明类型,当变量在赋值时解释器会根据值的类型创建对应的内存空间进行存储,并将变量指向这个地址空间即可,比如运行a=1时,解释器将变量指向整形值1的地址,当运行a=0.1时,解释器将变量指向浮点值0.1的地址。
但是问题又来了!!!为什么Python可以这样肆无忌惮地完成动态类型的特征?
这里要深究到PyObject这个结构体的层面。通常来说,无论什么语言最终被计算机识别到的都是内存中的字节信息,对象实际上就是在更高的层次上把内存上的数据作为一个整体来考虑,比如一个整数或是一个字符串。Python中所有的东西都是对象,它们拥有一些相同的内容,这些内容定义在PyObject这个结构体中。
ob_refcnt是一个整形变量,它的作用是实现引用计数机制。比如一个对象A,当有一个新的PyObject *引用该对象时,A的引用计数增加;而当这个PyObject *被删除时,A的引用计数减少。当A的引用计数减少到0时,A就可以从堆上被删除,以释放出内存供别的对象使用。ob_type是一个指向_typeobject结构体的指针,这个结构体实际上也是一个对象,它是用来指定一个对象类型的类型对象,这个类型对象记录了不同的对象所需的内存空间的大小信息。那么简单的说,Python中对象机制的核心一个是引用计数,一个就是类型。
PyObject是一个定长对象的结构体,对于可变长度对象的结构体是PyVarObject,它比PyObject结构体多一个ob_size变量,用于指定容器中包含的元素数量。比如list中有5个元素,那么PyVarObject.ob_size的值就是5。PyVarObject实际上只是对PyObject的一个扩展而已,任何一个PyVarObject所占用的内存,开始部分的字节定义和PyObject是一样的。这就可以解释说,当Python创建一个整形对象PyIntObject,首先它会为这个对象分配内存,并进行初始化,然后这个对象会由一个PyObject*变量来维护,因为每一个对象都拥有相同的对象头部,这使得对象的引用变得非常的统一。无论对象实际上的类型是什么,只需要通过PyObject*指针就可以引用任意的一个对象。
深入浅出了Python变量赋值的机制以后,大家就不觉得这是难以理解的概念了吧,其实学习的乐趣就体现在恍然大悟、融会贯通的那一时刻!