扩展LLVM的Checked C使C语言的空间内存更安全

Checked C是由Microsoft Research组织开发的开源、合作项目,它的目标是扩展C语言,方便程序员写出更为可靠的程序,不会出现类似缓存溢出、越界内存访问以及不正确的类型转换等问题。Checked C的代码可以和标准C代码共存,方便移植。

即将在IEEE Cybersecurity Development Conference 2018上发表的一篇文章中,研究员介绍了Checked C主要的功能和优势

Checked C借鉴了许多之前safe-C的想法,但是二者有所不同,Checked C的设计重点在允许增量转换的同时平衡控制、互操作以及高性能。

该语言非常重视向后兼容性,它引入了检查指针的概念,来保证静态和动态访问验证。Checked C语言尤其重视内存访问的空间安全问题,这代表着指针在分配的内存中始终是解引用的。Checked C的三个设计重点如下所示:

  • C指针表示得到了保留,所以Checked C的内存层与C相同。这有助于现存C代码库和库的互操作性。
  • 显式指明分配给指针的内存块边界,降低了编译时和运行时的负担。
  • 检查区域和边界安全接口让Checked C和原来的C代码的混合变成可能。完全移植过的代码将放在称为检查区域的sp中,在其中每个指针的访问都不会受到空间内存异常的限制。检查过的代码可以访问不安全的遗留C代码,这将通过边界安全的注解实现,这些注解将会添加到未检查的代码参数、返回值、功能、记录类型和全局变量中。

Checked C给C语言添加了两个新的指针类型,_Ptr<T> 和Array_ptr<T>。前者专门用于解引用,而后者支持指针运算。在解引用之前,编译器将动态地保证这两类指针的有效性。下面的例子展示了如何定义使用两个_Array_ptr<T>参数的功能:

void append(
  _Array_ptr<char> dst : count(dst_count),
  _Array_ptr<char> src : count(src_count),
  size_t dst_count, size_t src_count)
{
  _Dynamic_check(src_count <= dst_count);
  for (size_t i = 0; i < src_count; i++) {
    if (src[i] == ’\0’) {
      break;
     }
    dst[i] = src[i];
  }
}

在创建数组的时候,程序员可以使用_Checked关键字指定检查边界:

int buf _Checked[10]

根据Checked C开发者所述,要让现有的C代码转换为使用检查指针和数组的代码需要很多代码变更工作,可能会影响大概17.5%行代码。为了加快进程,团队正在开发自动转换的工具。有趣的是,Checked C部分形式化的特点可以保证任何违背空间安全的动作都将隔离在检查区域之外。今后这一方面的努力方向将扩展到动态大小数组上。

最后需要提出的是,初步基准测试显示,检查行为增加了平均8.6%的运行时间。Checked C是作为LLVM的扩展实现的,可以点击这里下载。  

查看英文原文Checked C Extends LLVM to Bring Spatial Memory Safety to C 

相关推荐