重磅干货免费下载!阿里云RDS团队论文被数据库顶会SIGMOD 2018收录
摘要: 来自阿里云RDS团队的论文“TcpRT: Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time” (TcpRT:面向大规模海量云数据库的服务质量实时采集与诊断系统)被数据库顶会SIGMOD 2018收录。
ACM SIGMOD数据管理国际会议是由美国计算机协会(ACM) 数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议。
SIGMOD和另外两大数据库会议VLDB、ICDE构成了数据库领域的三个顶级会议。相对而言,SIGMOD比另外两个会议的含金量更高,被录取的难度更大。ACM SIGMOD的论文录取率是很低的,平均录取率大约仅为15%-17%。
来自阿里云RDS团队的论文“TcpRT: Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time” (TcpRT:面向大规模海量云数据库的服务质量实时采集与诊断系统)被数据库顶会SIGMOD 2018收录。
TcpRT论文介绍了RDS天象系统在云数据库SLA数据采集、服务质量指标计算、异常检测、故障根因分析领域的创新工作,以及在各类云平台上大规模部署自动化服务的客户实践经验。
评委评价
I have plenty of experience with manual anomaly detection. That has wasted much time for me at work, so I liked what you described.
以下为SIGMOD 2018阿里云入选论文。
下载中文版:http://click.aliyun.com/m/100...
下载英文版:http://click.aliyun.com/m/100...
简介
随着企业上云趋势的日益热化,作为产业核心组件的数据库,已成为各大云计算公司增长最快的在线服务业务。作为中国第一大云数据库厂商,我们RDS团队致力于为用户提供稳定的云数据库服务。从本质上看,RDS是一个多租户DBaaS平台,利用轻量级KVM、Docker镜像等资源隔离技术将用户所购买的数据库实例部署在物理机上,按需分配资源并进行自动升降级,实现一套完全自动化的智能运维管理。
云数据库对客户业务的稳定性至关重要,因此快速发现云数据库性能出现异常,及时定位异常原因是云数据库厂商的一个挑战。TcpRT是阿里云数据库用来监控和诊断数据库服务质量的一个基础设施。TcpRT从主机TCP/IP协议栈的壅塞控制采集trace数据,计算数据库延迟和网络异常,在后台流式计算平台进行大规模实时数据分析和聚合,通过统计指标历史数据的柯西分布发现异常点,并通过同一台主机、交换机、proxy下所有实例一致性趋势的比例来计算不同组件发生异常的概率。
到目前为止,TcpRT以每秒采集2千万条原始trace数据、每天后台处理百亿吞吐数据、秒级检测异常的卓越性能在阿里云持续稳定运行三年。
本文贡献
提出了一种新的对数据库服务质量进行采集的方法,基于内核壅塞模块实现,可以非侵入性、低代价的采集基于停等协议的关系数据库的per connection的延迟、带宽,分析用户使用数据库的模型(短连接和长连接),并且可以端到端的记录和量化基础网络服务质量对数据库服务质量的影响,包括丢包率、重传率。
我们开发了一套对采集的原始数据进行数据清洗、过滤、聚合、分析的流式计算系统,系统可以做到水平扩展、容错性、实时性、Exactly Once,具有和其他大数据平台例如EMR、MaxCompute进行数据交换的能力
我们提出了一个新的算法对TcpRT数据进行分析,来发现数据库的服务质量有无异常,并且对异常事件的根因进行定位
会议将于6月10日在美国休斯敦召开,论文也会公开发表,以下是相关信息。
Title:SIGMOD/PODS '18 International Conference on Management of Data
Houston, TX, USA — June 10 - 15, 2018
Pages:1846
Sponsor: SIGMOD ACM Special Interest Group on Management of Data
Publisher:ACM New York, NY, USA
ISBN:978-1-4503-4703-7
Conference:MODInternational Conference on Management of Data