CIIS 2019 演讲实录丨李天瑞:大数据智能的挑战及其解决方案
10月26日-27日,由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导,中国人工智能学会主办,西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”--西安举办。在27日全国高校人工智能学院院长/系主任论坛上西南交通大学人工智能研究院副院长、教授李天瑞为我们带来了题为“大数据智能的挑战及其解决方案”的精彩演讲。
李天瑞 西南交通大学人工智能研究院副院长、教授
以下是李天瑞的演讲实录:
我的报告题目是《大数据智能的挑战及其解决方案》,这是我们课题组近年工作的一些进展,供大家参考。
大数据智能的挑战有很多,例如数据的不确定性问题等。很多人在一开始选择做大数据、人工智能这个方向的研究工作很高兴,但过一段时间,就开始苦闷起来,因为要把大量数据准备好绝非易事,而且可能研究所需要的数据在哪里也不清楚。大数据的当前现状是数据质量不高,数据有缺失,标签数据少,还有数据常常是多源异构的等。以下我们仅围绕这四个方面的挑战,给出一些我们的解决方案。
首先我们再看一个例子来说明大数据智能的挑战——有效合理的数据采集。大家都知道“盲人摸象”的故事,从大数据的角度来理解,每个盲人都用自己的双手来作为传感器来感知世界,盲人通过感知而获取到的数据来进行建模,每个盲人都得到一个不同的大象模型,其原因何在?这就是由于盲人所获得的数据存在片面性的问题。就像苏轼的这首诗“横看成岭侧成峰,远近高低各不同,不识庐山真面目,只缘身在此山中。”所描述的,“横看成岭侧成峰”就是从不同的角度来看庐山是不一样的,可以看到数据采集的重要性。
大家都熟悉知识发现的过程模型,即从数据中发现知识,需要经过一些基本的流程,包括数据选择、数据预处理、数据变换、数据挖掘,模式解释/评价就得到我们所需要的知识,但由于该模型没有考虑数据采集的步骤,这很容易陷入“盲人摸象”的局面。我们曾经提出一个知识发现的过程新模型,即在模型中融入了数据采集这一关键步骤。例如,我们做特征选择的时候,有一些特征是不需要的,那么就不需要布置相应的传感器来采集这方面的数据,如高铁上有上千的传感器,如何根据特征选择方法,把不需要的传感器布置到更需要的地方,就可以提高我们的决策能力。下面我们分别根据上述四个挑战问题给出我们的解决方案。
问题一:数据质量。
我们通常在做数据采集的时候有很多种手段,在智慧城市里,我们可以利用人作为传感器收集高质量的数据,帮助我们实时分析监测城市的空气质量等。但由于人类行为的不规则,造成采集到的数据很不平衡。通常以前在智慧城市里评价采集的数据质量仅考虑数据量。但我们发现合理评价采集的数据质量可从以下两个方面来考虑:一是要有足够的数据量;二是采集到的数据空间分布要均匀。在城市感知领域,我们会给出一定的经费来构建移动感知的框架,使得收集到的数据质量尽可能达到最大化。我们通过提出一个新的指标——层次熵,同时考虑了数据量和数据的空间分布,实验表明所提出的层次熵指标可以用来合理评价采集数据的质量和平衡性,能够有效提升采集的数据质量。
问题二:数据缺失。
在很多情况下,我们拥有的数据是有缺失的,我们常见的传统机器学习中所用到的数据集,有超过一半以上的数据集都有数据缺失问题。但绝大多数的机器学习算法必须要求数据集是完备的,没有缺失的,否则,该算法就会失效。在城市感知的时候也会常常由于传感器的失效、停电等原因,导致出现数据缺失。我们从全局和局部两个角度出发,并同时考虑到数据的空间相关性和时间相关性,通过结合经典的统计模型和数据驱动模型,提出了一种基于多视图学习的模型ST-MVL来填补具有地理标签的时间序列数据。基于北京市1年的空气质量数据, 实验结果验证了该模型处理数据缺失问题的有效性。
问题三:标签数据少。
若只使用少量的有标记样本来学习,那么它们所训练出的学习系统往往很难具有强泛化能力。若仅使用少量“昂贵”的有标记样本而不使用大量“廉价”的未标记样本,则是对数据资源的极大浪费。大数据研究中最受关注的问题之一:当有标记样本较少时,如何利用大量的未标记样本来改善学习性能。以下我们利用少量有标签数据来提高传统的RBM特征表达能力,由此,我们提出了一个pcGRBM模型,其可视层是高斯线性层,隐藏层是二进制类型,在训练过程中使用成对约束信息来引导隐藏层编码,实例级成对约束的背景知识被编码到pcGRBM的隐藏层特征中。实验表明,在和传统无监督聚类算法、半监督聚类算法对比中,我们所提出的pcGRBM模型得到的特征表现出更好的性能。
问题四:多源异构。
我们很关心空气质量预测问题,但空气质量检测站很少,例如,北京这么大的地方只有20几个监测站,因为监测站占地方而且非常昂贵,一般的上百万,高级一点的上千万,所以不能大量地部署。现在的问题是:空气质量监测站点是有限的,如何推测出任意位置上的空气质量,这其中存在着很多的挑战。比如空气质量有动态的时空相关性和突降情况,比如今天刮了一阵大风,空气质量马上就变了,还有影响空气质量的不同因素是相互影响、相互作用,如何处理这些问题是非常大的挑战。
我们就想办法利用一些其他的数据信息来帮助提高空气质量预测的水平,针对这个问题,基于空气质量、气象和天气预报等多源异构数据,并利用大气科学领域的专业知识,同时借助深度学习高效的特征表达能力,提出了一种新颖的深度分布式网络来融合城市多源异构数据。其思路是首先将空间上分布稀疏的空气质量数据转换为规模大小一致的输入(可以算是一种数据增强技术),然后采用了所提出的深度分布式网络来融合空气质量、气象和天气预报等多源异构数据,进而对所有影响空气质量的直接和间接因素进行建模。基于中国9个城市的3年数据,实验结果验证了该方法的有效性。
应用案例:调度优化
这个案例是讨论如何应用多源异构的数据来解决实际问题。当前在智能城市里面调度优化应用非常多,比如城市出租车系统效率分析,这里面涉及到出租车的位置和乘客的位置,以及乘客目的地的位置,我们可以采集到很多不同的数据,根据这些数据源帮助我们更好的决策,这是非常重要的应用场景。又如京东快递、顺丰等,他们每天都有大量的请求,需要实时操作,有大量数据,高度动态的,这些都是属于我们研究的优化问题。这些问题能不能利用当前的大数据技术提高其调度优化的水平?
我们以救护车实时部署优化问题为例,我们要最大化提升救护车的运输能力,即要最小化病人的平均接送时间和最小化超过10分钟接到的病人的比例。超过10分钟对病人的存活率有很大的影响,所以我们要尽量满足这两个因素。当一辆救护车把病人送到医院之后,应该把该救护车重新部署到哪一个救护车站点,这是我们需要研究的工作。主要挑战有很多因素,每个站点的紧急度,以及其他救护车的状态,一个站点的紧急度又受多个因素影响。在这种情况下,当救护车可用时需将其重新部署到一个站点,需要依据每个站的当前紧急程度,到达现场救护车后的状态以及实时交通情况等。基于这个背景,我们构建一个救护车重新部署优化模型。实验数据是天津市的数据,通过救护车的动态重新部署,急救车接送病人的时间最多降低21%。我们也提出站点的优化选址方法,把站点选在更合适的位置,这样可以进一步提升救护车的救护能力。通过这两种方法的叠加,大大减低救护车救护病人的时间,这个系统现在已经部署到多个智慧城市的应用当中。
最近我们也在考虑,想把我们的大数据技术实实在在地应用于智慧城市里面的产品当中,比如说很多学生点过外卖,希望外卖送得越快越好。但每天有大量的订单,如何配送订单是非常大的挑战。这里面就涉及到如何把送餐的任务进行分组,分好组之后进行合适的优化调度,就可以大大降低送餐的时间。送餐效率受到很多因素影响,比如共享性和空驶时间,送餐任务分组与调度是典型的NP问题。我们通过利用路网的数据、轨迹的数据、订单的数据等,构建了一个外卖任务的实时分组模型,可以帮助我们提升送餐任务的调度水平。
最后,我也表达一下我们的愿景:希望通过人工智能技术的研究与实践来实现一个利国利民、和谐共赢的模式,即百姓得实惠、企业有效益、国家也健康发展,为造福人类做出更大的贡献。
(本报告根据速记整理)
CAAI原创 丨 作者李天瑞
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会