开放数据平台、助力国家实验室:耕耘在数据科学领域的清华力量
随着发展大数据、人工智能上升为国家战略,数据科学这一领域的计算技术不断突破,科研成果不断涌现。在这一时代浪潮之中,清华大学作为顶尖学府也在默默耕耘和奉献,为行业培育了众多杰出人才,并推动了跨学科的教学与科研交叉融合,打造了“政产学研用”平台,孵化了众多大数据/AI赋能产业的项目,在行业内具有举足轻重的地位,为推动大数据和人工智能的技术落地、产业发展做出了巨大贡献。
下面我们将对其中的一部分团队和项目进行梳理,希望帮助大家进一步了解,这些在实践中默默奋斗的清华人,在大数据、人工智能领域做出了哪些贡献。
关注基础设施
承建大数据系统软件国家工程实验室
清华大学软件学院院长、数据科学研究院副院长王建民老师和他的工业大数据团队承建了“大数据系统软件国家工程实验室”。该实验室于去年9月11日正式启动,这是该领域唯一一个国家级创新平台。实验室将开展基于云计算的大数据基础设施、大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、大数据混源软件可信验证等技术、大数据应用开发运行环境的研发和工程化。
实验室通过建立大数据系统软件开源生态社区,形成国内一流的科研环境,培养和汇聚大数据系统软件高端技术人才,主动承担国家和行业重大科研项目,在多源异构数据管理、大数据分布式计算框架等研究方向取得一批关键技术成果并成功转化,构建大数据系统软件领域自主知识产权和标准体系,形成可持续的产学研协同创新机制,为推动我国大数据系统软件的技术进步和产业发展提供技术支撑。
研究开放AMiner
科技情报大数据挖掘及服务平台
作为清华-青岛数据科学研究院科技大数据研究中心主任,清华大学计算机系李涓子老师和唐杰老师带队研发了科技情报大数据挖掘及服务平台,又名AMiner。AMiner系统可以通过对AI做领域梳理划分,再分析各细分领域的专家信息,最终实现精准学术画像,为使用者提供人才信息。系统还包含亿级学术信息,并自动分析关联的开放知识图谱,供大家用于研究。
该系统一经问世,便吸引近210个国家与地区总计298万个独立IP的访问量,在学术界得到了广泛的应用。
AMiner利用先进的数据挖掘和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐等众多功能。能够为计算机科学相关领域的研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研人员提供很好的信息获取和帮助。截至目前,AMiner系统已收集了7900多万论文信息、3900多万研究者信息,1.3亿论文引用关系、780万知识实体以及3万多学术会议/期刊,吸引了全球220多个国家的600多万用户访问。
促进医工结合
研发清华医工科研服务平台
为切实推动“医工结合”,清华大学临床医学院、北京清华长庚医院和清华-青岛数据科学研究院共同建设了“清华医学研究数据平台”(又称“清华医工科研服务平台”)。“清华医工科研服务平台”融合了清华大学在数据科学领域顶尖的科研能力和技术积淀,目前已经在北京清华⻓庚医院、青海大学附属医院、中国解放军181医院、广州医科大学附属第一医院、苏州大学第二附属医院、青岛大学附属医院等6家单位开启测试应⽤,并初步实现了清华⼤学计算机系、⾃动化系、软件学院、电子系、统计中心、生物医学影像研究中心等多名教授团队相关课题和应⽤研究的汇聚。
作为实用性多中心建设医学数据研究开放平台,“清华医工科研服务平台”不仅符合国际多中心科研标准,涵盖数据科学、临床医学、材料科学、人工智能等多领域知识数据。同时还可以提供独立单中心和互联多中心两种运营模式:在多中心模式中,实行数据脱敏、索引互联、按需共享;在单中心模式中,实现本地运行、院内使用、独立科研。
医工平台践行医学和工学的交叉融合科研,以医疗大数据和应用场景驱动工程技术创新发展,以多中心数据平台关键技术实现“平等合作、按需互联、成果共享、贡献分明”的科研新模式,逐步覆盖和联结全国各地合作医疗机构和工程技术专家团队。
发布清数银联智策指数
清数银联智策指数,是在清华-青岛数据科学研究院经济金融数据研究中心主任白重恩老师的带头下,基于中国银联借记卡、信用卡的消费数据,与银联智策携手搭建的金融大数据平台。该指数基于银联智策的金融大数据平台,经过了数据清理、商户采样、时间序列调整等一系列模型验算,能准确、实时地反映百姓生活状况以及多个重要消费行业的景气度,不仅可以帮助投资决策和行业咨询,其呈现的经济以及产业发展规律,对各级政府以及企业的科学决策有着较高参考价值。该指数在业界产生了广泛影响,并在彭博(Bloomberg)金融终端上推出。
以消费大数据为核心开发出的清数银联智策指数,可以帮助投资人更好的把握市场的机会,帮助媒体更好的扑捉社会的动向,帮助学者更好的研究经济的规律,帮助政策制定者更好的论证调控的效果。
携手中国农业科学院
研发农业监测预警系统开发项目
中国农业科学院农业监测预警系统开发项目由清华校企北京辰安科技股份有限公司中标,清华-青岛数据科学研究院组织专家团队设计并参与实施。本项目立足产业发展需求,建设成为国内农产品和经济大数据最全面的平台、农产品建模预测最专业的平台、农业经济专家分析最权威的平台。该平台是迄今为止中国第一个实现从农产品数据采集到数据清洗、整理、建模、监控、预测及预警的全流程农业大数据智能平台,目前已覆盖17个主要大类农产品。
该项目有效保障农业监测预警研究空间的稳定运行与功能提升,为加强我国农产品市场监测预警、为农业管理部门提供有效决策支持、建立健全我国现代市场体系提供了重要的支撑,已获得国内农业及经济专家的认可,并受到澳大利亚等国专家的好评。
合作建设复合型
大数据交通态势感知智慧指挥中心
复合型大数据交通态势感知智慧指挥中心是清华-青岛数据科学研究院交通大数据研究中心团队与贵州省公安厅交通管理局合作开展的课题研究,由陆化普老师领军,他凭借其深厚的学术科研背景为国家交通管理大数据提供“智库”支持。该系统专注于利用交通仿真、大数据学习、机器学习和深度学习技术,融合多达100类跨界多类型、多源头大数据,实现交通态势和交通风险的感知,将交通安全管理从被动的事后应对处置转变为交通风险的主动的事前预警处理、事中快速疏导,从而降低交通事故死亡率,优化交通管理和治理,更好的服务人民群众。
陆化普老师团队以大数据应用为抓手,提升了信息化、动态化条件下政府的交通管理能力和水平,构建现代科技应用与传统安全管理深度融合的交通管理新模式的做法,使贵州交通管理工作进一步提升了风险预见性、监管实时性、执法精准性,有利于全面推进“平安交通、和谐交通、便民交通”建设。
研究开放大数据舆情分析平台
由清华大学新闻学院教授博导沈阳老师指导参与的大数据团队一直专注于舆论大数据、指数大数据和行业大数据的研发。其中“指数大数据”www.gsdata.cn现有十二万家机构用户,主要利用公开透明的评价公式进行指数分析。目前大量政务新媒体、企业新媒体的评估均在此平台完成。“舆论大数据”yuqing.gsdata.cn现有机构用户约五万家,该系统是进行人文社科数字化研究的利器,使用手机号即可免费注册使用,每天抓取五千万条数据,涵盖网页、微博、微信公号、客户端、报纸、贴吧、头条等等。
该平台参与清华校内师生开放计划,可免费提升数据权限。收录有1900万+微信数据、2亿+微博数据、93万+APP数据,以及知乎、论坛、博客、平媒电子报、海外媒体等海量数据,为客户提供多平台海量数据信息,为定制报告提供全面有效的数据支撑。此外,2017年该大数据团队撰写了8732份咨询报告,被国家信息中心评为:“十大最具影响力大数据领域社会智库”之一。
发起成立得意音通声纹识别科技公司
北京得意音通技术有限责任公司由清华大学语音和语言技术中心主任郑方老师发起成立。郑方老师带领的研发团队一直专注于声纹识别、语音识别和自然语言理解技术的研发以及在身份认证领域的应用探索和实践,得意音通公司目前是拥有完全自主知识产权的声纹识别领域、智能语音与自然语言处理领域的技术研发商、产品开发商和服务提供商。
得意音通是清华大学知识产权入股企业,自成立以来始终与清华大学保持密切的"产学研"合作。得意公司与清华大学建立了"清华-得意音通声纹处理联合实验室(JLVPP)"旨在促进声纹处理相关领域的学科建设和科研发展。实验室联合双方优势、资源,推动声纹识别领域进行更深层次的研究,促进声纹识别及相关技术的发展,探索声纹识别和语音识别、语言理解以及其他生物特征识别技术之间进行融合应用的创新模式。
成立深鉴人工智能芯片自主研发科技公司
由清华大学电子工程系副教授汪玉老师与多位清华校友联合成立的深鉴科技,是一家具备神经网络压缩编译工具链、深度学习处理器DPU设计、FPGA开发与系统优化等技术能力的初创公司。目前已推出了包括人脸检测识别模组、深度学习SDK “DNNDK”等8款AI新品,其中也包括2款自研AI芯片——“听涛”、“观海”。
其中,深鉴科技最为核心的,即为DPU(Deep Learning Processing Unit),以及神经网络压缩编译技术,它不仅可以将神经网络压缩数十倍而不影响准确度,还可以使用“片上存储”来存储深度学习算法模型,减少内存读取,大幅度减少功耗。这些技术在人工智能领域有着广泛而深入的影响,甚至影响了世界深度学习的发展。
建设开放型法律数据科研平台
“法律数据科研平台”是清华—青岛数据科学研究院与社会科学学院共同发起,合作寻找司法数据源,数据院自筹资金、投资购置设备,在校内建设计算能力,自行开发的数据应用服务平台。经过数据院半年多的精心建设,平台目前已汇集了3900余万份全国范围内依法公开的司法判决文书,形成可持续更新的法律数据库,具备全文检索、分类检索、结构化分析、统计分析、可视化报表等在线服务功能。
“法律数据科研平台”在清华大学社科学院和法学院老师初步试用中广受好评。该平台的海量数据快速检索功能,加速了老师们的科研效率、在线服务模式打破了老师们对自有计算机的性能约束、多维度的数据分类检索功能满足老师们不同课题的数据需求、免费开放的数据服务大大降低了老师们日常的科研数据采集成本,老师们普遍认为该平台是一个高效环保、数据可靠、功能必要的科研好助手。
在大数据和人工智能的科研方向上,清华人虽然奋斗在不同的岗位,但是他们每一个项目的建设,都在为大数据和人工智能研究的应用落地,为推动中国科研项目市场化、产业化,贡献着属于自己的力量。“清华人”不是一个简单的身份,他承载着一种特定的文化传统和特定的时代精神。无论是实践在一线平台的个人,还是在背后默默支持的数据院整体,都背负有每一位清华人内心深处强烈的使命感和责任感。“引领一流大数据科研”不仅是数据院的使命,也是清华大数据人的使命!