Social Information Graph
研究内容解读
- 面向多源、异构和跨模态复杂社会信息,研究语义融合、网络表征和动态演化的理论框架;
- 多源:多数据源爬取,
- 异构:不同数据结构,不同结构的结构化数据,结构化数据与文本数据
- 跨模态:模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的。
- 语义融合:多源异构跨模态等多数据形态融合为语义一致的一种数据形态
- 网络表征: 相比图片等简单的网格结构,图结构是更泛化的数据结构,比如一般的社交网络、互联网等,都是由图这种数据结构表示的,图的节点表示单个用户,图的边表示用户之间的互联关系。针对网络结构,用向量的数据形式表示网络结构、节点属性的机器学习方法就是网络表征学习。
- 动态演化:能够根据不同的业务和数据输入的变化不断调节满足新的分析需求。
- 提出面向多维度、多尺度社会信息网络的风险感知、智能分析和群体决策的社会计算范式,研究和构建融合全球多语种、跨模态大数据驱动的社会风险机理和分析模型与方法;
- 社会信息网络:庞大的社会信息构成的知识网络
- 群体决策:传统的群体决策是为充分发挥集体的智慧,由多人共同参与决策分析并制定决策的整体过程。其中,参与决策的人组成了决策群体。集体智慧学习主要指根据群体的行为、偏好、意见挖掘出新奇的观点,偏数据挖掘概念。
- 研究信息网络的实体及关联知识联合提取方法,构建支撑风险评估与智能决策的时序知识图谱,研究复杂社会网络图表征学习框架,提出领域知识与大数据驱动的超大群体智能决策方法,支持智能决策的自主评价与推演;
- 时序知识图谱:时序图谱可以被看作具有多个相互关系的序列;实体间的多个相互关系可能发生在同一时刻;时序邻居关系之间存在强依赖;多关系情况下,当前邻居可以帮助预测未来(实体之间的)相互关系。
- 构建面向重大需求的风险预警、智能分析、群体决策的软硬件一体化大数据计算平台。
指标分解
- 20个语种:NLP多语言融合:争取NLP机器翻译融合
- 10W个信息源:分布式大规模爬虫平台:pyspider
- 千万级节点、亿级边的知识图谱
- 分布式图数据库:技术查询,比如dgraph
- 分布式存储:存储简便,伸缩简便,可以直接供分布式计算框架使用
- 图计算:分布式图计算框架,比如SparkGraphX
- 网络嵌入:比浅层图嵌入或图自动编码器,聚焦于学习关系结构的无监督表征
- 正则化神经网络:利用图强化神经网络的损失,为了半监督学习的正则化。
- 图神经网络,旨在学习任意结构下离散拓扑的可微函数。