随着信息技术中通信与计算取得快速进步,网络得到迅猛发展与广泛应用,数据管理发生日新月异变化。数据已变成越来越丰富,越来越广泛存在各行各业,数据已成为社会一个巨大的宝库。从大量数据中提取有价值,将成为一个重要产业,大数据挖掘将成为信息产业技术核心。

大数据通常具有以下特征:海量、多源性、异构性、不确定性、动态性、多模态和复杂内联,这些特性对大数据处理与服务提出了巨大挑战,传统的数据挖掘技术已不能满足海量多源、异构、不确定等大数据处理的高性能需求。为此该重点实验室围绕大数据挖掘一些相关的关键技术问题,展开大数据存储、预处理、表示与建模型、学习与挖掘等理论与技术问题展开研究,利用依托单位在智能交通无人机以及工程机械装备远程监测等学科的优势,以实际数据分析为现实应用支撑,开展一定的示范运用研究。实验室准备进行五个方向建设,主要内容如下。


方向1    大数据存储与云计算

大数据往往具有海量、复杂、多样、异构、动态变化等特性,而如何存储、管理和处理海量的数据资源,使这些数据得到高效的利用,成为大数据挖掘与应用的关键难题之一。为此,该方向主要从大数据存储体系结构、数据访问机制及云计算弹性扩展技术等方面开展大数据存储与云技术弹性扩展关键技术研究,其中具体研究工作有

1)大数据异构融合存储体系结构研究;

2)云存储数据访问控制技术研究;

3)实时跨媒体数据存储与公众服务能力研究;

4)云平台体系结构研究;

5)云平台弹性扩展机制研究;

 (6) 大数据挖掘的并行计算研究。

通过本课题研究,将探索构建安全高效的大数据存储与共享访问控制机制,进而建立面向异构与高并发等复杂应用环境的大数据存储支撑平台,并逐步建立适应未来数据存储服务发展趋势的存储结构模式及其相关理论体系。该方向将为其它方向提供一定计算支持和其它服务。


方向2    大数据可用性预处理

该方向针对具有不同来源、不同类型不同形式特点的海量数据研究其可用性的数据处理的理论与方法,并以此为基础,对海量数据处理、劣质性检测与纠正,以提升数据的可用性。

主要从事以下几个方面的研究:

(1)智能计算算法在海量数据处理中的应用理论与方法研究

(2)大数据可用性的处理技术与应用研究

(3)大数据错误检测与纠正的理论和方法研究

(4)机器学习和深度学习理论在实际系统建模中的应用与研究

(5)数据挖掘算法在交通等实际系统数据分析中的应用研究

(6)图像、视频数据检测与纠正的理论和方法研究

(7)基于实数域扩展效用函数的大数据传输优化方法研究

通过上述技术研究应用,实现从理论到实验,建立信息可用性的海量信息量质融合管理原型系统模型,建立面向复杂物理信息系统和管理信息系统的具有代表性的信息可用性保障应用示范模型,验证本项目取得的基础研究结果的可用性和有效性。


方向3      大数据表示与建模

大数据表示与建模是以数据表示结构为核心、综合计算机技术、数据结构技术、数学建模技术、关联规则制定技术、模糊集合技术以及信息处理技术等现代科技各方面的最新成果,按系统工程和整体优化的方法组成,以满足特定数据表示以及数据模态产生要求的有机整体。为此,开展以下几个方面的研究:

(1)异构性数据匹配研究与应用

(2)数据重构研究与应用

(3)异质数据共构模型建构与应用;

(4)智能化异质数据处理、模型建构与应用;

(5)基于核变换函数的大数据表示方法技术研究;

(6)整合核变换与稀疏矩阵数据表示技术开发与研究;

研究适合大规模本体的概念层匹配的单目标与多目标全局优化模型。研究适合大规模本体的实例层匹配的全局优化模型。分析链接开放数据网中的实例对象链接特点,设计高效的、可信的基于进化算法的大规模本体的实例层匹配技术。完成异质数据系统的个别特性分析、具有关联性的共构分析、非关联数据的结构分析等。并通过智能计算方法找出相异性直数据间的共通性、关联性与连动/反动性,以生物智能算法为基底构建出异质数据间的共构模型。

通过上述技术研究,实现从理论到实验,从实验模拟到实际应用范例的研究条件,以改善、提升数据重构结果为目标。通过应用自创的数据分析筛选与补偿方法,实现对缺失数据补偿的模型建构,有系统的提供现代化设计方法和手段。


方向4        大数据机器学习与挖掘

该方向主要针对大数据机器学习与大数据挖掘中关键理论与技术,开展以下几个方面的研究:

(1)并行计算与分布式计算理论研究与算法设计;

(2)凸优化与非凸优化理论研究及其应用;

(3)概率图模型与贝叶斯推断;

(4)大数据信息安全与隐私保护;

(5)大规模时空数据学习与时序数据模式挖掘;

(6)在线学习理论与计算博弈论研究及其应用;

(7)深度学习理论研究及学习范式设计与应用。

通过上述几方面的而研究,完备面向大数据的机器学习及大规模计算与优化理论,设计大数据背景下的信息安全与隐私保护策略,开发具体数据挖掘技术工具,并结合平台现有数据资源,在交通轨迹数据学习、生物信息挖掘、地理信息处理及经管、金融数据分析具体问题上应用,并为本平台并行的其他几个研究方向提供理论基础与算法支持。


方向5    大数据示范应用研究

该方向基于现有无人机的航测数据和交通数据,主要结合图像处理技术和数据挖掘技术,开展以下几点的应用研究:

(1)无人机飞行控制及数据采集技术研究

(2)无机航测真三维数据处理关键技术研究;

(3)真三维数据在建筑规划、智能园区的应用研究;

(4)自动化光学图像检测技术应用于大规模图像分析的产品缺陷检测;

(5)智能交通大数据分析云平台建设;

(6)基于交通轨迹的大数据车道特征检测及其规律挖掘;

(7)面向大规模软件制品的维护技术;

(8)基于群体智能的社交媒体复杂性网络分析。

该方向利用依托单位的无人机研究平台和智能交通数据平台以及工程机械装备远程监测等其它学科的平台以实际数据分析为现实应用支撑,开展面向应用需求的技术体系建设和方法验证体系构建,凝练其它方向的研究成果,逐步建立大数据挖掘的应用技术平台。以智能交通数据和无人机测绘数据分析为应用示范,进一步拓展媒体数据及其它大数据挖掘应用技术成果。