科技计划:
成果形式:新技术、新产品
合作方式:技术开发、技术咨询、技术服务、技术入股、人才培养
参与活动:
专利情况:
未申请专利
成果简介
成果概况
本项目旨在以常见关系数据库和文件系统为底层存储的基础上,研究海量结构化数据的快速加载内存,分布式内存多维索引的管理方法,分布式数据的查询规划和计算优化。同时研究内存数据的多副本可靠性、一致性,怎样和磁盘数据进行同步的理论方法。如何构建支持分布式事务的高效内存数据库系统。
2.2 拟解决的关键问题
2.2.1 快速加载和计算
实现海量数据快速加载到内存需解决数据存储的方式以及加载策略的选择,还包括数据分布等问题。对海量数据的快速检索,关键是如何建立高效的分布式多维内存数据的索引和分布式查询规划优化。分布式数据的交并计算,需解决其并行化和中间数据处理的关键技术。
2.2.2 内存和磁盘数据的同步
数据同步技术中应解决的是多种数据库和文件系统间统一数据表示的问题;读写过程中可靠性和可用性的问题;而核心问题则是整个系统的数据如何保证一致性,并且还得支持分布式事务的ACID等特性。
创新要点
存储引擎部分:
? 基于分布式Group-Key的多维数据索引
创建基于分布式Group-key的多维数据索引,在具有高效性的同时,对索引进行一定的压缩和分布式存储,降低系统瓶颈。
? 分布式多数据源并行数据导入
存储引擎能够从多数据源快速并行导入和加载外部数据,有利于业务数据的快速转移,系统的无缝切换。
? 高性能列数据压缩存储引擎
存储引擎中数据采用字典压缩和位压缩技术,最小化数据占用空间,同时支持高并发数据访问。
查询引擎部分:
? 提供标准SQL查询入口
使用标准SQL作为查询入口,规范统一,更易于与上层系统适配
? 基于规则和代价的查询优化
针对查询任务特性、数据分布、节点和网络的实时负载情况等信息,优化查询任务,使之具有最小的执行时间。
?分布式任务调度与控制策略
基于P2P计算模型,实现多节点自组织并行执行查询任务,基于全局LRU的缓存策略加速查询。
主要技术指标
?字段数为1000的表导入成功
?8路集群节点的并行快速导入成功。
?100个表并行导入成功。
?在数据表字段数量为50个,单条记录平均数据大小为900字节,数据导入速率为2万条/秒。
其他说明
完成人信息
姓名:对接成功后可查看
所在部门:对接成功后可查看
职务:对接成功后可查看
职称:对接成功后可查看
手机:对接成功后可查看
E-mail:对接成功后可查看
电话:对接成功后可查看
传真:对接成功后可查看
邮编:对接成功后可查看
通讯地址:对接成功后可查看
联系人信息
姓名:对接成功后可查看
所在部门:对接成功后可查看
职务:对接成功后可查看
职称:对接成功后可查看
手机:对接成功后可查看
E-mail:对接成功后可查看
电话:对接成功后可查看
传真:对接成功后可查看
邮编:对接成功后可查看
通讯地址:对接成功后可查看