基于Hadoop的高效连接查询处理算法CHMJ
作者:张书彬;李均;王伟平;孟丹;赵彦荣
作者单位:腾讯公司数据平台部,广东深圳518057;中国科学院计算技术研究所,北京100190;中国科学院国家智能计算机研究开发中心,北京 100190;中国科学院计算技术研究所,北京100190;中国科学院国家智能计算机研究开发中心,北京 100190;中国科学院研究生院,北京 100049
加工时间:2014-05-15
信息来源:《软件学报》
关键词:大数据;Hadoop;连接查询处理;HashMapJoin
摘 要:提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍.