实验室动态

[2018 TKDE] Adaptive Distributed RDF Graph Fragmentation and Allocation based on Query Workload

彭鹏的论文(Adaptive Distributed RDF Graph Fragmentation and Allocation based on Query Workload)被 TKDE 录用。

随着资源描述框架(Resource Description Framework,RDF)数据规模的日益增长,设计一个分布式RDF数据管理系统对这些数据进行管理是一件十分必要的事情。在设计分布式RDF数据管理系统的过程中,常见做法在于:首先将RDF数据划分成多个称为分片的子数据,然后讲这些分片分布到不同机器上。因此,分布式系统设计的过程包含了两个部分:数据划分和分片分配。在本研究中,我们利用查询日志进行数据划分和分片分配,以旨在减少查询处理过程中的通信代价。具体而言,我们自适应地维护一些频繁读取模式(frequent access pattern,FAP)来反映查询日志的特性并保证数据完整性和方法近似率。基于这些的频繁读取模式,我们提出了三种数据划分策略:垂直划分策略、水平划分策略和混合划分策略,以针对不同查询处理目标来进行处理。数据划分之后,我们讨论如何将划分出来的分片分配到不同机器上以平衡负载。最后,我们还讨论了如何利用数据划分和分片分配的结果进行查询处理。在真实RDF数据集合上的实现验证了我们方法的卓越性能。