论文标题:LRP: learned robust data partitioning for efficient processing of large dynamic queries
期刊:Frontiers of Computer Science
作者:Pengju LIU, Pan CAI, Kai ZHONG, Cuiping LI, Hong CHEN
发表时间:8 Sept 2024
DOI:10.1007/s11704-024-40509-4
微信链接:点击此处阅读微信文章
引用格式:
Pengju LIU, Pan CAI, Kai ZHONG, Cuiping LI, Hong CHEN. LRP: learned robust data partitioning for efficient processing of large dynamic queries. Front. Comput. Sci., 2025, 19(9): 199607
阅读原文:
问题概述
数据分区是重要的物理设计技术,其在动态环境下的实施时面临两个核心挑战。
针对大规模动态查询下的分区难题,本文提出了一种自学习的鲁棒性数据分区系统。
技术步骤
通过数据和查询编码提取完整的谓词特征,实现查询的向量化。
使用两种可选神经网络预测查询向量的变化,解码预测结果后,通过贪婪束搜索算法构建分区树结构,并基于该树将数据路由到最终的分区文件中。
实验结果
在Spark-SQL系统上,对10个真实数据集进行了多轮端到端测试。实验结果表明,本文提出的分区设计策略显著提高了数据布局的鲁棒性,实现了更高效、更稳定的系统表现。
期刊简介
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)。
中国学术前沿期刊网