首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 计算机软件及计算机应用

基于RDD重用度的Spark自适应缓存优化策略

2024-06-21 580 0.72M 0

　　摘要：基于内存进行作业计算的Spark分布式计算框架，并不考虑作业的中间计算结果，容易造成高频访问的数据块丢失，在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现LRU（Least Recently Used）缓存功能，最久未被使用的元素被移动到顶部，优先被删除且造成数据的重算。针对Spark使用的LRU缓存替换算法造成高频访问但当前未被使用的热点数据被替换出缓存的问题，本文提出一种基于RDD（Resilient Distributed Datasets）重用度的Spark自适应缓存优化策略（LCRD），包括自动缓存算法、缓存自动清理算法。首先，自动缓存算法在作业执行前对Spark有向无环图进行分析，计算RDD的重用频率、RDD的算子复杂度等数据，并对影响执行效率的相关因素进行量化，根据重用度模型进行计算；在作业执行中，应用程序将重用度较高的数据块进行缓存。其次，缓存自动清理算法，在发生内存瓶颈或RDD缓存无效时，遍历缓存队列并对低频访问的数据块进行清理。实验结果表明，在选取amazon0302、email-EuAll、web-Google、wiki-Talk四种公开数据集执行PageRank迭代作业时与LRU相比，执行效率平均提升分别为10.7%、8.6%、17.9%和10.6%，内存利用率平均提升3%、4%、3%和5%。本文策略能够有效提高Spark执行效率，提升内存的利用率。

　　文章目录

　　0 概述

　　1 相关工作

　　2 问题的建模与分析

　　2.1 作业执行机制

　　2.2 内存资源模型

　　2.3 任务执行效率模型

　　2.4 RDD重用度模型

　　2.5 自适应缓存优化策略问题定义

　　3 自适应缓存优化策略

　　3.1 自动缓存算法

　　3.2 缓存自动清理算法

　　4 实验与分析

　　4.1 实验环境

　　4.2 实验数据集

　　4.3 执行效率分析

　　4.4 内存评估

　　4.5 CPU使用分析

　　5 结语

您还没有登录，请登录后查看详情

下一篇：基于图数据库和图计算的源网荷储协同日内调度计算方法
上一篇：SiO2气凝胶/六钛酸钾晶须涂层织物的制备及其隔热性能

1/26专辑：论文下载

1.5M双S弯排气系统雷达吸波涂层应用的仿真计算

1.24M短距起飞/垂直降落飞机升力系统研究进展

1.84M航空涡扇发动机机械系统架构和技术综述

1.41M基于Noradamantane的高能量密度富氮笼型含能分子设计与性能预估

0.49M一种视/触觉融合的柔性物体抓取力估计方法

1.18M构建与新发展阶段相适应的现代化意识形态

1.16M猕猴桃叶水浸提液对4种植物化感作用及其化学成分分析

0.71M基于完全但不完美信息序贯博弈计量模型的农地流转影响因素

0.83M病原学送检管理的相关信息化建设要求

0.85M基于非线性加权法的航空发动机总体性能优化设计

1.42M鹅不食草药材倍半萜内酯类特征图谱的建立及多成分定量研究

0.83MGaR视角下海洋产业结构升级、科技创新与海洋经济高质量发展

0.51M经济发展阶段、要素条件变化与区域产业演化路径：后发国家视角

1.56M分离纯化对银耳多糖结构及体外降脂活性的影响

0.59M现代化产业体系绩效测度与区域差异研究——基于江苏与相关省市数据样本分析视角

0.59M“一带一路”背景下柬埔寨海岸带管理体系研究

0.89M中国海洋经济高质量发展的时空差异及影响因素研究

1.16M碳酸钙处理工业废硫酸的硫酸钙结晶与过滤性能研究

0.83M非结核分枝杆菌病诊治六十年

7.87M厚朴酚、和厚朴酚对脂多糖诱导小鼠肠道损伤的抗炎作用及机制研究

1.83MALVE的筛查整合及其对坝上长尾鸡生产性能的影响

1.57M高比例植物蛋白对青鱼幼鱼生长、消化、肝功能及血清生化指标的影响

1.82M絮凝技术在毕赤酵母发酵液固液分离中的应用研究

1.72M黔西南州不同饲草品种生产性能及营养品质的综合评价

5.88M射干不同部位总三萜提取工艺优化及其抗氧化活性分析

10.22M英格兰保护区城市设计控制制度对中国历史文化街区保护更新的启示

点赞 0举报收藏 0打赏 0评论 0

虚交所
加关注9
~~虚拟资产交易平台~~

相关文档

	双S弯排气系统雷达吸波涂层应用的仿真计算
	短距起飞/垂直降落飞机升力系统研究进展
	航空涡扇发动机机械系统架构和技术综述
	基于Noradamantane的高能量密度富氮笼型含能分子设计与性能预估
	一种视/触觉融合的柔性物体抓取力估计方法
	构建与新发展阶段相适应的现代化意识形态
	猕猴桃叶水浸提液对4种植物化感作用及其化学成分分析
	基于完全但不完美信息序贯博弈计量模型的农地流转影响因素
	病原学送检管理的相关信息化建设要求
	基于非线性加权法的航空发动机总体性能优化设计

本类推荐

	融合风格编码的双通道生成对抗网络步态识别
	大语言模型驱动下知识图谱的构建及应用综述
	面向点击率预估的会话动态兴趣深度推演网络
	一种视/触觉融合的柔性物体抓取力估计方法
	一种自适应融合多模态特征的6D物体位姿估计方法
	模型驱动反卷积网络用于大视场光片图像恢复
	“AIGC+”:虚拟现实媒介内容生产机制研究
	开源软件开发者价值评估体系及其实证研究
	融合上下文引导代价体和深度细化的多视图立体重建
	颗粒图像的颜色校准与表征

下载排行