载入中...
基于代价模型的Spark SQL查询优化研究
硕士博士毕业论文站内搜索
全站论文库
硕士博士论文库
普通期刊论文库
分类:
教育论文网
→工业技术论文→
自动化技术、计算机技术论文
→
计算技术、计算机技术论文
→
计算机软件论文
→
程序设计、软件工程论文
→
程序设计论文
基于代价模型的Spark SQL查询优化研究
论文目录
摘要
第1-6页
ABSTRACT
第6-9页
第一章 绪论
第9-16页
1.1 研究背景及意义
第9-10页
1.2 研究现状
第10-13页
1.2.1 Spark研究现状
第10-11页
1.2.2 查询优化研究现状
第11-13页
1.3 研究内容
第13-14页
1.4 文章组织结构
第14-15页
1.5 本章小结
第15-16页
第二章 相关理论研究
第16-29页
2.1 Spark简述
第16-21页
2.1.1 弹性分布式数据集
第17-19页
2.1.2 Spark作业调度与执行
第19-21页
2.2 Spark SQL简述
第21-25页
2.2.1 基础数据抽象DataFrame
第22-23页
2.2.2 查询优化框架Catalyst
第23-25页
2.3 查询优化
第25-28页
2.3.1 基于规则的优化
第25-27页
2.3.2 基于代价模型的优化
第27-28页
2.4 本章小结
第28-29页
第三章 Spark SQL代价模型分析与设计
第29-48页
3.1 Spark与MapReduce对比
第29-31页
3.2 Spark上的等值连接实现方式
第31-33页
3.3 基于代价模型的优化系统架构
第33-34页
3.4 统计数据字典设计
第34-35页
3.5 多表连接顺序选择
第35-37页
3.6 中间结果估计
第37-44页
3.6.1 选择操作
第37-39页
3.6.2 等值连接
第39-43页
3.6.3 Select-Project-Join查询
第43页
3.6.4 分组聚合操作
第43-44页
3.7 代价模型
第44-47页
3.7.1 Shuffle过程代价估算
第45-46页
3.7.2 选择操作代价估算
第46页
3.7.3 投影操作代价估算
第46页
3.7.4 等值连接代价估算
第46-47页
3.7.5 分组聚合代价估算
第47页
3.8 本章小结
第47-48页
第四章 基于代价模型的优化原型实现
第48-56页
4.1 优化原型在Catalyst中的位置
第48-49页
4.2 统计数据字典实现
第49-53页
4.2.1 直方图类定义
第50-51页
4.2.2 在Spark上的等深直方图生成
第51-52页
4.2.3 直方图持久化存储
第52页
4.2.4 统计信息管理
第52-53页
4.3 查询计划生成与选择
第53-55页
4.3.1 查询计划代价估算
第54页
4.3.2 物理查询计划生成
第54-55页
4.4 本章小结
第55-56页
第五章 查询优化性能评估
第56-69页
5.1 实验环境
第56-57页
5.2 实验数据及测试语句
第57-62页
5.2.1 TPC-H标准
第57-58页
5.2.2 测试语句
第58-62页
5.3 性能测试结果及分析
第62-68页
5.3.1 实验结果
第62-65页
5.3.2 结果分析
第65-68页
5.4 本章小结
第68-69页
第六章 总结与展望
第69-72页
6.1 全文总结
第69页
6.2 存在问题与不足
第69-70页
6.3 未来工作展望
第70-72页
致谢
第72-73页
参考文献
第73-76页
本篇论文共
76
页,
点击这进入下载页面
。
更多论文
基于代价模型的Spark SQL查询优化研
基于时间序列分析的数据流异常值检
基于MapReduce的日志关联分析研究与
支撑大数据的实时数据集成系统的研
数据挖掘在社区智能家居系统中的应
面向应用程序的高可用可扩展元数据
基于数据仓库的银行监管报送系统设
基于云平台的数据挖掘并行算法研究
多元时间序列关联挖掘算法研究与应
并行FP-growth关联规则算法研究
面向MapReduce的调度策略优化研究
Redis缓存技术研究及应用
基于数据挖掘的学生成绩分析系统的
数据库驱动的自动开封盖装置变型设
多域分布式网络中告警模糊关联规则
面向专题应用的开源情报挖掘系统研
基于子空间聚类的多关系社交网络挖
高性能分布式一致性协调服务系统
基于二分图的RDF关键词扩展查询算法
清潩河流域多目标多部门综合管理数
基于影响函数的分类算法研究
基于数据库的滑动轴承设计计算软件
门诊药房人工—自动化分拣系统储位
基于Hadoop的空间矢量数据的分布式
分布式MongoDB集群高可用性的研究和
面向OLAP的分布式键值存储引擎
基于C/C++代码库的API调用模式挖掘
一种基于矩阵分解的用户行为数据多
高可靠性动态群集数据集成系统的研
基于Hadoop作业内计算任务调度优化
医保异常检测的分类集成算法研究
基于临床大数据的脑卒中发病风险分
基于大数据的医疗质量评价模型的研
频繁模式挖掘技术的研究及其在实时
面向概念漂移数据流的在线集成分类
基于外包数据库的查询验证方法研究
健康体检数据预处理方法研究与应用
基于体检数据的慢性疾病风险预测研
任一聚类边界提取算法研究
基于规则的医保智能审核系统的研究
面向中医证候的慢性肾小球肾炎数据
基于增量聚类的动态社会网络社团检
Hama中满足公平性和负载均衡资源调
Oracle数据库性能监控与分析系统设
基于时间序列的频繁模式挖掘研究与
基于数据挖掘的IPTV业务QoE分析技术
基于医保费用的分析与异常检测研究
面向教育资源的用户行为特征挖掘系
慢性肾小球肾炎的中医症状-证候-药
熵加权多视角核k-means聚类算法的研
基于数据挖掘的OTA精准营销研究
数据挖掘在银行客户关系管理中的应
基于昆明市工商管理数据的数据挖掘
Hadoop房产数据平台与数据仓库的协
基于Hadoop数据处理研究及应用
基于Hadoop的运维日志采集分析平台
云计算在企业信用评级系统中的应用
基于数据挖掘和数据仓库的用户重购
基于模糊评判和切削参数模型的综合
基于DStream模型流处理系统动态配置
大数据在保险公司的应用研究——以
基于SLA感知的Hadoop YARN节能调度
数据中心运维数据关联规则知识库的
某银行元数据解析处理系统
基于并行平台的LAMOST发射线恒星光
基于SPARK平台的LAMOST早M型光谱聚
一种基于CASO相似度度量和变色龙算
查询优化论文
代价模型论文
Spark论文
数据库论文
版权申明
:目录由用户
果果**
提供,
www.51papers.com
仅收录目录,作者需要删除这篇论文目录
请点击这里
。
|
设为首页
||
加入收藏
||
站内搜索引擎
||
站点地图
||
在线购卡
|
版权所有
教育论文网
Copyright(C) All Rights Reserved