教育论文网

基于代价模型的Spark SQL查询优化研究

硕士博士毕业论文站内搜索    
分类:教育论文网→工业技术论文→自动化技术、计算机技术论文计算技术、计算机技术论文计算机软件论文程序设计、软件工程论文程序设计论文
基于代价模型的Spark SQL查询优化研究
论文目录
 
摘要第1-6页
ABSTRACT第6-9页
第一章 绪论第9-16页
  1.1 研究背景及意义第9-10页
  1.2 研究现状第10-13页
    1.2.1 Spark研究现状第10-11页
    1.2.2 查询优化研究现状第11-13页
  1.3 研究内容第13-14页
  1.4 文章组织结构第14-15页
  1.5 本章小结第15-16页
第二章 相关理论研究第16-29页
  2.1 Spark简述第16-21页
    2.1.1 弹性分布式数据集第17-19页
    2.1.2 Spark作业调度与执行第19-21页
  2.2 Spark SQL简述第21-25页
    2.2.1 基础数据抽象DataFrame第22-23页
    2.2.2 查询优化框架Catalyst第23-25页
  2.3 查询优化第25-28页
    2.3.1 基于规则的优化第25-27页
    2.3.2 基于代价模型的优化第27-28页
  2.4 本章小结第28-29页
第三章 Spark SQL代价模型分析与设计第29-48页
  3.1 Spark与MapReduce对比第29-31页
  3.2 Spark上的等值连接实现方式第31-33页
  3.3 基于代价模型的优化系统架构第33-34页
  3.4 统计数据字典设计第34-35页
  3.5 多表连接顺序选择第35-37页
  3.6 中间结果估计第37-44页
    3.6.1 选择操作第37-39页
    3.6.2 等值连接第39-43页
    3.6.3 Select-Project-Join查询第43页
    3.6.4 分组聚合操作第43-44页
  3.7 代价模型第44-47页
    3.7.1 Shuffle过程代价估算第45-46页
    3.7.2 选择操作代价估算第46页
    3.7.3 投影操作代价估算第46页
    3.7.4 等值连接代价估算第46-47页
    3.7.5 分组聚合代价估算第47页
  3.8 本章小结第47-48页
第四章 基于代价模型的优化原型实现第48-56页
  4.1 优化原型在Catalyst中的位置第48-49页
  4.2 统计数据字典实现第49-53页
    4.2.1 直方图类定义第50-51页
    4.2.2 在Spark上的等深直方图生成第51-52页
    4.2.3 直方图持久化存储第52页
    4.2.4 统计信息管理第52-53页
  4.3 查询计划生成与选择第53-55页
    4.3.1 查询计划代价估算第54页
    4.3.2 物理查询计划生成第54-55页
  4.4 本章小结第55-56页
第五章 查询优化性能评估第56-69页
  5.1 实验环境第56-57页
  5.2 实验数据及测试语句第57-62页
    5.2.1 TPC-H标准第57-58页
    5.2.2 测试语句第58-62页
  5.3 性能测试结果及分析第62-68页
    5.3.1 实验结果第62-65页
    5.3.2 结果分析第65-68页
  5.4 本章小结第68-69页
第六章 总结与展望第69-72页
  6.1 全文总结第69页
  6.2 存在问题与不足第69-70页
  6.3 未来工作展望第70-72页
致谢第72-73页
参考文献第73-76页

本篇论文共76页,点击这进入下载页面
 
更多论文
基于代价模型的Spark SQL查询优化研
基于时间序列分析的数据流异常值检
基于MapReduce的日志关联分析研究与
支撑大数据的实时数据集成系统的研
数据挖掘在社区智能家居系统中的应
面向应用程序的高可用可扩展元数据
基于数据仓库的银行监管报送系统设
基于云平台的数据挖掘并行算法研究
多元时间序列关联挖掘算法研究与应
并行FP-growth关联规则算法研究
面向MapReduce的调度策略优化研究
Redis缓存技术研究及应用
基于数据挖掘的学生成绩分析系统的
数据库驱动的自动开封盖装置变型设
多域分布式网络中告警模糊关联规则
面向专题应用的开源情报挖掘系统研
基于子空间聚类的多关系社交网络挖
高性能分布式一致性协调服务系统
基于二分图的RDF关键词扩展查询算法
清潩河流域多目标多部门综合管理数
基于影响函数的分类算法研究
基于数据库的滑动轴承设计计算软件
门诊药房人工—自动化分拣系统储位
基于Hadoop的空间矢量数据的分布式
分布式MongoDB集群高可用性的研究和
面向OLAP的分布式键值存储引擎
基于C/C++代码库的API调用模式挖掘
一种基于矩阵分解的用户行为数据多
高可靠性动态群集数据集成系统的研
基于Hadoop作业内计算任务调度优化
医保异常检测的分类集成算法研究
基于临床大数据的脑卒中发病风险分
基于大数据的医疗质量评价模型的研
频繁模式挖掘技术的研究及其在实时
面向概念漂移数据流的在线集成分类
基于外包数据库的查询验证方法研究
健康体检数据预处理方法研究与应用
基于体检数据的慢性疾病风险预测研
任一聚类边界提取算法研究
基于规则的医保智能审核系统的研究
面向中医证候的慢性肾小球肾炎数据
基于增量聚类的动态社会网络社团检
Hama中满足公平性和负载均衡资源调
Oracle数据库性能监控与分析系统设
基于时间序列的频繁模式挖掘研究与
基于数据挖掘的IPTV业务QoE分析技术
基于医保费用的分析与异常检测研究
面向教育资源的用户行为特征挖掘系
慢性肾小球肾炎的中医症状-证候-药
熵加权多视角核k-means聚类算法的研
基于数据挖掘的OTA精准营销研究
数据挖掘在银行客户关系管理中的应
基于昆明市工商管理数据的数据挖掘
Hadoop房产数据平台与数据仓库的协
基于Hadoop数据处理研究及应用
基于Hadoop的运维日志采集分析平台
云计算在企业信用评级系统中的应用
基于数据挖掘和数据仓库的用户重购
基于模糊评判和切削参数模型的综合
基于DStream模型流处理系统动态配置
大数据在保险公司的应用研究——以
基于SLA感知的Hadoop YARN节能调度
数据中心运维数据关联规则知识库的
某银行元数据解析处理系统
基于并行平台的LAMOST发射线恒星光
基于SPARK平台的LAMOST早M型光谱聚
一种基于CASO相似度度量和变色龙算
 
查询优化论文 代价模型论文 Spark论文 数据库论文
版权申明:目录由用户果果**提供,www.51papers.com仅收录目录,作者需要删除这篇论文目录请点击这里
| 设为首页||加入收藏||站内搜索引擎||站点地图||在线购卡|
版权所有 教育论文网 Copyright(C) All Rights Reserved