教育论文网

基于Hadoop的大规模中文网站聚类的设计与实现

硕士博士毕业论文站内搜索    
分类1:教育论文网→工业技术论文→自动化技术、计算机技术论文计算技术、计算机技术论文计算机软件论文程序设计、软件工程论文程序设计论文
分类2:教育论文网→工业技术论文→自动化技术、计算机技术论文计算技术、计算机技术论文计算机的应用论文计算机网络论文一般性问题论文
基于Hadoop的大规模中文网站聚类的设计与实现
论文目录
 
摘要第1-6页
Abstract第6-9页
第1章 绪论第9-13页
  1.1 课题研究的背景及意义第9-10页
  1.2 国内外研究现状第10-11页
    1.2.1 国外研究现状第10-11页
    1.2.2 国内研究现状第11页
  1.3 本文的主要工作和章节安排第11-13页
第2章 聚类算法及相关技术综述第13-28页
  2.1 聚类的定义第13页
  2.2 常用聚类算法第13-15页
    2.2.1 基于模型的聚类方法第13页
    2.2.2 基于划分的聚类方法第13-14页
    2.2.3 基于网格的聚类方法第14页
    2.2.4 基于层次的聚类方法第14-15页
  2.3 文本聚类第15-20页
    2.3.1 文本聚类的流程第15-17页
    2.3.2 文本聚类的表示模型第17-20页
  2.4 距离与相似性度量第20-22页
  2.5 Hadoop简介第22-23页
  2.6 HDFS第23-24页
  2.7 MapReduce第24-27页
    2.7.1 MapReduce编程模型的原理第24-25页
    2.7.2 MapReduce任务执行流程第25-27页
  2.8 本章小结第27-28页
第3章 Hadoop分布式k-means算法的设计第28-34页
  3.1 Hadoop分布式聚类需求分析第28页
  3.2 k-means算法分析第28-29页
  3.3 MapReduce下的k-means算法设计第29-30页
  3.4 实验整体设计思路第30-31页
  3.5 模块设计第31-33页
    3.5.1 数据预处理模块第31-32页
    3.5.2 建立空间向量模型模块第32-33页
    3.5.3 聚类划分第33页
  3.6 本章小结第33-34页
第4章 基于MapReduce的中文网站聚类的实现第34-51页
  4.1 编程环境第34-39页
    4.1.1 硬件环境配置第34页
    4.1.2 软件环境配置第34页
    4.1.3 Hadoop平台环境的搭建第34-39页
  4.2 MapReduce下聚类的实现第39-46页
  4.3 性能的提升与优化第46-47页
  4.4 实验结果及性能分析第47-50页
    4.4.1 聚类评价指标第47-48页
    4.4.2 实验数据来源第48页
    4.4.3 实验结果分析第48-50页
  4.5 本章小结第50-51页
第5章 总结与展望第51-52页
  5.1 本文工作总结第51页
  5.2 进一步工作展望第51-52页
参考文献第52-55页
在校期间发表的论文、科研成果等第55-56页
致谢第56页

本篇论文共56页,点击这进入下载页面
 
更多论文
基于Hadoop的大规模中文网站聚类的
基于Hessian正则化的数据可视化算法
基于MapReduce的并行频繁项集挖掘算
基于密度的局部离群点检测算法的研
基于决策树C4.5算法剪枝策略的改进
基于Solr的海量数据并行索引及搜索
基于一卡通消费数据的学生成绩预测
基于高斯混合模型聚类的变量选择及
基于快速搜索密度的数据流聚类算法
电液比例压力—流量试验台测控系统
基于Hadoop的云计算系统设计
tranSMART转换医学平台的本地化及其
数据挖掘算法的并行化研究及其应用
基于区域划分的改进KNN分类算法
基于最小描述长度的最优推理模型研
基于非负矩阵分解的时序数据聚类方
基于种子对象约束的半监督聚类算法
单时间序列异常子序列检测算法的研
针对类内不平衡样本分类方法的研究
基于不同数据型态、约束和应用的高
模糊关联规则挖掘算法的研究
基于Hadoop的医学影像存储检索系统
基于滑动窗口的多元时间序列数据动
基于SPARK的海量数据频繁模式挖掘算
基于Hadoop的数据库中高效数据存取
大数据时效性关键技术的研究
GPU上基于Hadoop的高效连接操作算法
基于Hadoop的多表连接操作查询优化
用户移动端与社交端行为建模与模式
基于细粒度监控的Spark优化研究
HDFS元数据管理的高可用性优化技术
大数据环境下道路网Top-k查询优化技
基于存储驱动的Hadoop节能调度策略
支持分库分表和读写分离的ORM框架的
健康医疗系统的数据挖掘研究
面向出行者的个性化服务需求挖掘技
车辆特征点3D参数估计及聚类算法研
搜索广告点击率预测中的冷启动问题
不确定图的代表实例发现算法
大数据清洗系统中优化技术的研究与
海量时态数据的JOIN操作算法研究
基于重抽样的近似计算方法
基于多特征融合的属性图聚类算法研
基于Docker的云存储服务系统设计与
基于YARN的高响应性Hadoop计算资源
对大数据的哲学认知
大数据研究特征分析
石嘴山铁通公司办公OA软件的设计与
省人社厅办公自动化系统的设计与实
移动游戏快速开发平台设计与实现
军事游戏中任务规划与控制系统的设
工程设计公司OA系统开发及应用
银行办公自动化系统的研究与分析
江西省邮政代理金融业务局办公自动
贵州中烟OA系统的研究与分析
 
文本聚类论文 中文分词论文 分布式平台论文 Hadoop论文
版权申明:目录由用户zouxiangdo**提供,www.51papers.com仅收录目录,作者需要删除这篇论文目录请点击这里
| 设为首页||加入收藏||站内搜索引擎||站点地图||在线购卡|
版权所有 教育论文网 Copyright(C) All Rights Reserved