JOURNAL OF LIGHT INDUSTRY

CN 41-1437/TS  ISSN 2096-1553

海量数据下基于Hadoop的分布式FP-Growth算法

朱颢东 薛校博 李红婵 孟颍辉

朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013
引用本文: 朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013
ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013
Citation: ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

海量数据下基于Hadoop的分布式FP-Growth算法

    作者简介: 朱颢东(1980-),男,河南省虞城县人,郑州轻工业学院副教授,博士,主要研究方向为智能信息处理、智能计算.;
  • 基金项目: 国家自然科学基金项目(61501405);河南省科技计划项目(152102210149,152102210357);郑州轻工业学院校级青年骨干教师培养对象资助计划项目(XGGJS02);郑州轻工业学院研究生科技创新基金资助项目

  • 中图分类号: TP301

Distributed FP-Growth algorithm based on Hadoop under massive data

  • Received Date: 2018-05-16

    CLC number: TP301

  • 摘要: 针对大数据环境下的关联挖掘问题,采取两次扫描数据库,将事务添加到相互独立的数据分区的方式,对传统FP-Growth算法进行分布式改造,进而提出了基于Hadoop框架的分布式FP-Growth算法以实现海量数据的频繁模式FP挖掘.仿真结果表明,在数据处理量逐渐增大的过程中,该算法相比较传统算法其运行时间和内存消耗的优势愈加明显,当数据处理量达到70万条时,该算法比传统算法节省约2/3的运行时间,而内存消耗仅为传统算法的1/5.说明该算法在处理海量数据时,能够显著提高FP的挖掘效率并降低内存的消耗量.
    1. [1]

      刘智勇.关联规则挖掘的并行化算法研究[D].南京:东南大学,2016.

    2. [2]

      董金凤.数据挖掘中关联规则算法的改进与并行化处理[D].哈尔滨:哈尔滨理工大学,2016.

    3. [3]

      孙兵率.基于MapReduce的数据挖掘算法并行化研究与应用[D].西安:西安工程大学,2015.

    4. [4]

      HAN J W,PEI J,YIN Y W.Mining frequent patterns without candidate generation[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data,New York:ACM,2000:1.

    5. [5]

      黄明.基于空间分区的空间聚类研究[D].武汉:武汉大学,2010.

    6. [6]

      邱勇,兰永杰.高效FP-TREE创建算法[J].计算机科学,2004(10):98.

    7. [7]

      赵兰草.QAR数据的异常检测与分析算法研究[D].天津:中国民航大学,2014.

    8. [8]

      茹蓓,贺新征.高效的数据流完全频繁项集挖掘算法[J].计算机工程与设计,2017,38(10):2759.

    9. [9]

      王翔.基于云计算棉花仓储海量数据挖掘算法研究[D].北京:首都师范大学,2014.

    10. [10]

      周诗慧.基于Hadoop的改进的并行Fp-Growth算法[D].济南:山东大学,2013.

    11. [11]

      邵伟.基于FP-Tree的关联规则挖掘算法研究[D].西安:西安电子科技大学,2010.

    12. [12]

    13. [13]

      白川平,杨志翀.基于加权滑动窗口的数据流频繁项集挖掘算法[J].宁夏师范学院学报,2017,38(6):49.

    14. [14]

      胡健,吴毛毛.一种改进的数据流最大频繁项集挖掘算法[J].计算机工程与科学,2014,36(5):963.

    15. [15]

      刘慧婷,候明利,赵鹏,等.不确定数据流最大频繁项集挖掘算法研究[J].计算机工程与应用,2016,52(19):72.

    1. [1]

      李艳坤张伟刘彦伶 . 数据融合策略在食用油真实性鉴别中的研究与应用进展. 轻工学报, 2024, 39(5): 50-59. doi: 10.12187/2024.05.006

  • 加载中
计量
  • PDF下载量:  10
  • 文章访问数:  1436
  • 引证文献数: 0
文章相关
  • 收稿日期:  2018-05-16
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索
朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013
引用本文: 朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013
ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013
Citation: ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

海量数据下基于Hadoop的分布式FP-Growth算法

    作者简介:朱颢东(1980-),男,河南省虞城县人,郑州轻工业学院副教授,博士,主要研究方向为智能信息处理、智能计算.
  • 郑州轻工业学院 计算机与通信工程学院, 河南 郑州 450001
基金项目:  国家自然科学基金项目(61501405);河南省科技计划项目(152102210149,152102210357);郑州轻工业学院校级青年骨干教师培养对象资助计划项目(XGGJS02);郑州轻工业学院研究生科技创新基金资助项目

摘要: 针对大数据环境下的关联挖掘问题,采取两次扫描数据库,将事务添加到相互独立的数据分区的方式,对传统FP-Growth算法进行分布式改造,进而提出了基于Hadoop框架的分布式FP-Growth算法以实现海量数据的频繁模式FP挖掘.仿真结果表明,在数据处理量逐渐增大的过程中,该算法相比较传统算法其运行时间和内存消耗的优势愈加明显,当数据处理量达到70万条时,该算法比传统算法节省约2/3的运行时间,而内存消耗仅为传统算法的1/5.说明该算法在处理海量数据时,能够显著提高FP的挖掘效率并降低内存的消耗量.

English Abstract

参考文献 (15) 相关文章 (1)

目录

/

返回文章