海量数据下基于Hadoop的分布式FP-Growth算法

CN 41-1437/TS ISSN 2096-1553

×

《轻工学报》严正声明

海量数据下基于Hadoop的分布式FP-Growth算法

朱颢东 , 薛校博 , 李红婵 , 孟颍辉

朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

引用本文: 朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

Citation: ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

海量数据下基于Hadoop的分布式FP-Growth算法

郑州轻工业学院计算机与通信工程学院, 河南郑州 450001

作者简介: 朱颢东(1980-),男,河南省虞城县人,郑州轻工业学院副教授,博士,主要研究方向为智能信息处理、智能计算.;

基金项目: 国家自然科学基金项目（61501405）；河南省科技计划项目（152102210149，152102210357）；郑州轻工业学院校级青年骨干教师培养对象资助计划项目（XGGJS02）；郑州轻工业学院研究生科技创新基金资助项目
中图分类号: TP301

Distributed FP-Growth algorithm based on Hadoop under massive data

School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450001, China
Received Date: 2018-05-16

CLC number: TP301

摘要: 针对大数据环境下的关联挖掘问题，采取两次扫描数据库，将事务添加到相互独立的数据分区的方式，对传统FP-Growth算法进行分布式改造，进而提出了基于Hadoop框架的分布式FP-Growth算法以实现海量数据的频繁模式FP挖掘.仿真结果表明，在数据处理量逐渐增大的过程中，该算法相比较传统算法其运行时间和内存消耗的优势愈加明显，当数据处理量达到70万条时，该算法比传统算法节省约2/3的运行时间，而内存消耗仅为传统算法的1/5.说明该算法在处理海量数据时，能够显著提高FP的挖掘效率并降低内存的消耗量.
- FP-Growth算法 /
- Hadoop /
- 数据分区 /
- 分布式计算
Abstract: In view of the large data problem of association mining by the method of taking two times of scanning database and adding the transaction to the independent data partition, distributed renovation of traditional FP-Growth algorithm was taken, the distributed FP-Growth algorithm based on Hadoop framework was then put forward so as to realize the frequent pattern FP huge amounts of data mining. The simulation results showed that in the process of increasing data processing, the algorithm was compared with the traditional algorithm advantages of its running time and memory consumption were becoming ever more obvious. When the amount of data processing reached 700,000 items, the algorithm saved about 2/3 running time than the traditional algorithm, while the memory consumption was only 1/5 of the traditional algorithm. It showed that the algorithm could significantly improve the mining efficiency of FP and reduced the memory consumption when dealing with massive data.
- FP-Growth algorithm /
- Hadoop /
- data partition /
- distributed computing
1. [1]
  刘智勇.关联规则挖掘的并行化算法研究[D].南京:东南大学,2016.
2. [2]
  董金凤.数据挖掘中关联规则算法的改进与并行化处理[D].哈尔滨:哈尔滨理工大学,2016.
3. [3]
  孙兵率.基于MapReduce的数据挖掘算法并行化研究与应用[D].西安:西安工程大学,2015.
4. [4]
  HAN J W,PEI J,YIN Y W.Mining frequent patterns without candidate generation[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data,New York:ACM,2000:1.
5. [5]
  黄明.基于空间分区的空间聚类研究[D].武汉:武汉大学,2010.
6. [6]
  邱勇,兰永杰.高效FP-TREE创建算法[J].计算机科学,2004(10):98.
7. [7]
  赵兰草.QAR数据的异常检测与分析算法研究[D].天津:中国民航大学,2014.
8. [8]
  茹蓓,贺新征.高效的数据流完全频繁项集挖掘算法[J].计算机工程与设计,2017,38(10):2759.
9. [9]
  王翔.基于云计算棉花仓储海量数据挖掘算法研究[D].北京:首都师范大学,2014.
10. [10]
  周诗慧.基于Hadoop的改进的并行Fp-Growth算法[D].济南:山东大学,2013.
11. [11]
  邵伟.基于FP-Tree的关联规则挖掘算法研究[D].西安:西安电子科技大学,2010.
12. [12]
13. [13]
  白川平,杨志翀.基于加权滑动窗口的数据流频繁项集挖掘算法[J].宁夏师范学院学报,2017,38(6):49.
14. [14]
  胡健,吴毛毛.一种改进的数据流最大频繁项集挖掘算法[J].计算机工程与科学,2014,36(5):963.
15. [15]
  刘慧婷,候明利,赵鹏,等.不确定数据流最大频繁项集挖掘算法研究[J].计算机工程与应用,2016,52(19):72.
1. [1]
  李艳坤 , 张伟 , 刘彦伶 . 数据融合策略在食用油真实性鉴别中的研究与应用进展. 轻工学报, 2024, 39(5): 50-59. doi: 10.12187/2024.05.006
2. [2]
  张雷 , 马永帅 , 洪斌斌 , 熊开胜 , 徐大勇 , 堵劲松 , 李银华 , 邹泉 . 一种改进OSELM算法在片烟复烤过程水分在线检测中的应用. 轻工学报, 2025, 40(3): 95-103. doi: 10.12187/2025.03.011

WeChat

点击查看大图

计量

PDF下载量: 14
文章访问数: 3371
引证文献数: 0

通讯作者: 陈斌, bchen63@163.com

1.
沈阳化工大学材料科学与工程学院沈阳 110142

朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

引用本文: 朱颢东, 薛校博, 李红婵, 等. 海量数据下基于Hadoop的分布式FP-Growth算法[J]. 轻工学报, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

Citation: ZHU Haodong, XUE Xiaobo, LI Hongchan and et al. Distributed FP-Growth algorithm based on Hadoop under massive data[J]. Journal of Light Industry, 2018, 33(5): 97-102,108. doi: 10.3969/j.issn.2096-1553.2018.05.013

海量数据下基于Hadoop的分布式FP-Growth算法

作者简介:朱颢东(1980-),男,河南省虞城县人,郑州轻工业学院副教授,博士,主要研究方向为智能信息处理、智能计算.

郑州轻工业学院计算机与通信工程学院, 河南郑州 450001

收稿日期: 2018-05-16

基金项目: 国家自然科学基金项目（61501405）；河南省科技计划项目（152102210149，152102210357）；郑州轻工业学院校级青年骨干教师培养对象资助计划项目（XGGJS02）；郑州轻工业学院研究生科技创新基金资助项目

关键词:

摘要: 针对大数据环境下的关联挖掘问题，采取两次扫描数据库，将事务添加到相互独立的数据分区的方式，对传统FP-Growth算法进行分布式改造，进而提出了基于Hadoop框架的分布式FP-Growth算法以实现海量数据的频繁模式FP挖掘.仿真结果表明，在数据处理量逐渐增大的过程中，该算法相比较传统算法其运行时间和内存消耗的优势愈加明显，当数据处理量达到70万条时，该算法比传统算法节省约2/3的运行时间，而内存消耗仅为传统算法的1/5.说明该算法在处理海量数据时，能够显著提高FP的挖掘效率并降低内存的消耗量.

English Abstract

参考文献 (15) 相关文章 (2)

/

下载: 全尺寸图片幻灯片

分享

用微信扫码二维码

分享至好友和朋友圈

网站版权 © 轻工学报编辑部

地址：河南省郑州市科学大道136号邮编：450001

电话：	(086)0371-86608635, (086)0371-86608633

E-mail：qgxb@zzuli.edu.cn

本系统由北京仁和汇智信息技术有限公司开发技术支持： info@rhhz.net