JOURNAL OF LIGHT INDUSTRY

CN 41-1437/TS  ISSN 2096-1553

一种新的用于数据挖掘工具的网页净化算法

孙楠 张华伟

孙楠, 张华伟. 一种新的用于数据挖掘工具的网页净化算法[J]. 轻工学报, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021
引用本文: 孙楠, 张华伟. 一种新的用于数据挖掘工具的网页净化算法[J]. 轻工学报, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021
SUN Nan and ZHANG Hua-wei. An new algorithm of Web page purification for data mining tools[J]. Journal of Light Industry, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021
Citation: SUN Nan and ZHANG Hua-wei. An new algorithm of Web page purification for data mining tools[J]. Journal of Light Industry, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021

一种新的用于数据挖掘工具的网页净化算法

  • 中图分类号: TP393.08

An new algorithm of Web page purification for data mining tools

  • Received Date: 2010-12-29
    Available Online: 2011-05-15

    CLC number: TP393.08

  • 摘要: 为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在〈table〉标记和〈p〉标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声.
    1. [1]

      张伟伟姬远鹏元春波王君婷齐晓任张卫正李萌饶智 . 基于改进Mask R-CNN模型的粘连烟丝识别方法. 轻工学报, 2024, 39(5): 78-85. doi: 10.12187/2024.05.009

    2. [2]

      费致根鲁豪宋晓晓赵鑫昌郭兴肖艳秋 . 基于改进ResNet网络的烟丝输送带洁净度分类模型. 轻工学报, 2024, 39(5): 71-77. doi: 10.12187/2024.05.008

    3. [3]

      张建栋杨忠泮吴恋恋徐大勇朱萍张雯晶堵劲松 . 基于高光谱成像及机器学习的烟叶糖料液施加量判别模型. 轻工学报, 2024, 39(5): 86-94. doi: 10.12187/2024.05.010

  • 加载中
计量
  • PDF下载量:  21
  • 文章访问数:  611
  • 引证文献数: 0
文章相关
  • 收稿日期:  2010-12-29
  • 刊出日期:  2011-05-15
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索
孙楠, 张华伟. 一种新的用于数据挖掘工具的网页净化算法[J]. 轻工学报, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021
引用本文: 孙楠, 张华伟. 一种新的用于数据挖掘工具的网页净化算法[J]. 轻工学报, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021
SUN Nan and ZHANG Hua-wei. An new algorithm of Web page purification for data mining tools[J]. Journal of Light Industry, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021
Citation: SUN Nan and ZHANG Hua-wei. An new algorithm of Web page purification for data mining tools[J]. Journal of Light Industry, 2011, 26(3): 85-87,91. doi: 10.3969/j.issn.1004-1478.2011.03.021

一种新的用于数据挖掘工具的网页净化算法

  • 河南财经政法 大学计算机与信息工程学院, 河南 郑州 450002

摘要: 为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在〈table〉标记和〈p〉标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声.

English Abstract

相关文章 (3)

目录

/

返回文章