数据挖掘在质量管理系统中的应用研究
余腊生 李强 网络
 0 引言

    信息化管理不仅是企业,也是任意一个政府部门适应未来发展的必由之路,质量监管部门在企业数目不断增加,产品数据飞速增长的现实面前,传统的数据管理手段显得捉襟见肘。因此,将信息技术与企业质量管理(尤其是全面质量管理阶段)有机的结合起来,对于适应我国经济社会发展具有十分重要的意义。数据挖掘技术为作为一种先进的、极具价值的数据分析工具,为质监部门实现全面质量监控管理提供了全新的科学手段。

1 数据挖掘简介

    1.1 数据挖掘的基本步骤

    数据挖掘指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。数据挖掘一般包括6个步骤,依次是定义问题、准备数据、浏览数据、生成模型、浏览和验证模型、部署更新模型,如图1所示。

 

图1 数据挖掘步骤

    (1)定义问题

    清晰地定义出业务问题,确定数据挖掘的目的。

    (2)准备数据

    数据准备包括:选择数据——在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理——进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

    (3)浏览数据

    数据挖掘过程的第3步就是浏览已准备的数据,以便在创建模型时作出正确的决策。浏览技术包括计算最大值和最小值,计算平均偏差和标准偏差,以及查看数据的分布。浏览完数据之后,便可确定数据集是否包含缺陷数据,然后制订纠正这些问题的策略。

    (4)生成模型

    根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘,生成模型。

    (5)浏览和验证模型

    对数据挖掘的获得的模型进行解释和评价,转换成为能够最终被用户理解的知识。

    (6)部署和更新模型

    将性能最佳的模型部署到生产环境,更新模型是部署策略的一部分。

    1.2 SQL Server数据挖掘和DMX

    Microsoft SQL Server Analysis Services(SSAS)提供了用于数据挖掘的工具,可以借助这些工具标识数据中的规则和模式,从而确定出现问题的原因并预测将来将要出现的问题。Analysis Services可以使用来自关系数据库和OLAP数据库的数据集以及可用来调查数据的各种算法。SQL Server提供了各种可用于数据挖掘的环境和工具。

    (1)数据挖掘向导

    在Business Intelligence Development Studio中,可以从数据挖掘向导开始创建数据挖掘解决方案。该向导用于指导完成创建数据挖掘结构和初始相关挖掘模型的过程,包括选择算法类型和数据源以及定义事例表等任务。

    在使用数据挖掘向导刨建了挖掘结构和初始挖掘模型后,打开数据挖掘设计器。在该设计器中,可以管理挖掘结构,创建新的挖掘模型,部署、浏览、比较和创建基于现有挖掘模块的预测。

    (2)数据挖掘扩展插件(DMX)

    在SSAS中可以使用数据挖掘扩展插件(DMX)语言创建和处理数据挖掘模型。通过使用DMX创建新数据挖掘模型的结构,使用DMX语句创建、处理、删除、复制、浏览和预测数据挖掘模型,为这些模型定型并对其进行浏览、管理和预测。DMX由数据定义语言(DDL)语句、数据操作语言(DML)语句以及函数和运算符构成。

 

(3)SQL Server Management Studio

    在创建了挖掘模型并将其部署到服务器上后,即可使用SQL Server Management Studio来执行管理和浏览任务,如查看和处理模型,以及创建针对这些模型的预测等。Management Studio也包含一个查询编辑器,可使用该编辑器来设计和执行数据挖掘扩展插件(DMX)查询。

    (4)Integration Services数据挖掘任务和转换

    SQL Server Integration Services(SSIS)提供了一些工具来自动完成常见的数据挖掘任务,如处理挖掘模型和创建预测查询等。例如,如果有一个根据潜在客户的数据集生成的挖掘模型,那么,就可以创建一个Integration Services包,该包可在每次用新客户更新数据集时,自动更新该模型。并且可以基于该包来创建预测,将潜在客户分入两个表。一个表里中包含的是可能的客户,另一个表中包含的是不可能购买任何产品的客户。

    (5)SSAS的算法

    Microsoft决策树算法是由SSAS提供的分类和回归算法,用于对离散和连续属性进行预测性建模。Microsoft Naive Bayes算法是SSAS提供的一种分类算法,用于预测性建模。该算法在假定列互不相关的前提下计算输入列和可预测列之间的条件概率。Microsoft时序算法是SSAS提供的回归算法,用于创建数据挖掘模型以预测连续列,如预测方案中的产品销售额。时序模型的预测仅根据算法在创建模型时从原始数据集派生的趋势,而决策树类算法依靠给定输入列来预测可预测列的模型。Microsoft神经网络算法通过构造多层感知器网络创建分类和回归挖掘模型,与Microsoft决策树算法相类似,当给定可预测属性的每个状态时,神经网络算法可以计算输入属性的每个可能状态的概率。并且可以基于这些概率预测被预测属性的结果。

2 数据挖掘在质量管理系统中的应用实现

    高密市质量技术监督局网络办公系统(如图2所示),采用B/S(browser/scrver)与C/S(client/server)相结合的结构模式,满足质量技术监督各项业务工作的网上办公的需要,具体功能如下:

 

 

图2 高密市质监局网络办公系统功能

    (1)数据收集

    数据采集是一个数据挖掘项目的第一个步骤。高密市质量监督局的业务数据存储在它的网上办公系统中,办公系统中每条企业记录包含了企业所有相关信息,选择其中与质量相关的属性在SQL Server数据库中建立表。它们是企业名称、控股形式、所属地区、地址、邮编、电话号码、执行标准、法人代表、联系人、企业规模、质量认证体系、企业性质、企业类型、上季度销量、上季度销售额。

    (2)挖掘不同属性间的关联度

    高密市质量技术管理局希望从已有数据中找出属性之间联系,例如企业性质会对产品质量产生多大的影响,不同产业产品平均质量水平的高低等。在应用中,采用Microsoft Bayes算法。属性选取了企业名称producer,企业地址Adress,企业性质Nature,企业规模Scale,上年度销量YearSales,企业所属行业Property,电话Phone,法人代表Legal Prst,质量认证体系QCS和企业产品平均质量水平(avg Good)等几个属性,作为示例来挖掘它们的相互关系。

    Bayes模型必须包含一个键列、若干输入列以及一个可预测列。所有列都必须是离散列或经过离散化的列。上面算法得到的产品合格率是连续的,在应用Bayes算法前,必须先离散化avgGood。为简单起见,将avgGood离散为5个桶(good Class)。分别取名1到5。创建模型代码如下:

    Create mining model Association_Bayes

     模型代码

 Microsoft Bayes算法的运行结果分为关系依赖网络、属性配置文件、属性特征和属性对比4部分。属性关系依赖网络图如图3所示。

 

图3 属性关系依赖网络

    从图3得知,对产品质量水平影响较大的有Nature、Property和Year Sales,影响较小的有Scale和QCS,在作为输入的9个属性中其它的Address、legalPrst、phone对质量水平没有影响。同样的结果也可以在属性配置文件中得出,属性配置文件如图4所示。

 图4 属性配置文件

图4 属性配置文件

    从Nature属性来看,质量水平在2级以下的企业都是个体户,质量水平在2-4级之间的全部是个体或者小规模手工生产企业,而外资港澳台资、公有企业等企业的平均产品质量水平基本都集中在4级和5级。可以这样解释,私营企业特别是个体户,企业生产规模小,工艺落后,生产过程不规范,产品存在质量问题较为普遍。公有企业,相比较而言,规模较大,社会责任感较强,对利润的追求欲相对较低,产品质量要好一些。外资企业工艺较为先进,产品质量比较好。

    (3)预测产品在特定时间段的质量水平

    某些产品由于原料、生产工艺、储存环境等原因质量状况可能出现周期性的起伏。高密市质监局质监局希望从2005至2007这3年的质量监测数据中找出某些类产品质量状况的周期性规律。对于质量状况确实有周期性规律的产品,可以在质量问题多发期加强监管。为此要用到Microsoft时序算法。所有产品的种类加起来有上百种,我们选取了“食品制造”,“金属制品”,“服装鞋帽”3类产品的实验结果作为示例来看看这3类产品质量状况是否有周期性规律。

    图5中同时显示了“服装鞋帽”、“金属制品”和“制造食品”3类产品质量状况的历史曲线和预测曲线,其中实线是历史曲线,虚线是预测曲线。

 图5 产品质量状况历史曲线和预测曲线

图5 产品质量状况历史曲线和预测曲线

    对于制造食品的曲线图,图5中显示2005至2007这3年呈现出中间高两条低的态势,每年的高峰期都在6月至9月这4个月,一般都在8%到12%的水平。这个结果很好解释,因为每年6月至9月是全年的高温期,受高温影响,微生物新陈代谢非常旺盛,食品出现质量问题的的机率要比平时要高。再细心观察,在每年一月份和二月份也有一个高峰期。这段时间正好在春节前后,说明食品需求旺盛,市场交易增多,质量状况有所下降也很正常。同时也可能是因为处在非常时期,高密市质监局加强检测强度,易发现一些平时不注意的问题。在金属制品图中的预测部分,我们发现预测曲线成水平状,驻留在16%附近,金属制品类的产品质量水平在一定水平范围内是随机出现的。从服装鞋帽预测图中得知,预测曲线的误差范围非常大,说明服装鞋帽业产品质量状况的周期性规律不明显。

    (4)根据企业属性对企业产品质量水平分类

    分类可以对产品分类,也可以对企业分类。这里的分类是在同类型的产品或企业中再细分。因此采用Microsoft决策树算法。Microsoft决策树算法功能强大,与之伴随的是算法的高复杂度。当处理的数据量很大时,应想办法降低运算时间。其中最重要的办法就是去掉企业那些对产品质量影响不大的属性,只将少量重要属性作为算法的输入。甄选属性有多种办法,可以利用租糙集理论进行属性简约,也可以先建立一个Microsoft Bayes模型,找出与产品质量水平有较强关联的属性。默认情况下,Microsoft树查看器仅显示树的前3个级别。如果树级别不到3个,则查看器仅显示现有级别,如图6所示。

 图6 Microsoft树查看器

图6 Microsoft树查看器

    节点颜色越深说明节点包含的事例越多。每个节点下部有一个小长条。长条分为两部分,深色表示质量状况良好,浅色表示质量状况较差。

    树的第2层从上之下:

    第1个节点显示86.55%的公有企业的产品质量状况较好。第2个节点显示92.79%的港澳台资企业的产品质量状况较好。第3个节点显示73%的私营企业产品质量状况较好。第4个节点显示76.42%的个体户产品质量状况较差。第5个节点显示85.87%的股份公司的产品质量状况较好。树的第3层在第2层的基础上利用Property属性再细分。

3 结束语

    本文集中讨论了在数据挖掘技术在质量管理系统中的应用。对于任意一个数据挖掘的应用项目,一半以上的精力将花在实验数据的准备上,因为一组可行的资源数据对任何一个成功的数据挖掘项目来说都是最重要的。利用Microsoft SQL Server Analysis Services提供的算法给出了实验结果及其相应的分析,实验结果对于提高质监部门管理水平具有很好的指导意义。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢