版权信息
省级大型综合性科技类期刊
主管部门:自治区科技厅
主办单位:自治区科学技术信息研究院 
协办单位:自治区科学技术情报学会
编辑出版:科技期刊编译室
刊社地址:内蒙古呼和浩特新城西街149号本刊杂志社
邮政编码:100010
电      话:0471-2536371

E-mail  :

nmgkjzz@vip.163.com 

网站地址:www.nmgkjzz.com


往期杂志
当前位置: 首页>往期杂志>详细介绍

基于Hadoop的电信客户细分模型研究

时间:2016-10-27来源: 作者: 点击: 74次

1,张治中1,陈玉花2,徐立松2,杜西亚2

(1. 重庆邮电大学通信网与测试技术重点实验室,重庆 400065

(2. 重庆市公安局,重庆 401147

 随着移动互联网技术与智能终端的飞速发展,电信客户的移动互联网行为日益呈现出个性化、多元化的特征,基于单一节点的电信客户行为分析效率十分低下,同时粗放式的客户维系方式无法有效提升用户粘性,本文提出基于Hadoop的电信客户细分模型。该模型针对传统K-means细分算法对初始聚类中心的选择敏感、容易陷入局部最优等缺点,根据数据特征自适应选取聚类中心数目,采用 RK-means算法,保证聚类中心点的全局最优,最后实现了自适应RK-means算法的并行化处理。实验结果证明,提出的客户细分模型,与串行单机算法相比,具有较高的运行效率;与传统粗放式营销策略相比,营销成功率也有了很大提升。

关键词:HadoopRk-means;移动互联网电信客户细分

中图分类号:xxxxxxxx 文献标识码:A

Research on Segment of Telecom Customer Based on Hadoop

HOU Jing ZHANG Zhizhong

Key Laboratory on Communication Network and Testing Technology, Chongqing University of Post and Telecommunications, Chongqing 400065, China

AbstractWith the rapid development of mobile internet and intelligent terminal. telecom customer behavior becomes personalized and diverse, which makes the analysis base on single node becomes very difficult, and customer retention is hard to strengthen in traditional marketing ways, segment model of telecom customer is proposed in this paper. However, the traditional k-means algorithm is sensitive to initial cluster center selectionand likely to falling into local optimum, so it will easily affect the accuracy of clustering. To solve this problem, the cluster number adaptively decides and added coefficient factors linear decreasing stochastic term in the process of updating the cluster centers in this model, which makes the k-means algorithm has a strong ability to explore, and an excellent local search ability in the latter. And the algorithm is realized in the Hadoop. MapReduce programing platform. Experimental results show that: compared with the stand-alone serial algorithm, the operating efficiency improved greatly, and compared with traditional extensive marketing has a higher successful rate.

Key wordsHadoop; RK-means; mobile internet; telecom customer segment

基金项目:教育部-中移动科研基金(MCM20150508);重庆高校创新团队建设计划资助项目(KJTD201312

Foundation ItemsMinistry of Education - China Mobile Research FoundationMCM20150508; Program of Innovative Research Team Constructing Plan of the Higher Education Institution in Chongqing. (KJTD201312)

 

1  引言

随着4G网络的商用和广泛部署,电信客户正享受着越来越高速的新型数据业务体验,电信市场竞争日益加剧,运营商正逐渐转向客户驱动的经营模式。电信运营商拥有通话记录、增值业务、通信行为、用户访问流量等海量的用户信息,如何运用数据挖掘技术从海量信息中获取电信企业运营决策所需要的商业知识,是近年来移动通信领域的研究热点。然而,由于电信业务内容完善,客户规模增大,电信业务已体现出需求个性化、服务多样化的市场特征,为数据挖掘技术带来了各种高难度的挑战,比如数据挖掘的时效性、准确性、以及对运营的支撑能力等。

电信领域研究最为广泛的数据挖掘主题主要包含[1]1)客户家庭成员关系分析;2)欺诈行为识别;3)客户流失预测;4)客户细分;5)交叉销售。其中,客户细分是指将客户按照一定规定和服务标准实现分类、存储和处理,同时能够面向不同的客户群,制定出不同的营销策略和服务计划[2]。例如,文献[3]提出一种基于混合数据挖掘技术分类模型促进移动电信市场交叉销售,文献[4]基于客户价值运用决策树模型实现电信客户细分,文献[5]提出面向电信服务市场的客户细分方法。可见,客户细分类研究中,针对电信客户的互联网使用行为挖掘的相关研究较少。

电信客户细分一般包括数据预处理、挖掘算法实施、结果分析阶段。数据预处理处于电信客户细分过程中的数据准备阶段,其输出的结果对挖掘的准确性影响较大。在TB集数据集、PB级的移动互联网用户数据面前,基于Oracle等关系型数据库的预处理方式效率十分低下,为此本文提出基于MapReduce框架的移动互联网信令数据预处理方式。K-means算法具有实现过程简单,并且收敛速度快等优点,是数据挖掘中应用最经典的聚类算法,但是由于初始聚类中心选择对聚类结果影响较大[6]K-means算法具有很强敏感性,针对电信客户细分串行化处理方式的效率也很低。为此,文献[7]采用了自适应选取聚类中心的K-means算法,实现了聚类数目的自适应选取,但是聚类中心点并不是全局最优,文献[8]采用了面向全局优化的K-means算法,只能实现聚类数目的随机性选取,不能保证聚类数目的准确性。此外,两种算法采取的串行化程序思想限制了对大数据的处理效率。由于K-means算法能够实现基于MapReduce的并行K-means处理方式[9],本文提出了将自适应初始聚类中心选取算法与RK-means算法相结合起来,以保证聚类类别数的准确获取和聚类中心的全局最优,并且实现了Hadoop平台下算法编程。

本文针对西南地区某运营商的移动互联网业务进行了应用研究。首先在运营商数据仓库中现场抽取500万条样本数据,然后利用相关分析简化数据冗余属性以保证数据质量,最后通过基于Hadoop的自适应RK-means算法构建了电信客户细分模型。

2  Hadoop简介

Hadoop是一个集成了大规模并行计算模型MapReduce和分布式文件系统HDFS的开源框架。Hadoop的主要核心是Hadoop CommonHDFSMapReduce三个子系统。Hadoop CommonHadoop整体的架构提供了基础支撑,主要包括文件系统、协议远程过程调用等;HDFS是分布式文件系统,具有使用成本低和高容错性等特点,能够访问超大数据集应用程序的数据,吞吐量高。MapReduce是一种编程模型,由MapReduce函数实现大规模数据集(大于1TB)的并行运算[10]Map函数通过切分和解析把一组大的数据集映射成多个小的键值对,Reduce函数通过归纳和聚合实现数据汇总,MapReduce过程如图1所示。

1 MapReduce分析过程

3  自适应Rk-means算法

由于k-means算法对初始聚类中心的选择对聚类结果准确率影响较大,敏感度较高,为此许多学者在运用K-means算法的同时会采取一些改进的初始中心选取算法。如文献[7]采用了自适应选取聚类中心的K-means算法,但是在聚类中心全局优化能力较弱,文献[8]采用了RK-means的算法解决了全局优化的问题,但是聚类数目的确立是随机选取的,具有盲目性。此外,由于两种算法采取的串行化程序处理方式限制了应对大数据的处理能力,且自适应初始聚类中心选取算法和RK-means算法都能够基于MapReduce运行,本文提出了将自适应初始聚类中心选取和RK-means算法相结合的并行化的处理方式。

3.1 自适应选取初始中心选取

在实现电信客户细分过程中,由于客户细分个数未知,不能采用标准K-means算法随机选取初始聚类中心。为此,本文研究并采用一种能够自适应选取初始聚类中心的方法[6]。主要是运用距离来衡量数据对象之间的相似性,从而实现聚类簇的估计。

算法思想:假设用户群数目为,样本数据集表示个聚类簇,聚类中心为,两个不同对象间不相似的阈值设为,自适应初始中心选取的准则为:若,其中,那么不属于类。

算法步骤:

Step 1输入的用户数据集;

Step 2计算数据集内随机对象间的空间距离,按照升序排列后放入数据集

Step 3从数据集中随机选取一个对象作为初始聚类中心,设聚类数目为,两观测值相似性阈值取为

Step 4估计数据集内其余对象与初始聚类中心间的空间距离,选出极小值与进行比较,若大于,则聚类数量增加1,从而获得更新的聚类中心;若小于,则将此点与对应的聚类中心归为一类,同时更新相似性阈值

Step 5重复执行Step 4,直到数据集中所有对象分类完毕;

Step 6输出聚类中心。

3. 2 RK-means算法

我们知道,聚类中心处于该类簇所有对象的中心位置,如果更新后的聚类中心距离其余对象很远,那么该聚类中心是一个没有实际意义的聚类中心,聚类质量很差。为此,RK-means算法在对聚类中心进行更新时,增加了一个与数据集的几何中心距离、以及初始聚类中心距离相关的随机项,保证每次更新的聚类中心距离簇中对象相对较近,偏差较少,从而提升算法的探索能力[7],以下给出RK-meanns算法的聚类中心更新方程。

假设算法到步时,个簇依次表示为,则RK-means算法更新聚类中心的方程表示为:

其中,维的随机变量,服从维的超立方体上均匀分布,是增加随机项的系数因子;随机变量之间的乘积为两向量之间的点积;的算术平均,代表数据集的几何中心。

可以看出,随机变量增加了算法在迭代过程中的随机性,能够跳出传统K-means算法容易陷入局部最优的缺陷,使得算法具有全局探索的能力。因此,式提高了算法迭代更新解的质量,若由得到的当前聚类中心没有步骤的聚类中心好,则不修正步骤的聚类中心,往后执行步,这样就可以保证算法在迭代过程具有较好的探索方向。

此外,RK-means算法中设置了随着迭代次数的增加线性地减小的因子。在迭代初期较大,对聚类中心点更新的变化范围较大,算法的全局探索能力较强;在迭代后期较小,算法的局部搜索能力很强。假设最大迭代次数为,设最小值为,最大值为,则

RK-means算法步骤:

Step 1自适应选取初始中心选取算法中获取的个聚类中心,作为RK-means算法的初始聚类中心;

Step 2根据每个对象到初始聚类中心的距离,将其分配到离它最近的聚类中心所在的类中,个聚类分别表示为

Step 3RK-means算法的聚类中心更新方程更新聚类中心,得到新的聚类中心表示为

Step 4首先,计算出总类间离散度,若该值大于步中得到的总类间离散度,则不更新聚类中心,令,转到Step 2继续进行迭代。若的差别小于正数,或者算法达到了迭代次数上限的,迭代结束;否则令,转到Step 2继续迭代。

RK-means算法迭代过程中,聚类中心点会随机更新,不断变化,同时总类间离散度也会随之不断变化。到算法到迭代后期的时候,总类间离散度变化越来越小,当小于某一预设的正常数时,聚类中心不再变化,由主函数终止迭代过程。

可以看出,自适应RK-means首先引入初始中心自适应选取算法,确保聚类数目的科学选取,同时把K-means算法中聚类中心更新公式改为3.2.2节中的,与传统K-means的流程相似性较高。与此同时,随机项的引入也改变了算法的收敛准则。总之,自适应RK-means算法保持了传统K-means算法结构简明的优点,在保证算法的复杂性或计算量不会显著增加的同时,聚类的准确率得到了提高。

4  基于Hadoop的电信客户细分模型

4.1数据清洗

为了实现电信客户移动互联网行为的细分,本文实验选取的数据源是西南地区某移动运营商三个月的BOSS数据、信令数据,其中BOSS数据主要包含用户基础信息、电信业务关系、电信业务属性、消费能力等用户行为信息,信令数据主要包含HTTPGTPUDP协议的用户上网数据,提取的信令数据主要格式如表1所列。本文选取的参考维度包括:APP大类、APP小类、访问流量、包数、点击率,应用大类参考类集团规定的18种应用大类,详细参见《中国移动数据流量DPI识别能力规范》[11]。由于信令数据按分钟生成, 4G网络下该运营商每天的产生客户数据量近2T,每个月累计数据将近60T。为了提高数据预处理阶段的运行效率,本文采用MapReduce编程框架实现同一用户的信息提取、关联。

1Map阶段

从输入的信令数据文件中提取用户信息,我们根据Boss信息从500万筛选满足用户状态为正常、每个月消费(ARPU)值大于0、流量(FLOW)值大于0、从未订购移动自有业务的非集团客户;根据用户信令数据信息清洗删除集团未定义的类别、字段回填为空的数据,最终满足细分条件的用户群。选取用户IMSIAPP_TYPE拼接作为Map函数的key,选取APP_TYPEUL_DATADL_DATASTART_TIMEEND_TIMECDR条数作为value,通过数据切分和解析实现用户识别和互联网行为属性记录。

2Reduce阶段

Reduce函数接收Map阶段写入的keyvaluekey代表一个电信客户,value代表该客户的移动互联网行为数据值,存放在一个Iterable中。遍历该迭代器,统计出CDRCall Detail Records,呼叫详细记录)中相同APP_TYPEAPP_SUB_TYPE对应的用户上下流量、上下行包数。同时,由于CDR中的参数来自于原始的信令消息数据,我们将迭代的次数(即CDR的条数)作为用户上网点击次数(PV)。因此,通过Reduce函数的输出用户每一类应用的上下行总流量、上下行总包数、点击率。

1 信令字段及含义

信令字段

含义

IMSI

用户IMSITBCD编码)通过Gn/S11接口信令获取

APP_TYPE

应用大类(18)

APP_SUB_TYPE

应用小类

UL_DATA

上行流量 单位:字节

DL_DATA

下行流量 单位:字节

UL_IP_PACKET

上行IP包数内层IP包的个数

DL_IP_PACKET

下行IP包数内层IP包的个数

4.2 模型变量的提取

根据西南地区某移动运营商需求,从18种大类中提取电信客户常用的7大类业务的属性作为模型输入参数,分别为阅读类(READ)、即时通信类(IM)、音乐类(MUSIC)、微博类(WEIBO)、视频类(VEDIO)、应用商店类(APPSTORE)、游戏类(GAME)。每个类业务有3种属性,为了从21类属性中获取最优的模型输入变量,利用相关分析生成相关系数矩阵,判断各个特征变量之间的相关性。7大类业务各自的点击率(PV)、访问流量(FLOW)、上下行总包数(PACKGE)之间相关性系数表明,各类业务之间相关系数小于0.8,并且每类应用的上下行流量、上下行包数、点击率之间的相关性较高,均相关系数大于0.8。鉴于用户点击次数(PV)最能体现用户的活跃度,我们选取用户对7大业务的点击次数作为模型最终的输入变量。表2给出了7大业务的点击次数(PV)用户点击率相关性系数。

2 相关系数矩阵

 

READ
_PACKGE

READ_

FLOW

READ

_PV

IM_

PV

MUSIC

_PV

WEIBO

_PV

VEDIO_

PV

APPSTORE_PV

GAME_

PV

READ _PACKGE

1.000

-.843

-.880

.131

-.017

.167

-.086

-.505

-.023

READ_

FLOW

-.843

1.000

.865

.543

.091

.599

-.103

.176

.020

READ_PV

-.880

.865

1.000

.328

.292

.454

-.064

.575

-.008

IM_PV

.131

.543

.328

1.000

-.160

.092

.380

.025

-.048

MUSIC_

PV

-.017

.091

.292

-.160

1.000

.335

.380

.527

.128

WEIBO_

PV

.167

.599

.454

.092

.335

1.000

-.016

-.034

-.126

VEDIO_PV

-.086

-.103

-.064

.380

.380

-.016

1.000

.190

.218

APPSTORE_PV

-.505

.176

.575

.025

.527

-.034

.190

1.000

-.154

GAME_PV

-.023

.020

-.008

-.048

.128

-.126

.218

-.154

1.000

4.3 基于Hadoop的初始聚类数目选取

算法实施步骤:输入待聚类的电信客户数据集;输出数据集中所有数据都分类完毕时的聚类中心及其数目,作为RK-means的初始聚类中心。

Step 1将电信客户数据集读入,估计数据集内随机观测值的空间距离,按照升序排列,随机选取某一观测点作为初始中心点,聚类数目设置为1,设定两观测值相似性阈值。

Step 2估计其余观测点与初始聚类中心间的空间距离,将观测点的id作为map函数的key,观测点与初始聚类中心点的空间距离设为value输出到Combine函数中。

Step 3Combine函数选取所有观测点中最小的空间距离,取该距离与两观测值相似性阈值进行比较:若偏大,则聚类数量进1,将该观测值的id作为key,该观测值的属性记为value输出到Reduce中;若偏小,则将初始中心点的id作为key,该观测值的属性记为value输出到Reduce

Step 4通过Reduce函数更新两观测值相似性阈值。

Step 5判断数据集中所有数据是否都已分类完毕:若是,则输出聚类中心;反之,则重复执行Step 2Step 4

4.2 基于HadoopRK-means聚类实现

基于HadoopRK-means算法主要包含Map过程和Reduce过程。Map过程运用Map函数将4.1节中获取的自适应聚类中心作为RK-means的初始聚类中心。Reduce过程运用Reduce函数读入Map函数输出结果,将key相同(即同一类别)的对象进行合并。同时,计算标准测度函数的值,由主函数判断程序迭代是否结束。

Step 1根据每个对象到初始聚类中心的距离,将对象分配给最近的聚类中心。

Step 2Map函数中,key表示该类簇所属聚类中心类别,value表示类别及其对象的属性。

Step 3Reduce函数读取Map函数写入的中间结果,即context.writekeyvalue)。

Step 4获取每个簇的平均值。

Step 5根据各对象到每个簇中心的距离,采用增加随机项的更新算法更新聚类中心,将它们重新分配给距离最近的簇。

Step 6输出不同的簇,其中key为各个簇的编号,value为各个簇中每个对象对应的属性,最后的输出就是RK-means聚类细分的结果。

结合4.1节和4.2节,我们得到并行自适应RK-means算法的整体流程,如图2所示。

2 并行RK-means算法流程

4.6 电信客户细分结果

我们采用经过文中MapReduce预处理的信令数据文件作为实验数据。实验过程中,首先,将7类属性归一化处理,输入到自适应初始中心选取算法(4.3节),得到聚类个数为7;再输入到RK-means算法(4.4)中,通过电信客户细分模型得到的聚类结果(包括聚类数目和聚类中心点)如图4所示。

3 七大类业务客户细分结果

 

READ_PV

IM_PV

MUSIC_PV

WEIBO_PV

VEDIO_PV

APPSTORE_PV

GAME_PV

NUMBER

Cluster_0

2.402

0.294

0.384

0.777

4.25

2.538

0.137

95644

Cluster_1

0.054

0.131

1.806

0.225

0.17

0.065

-0.023

395049

Cluster_2

0.192

0.651

6.647

0.696

0.387

0.093

-0.015

40005

Cluster_3

0.054

0.341

0.071

1.541

0.159

0.143

0.075

731455

Cluster_4

0.068

1.267

-0.247

0.211

0.104

0.048

9.728

24548

Cluster_5

-0.099

-0.341

-0.34

-0.438

-0.205

-0.131

-0.111

2122085

Cluster_6

-0.066

3.212

-0.154

0.021

0.077

0.101

0.067

201388

可以看出,cluster_0中用户的7类应用活跃度普遍较高,其中阅读(READ_PV)、微博(WEIBO_PV),应用下载(APPSTORE_PV)为所有cluster中最高,其对互联网业务的接收能力最强,该类用户称为移动互联网应用活跃型用户,该类型用户94566人,可以推荐运营商自有业务(和阅读、和地图、和动漫),从而提高用户粘性,提升运营商从客户获取的ARPU值。cluster_1cluster_2均为音乐类(MUSIC_PV)应用偏好型用户,其中cluster_2为音乐强偏好型用户,可推荐其订购运营商自有业务(咪咕音乐),cluster_1为音乐弱偏好型用户,可以通过推送音乐定向流量包,激发用户业务活性。cluster_3中用户各项指标处于平均水平之上,其中,微博类WEIBO_PV)应用偏好较强,该类用户属于微博类应用偏好型cluster_4中游戏类(GAME_PV)应用偏好最强,该群体用户量较小,属于游戏类应用强偏好型,可以向其推荐运营商自有业务(和游戏),提高用户业务粘性,提升运营商从客户获取的ARPU值。cluster_5中各项互联网业务指标均低于平均值,该类群体有200万客户,占总人数的58.7%,属于互联网低频次型用户,可以在推荐叠加流量包的同时,分析用户语音使用特征,对语音偏好较强的推荐语音包,提升客户价值。cluster_6中用户的即时通信类(IM_PV)应用偏好较强,即对“QQ”微信等即时聊天工具使用较为活跃,其余各项应用指标处于平均值上下,互联网应用活跃度一般,该类用户属于即时聊天强偏好型,可以通过推荐即时通信类定向流量包,或者流量叠加包的方式提高客户价值。

5  模型的效果检验

5.1实验环境

本实验搭建的Hadoop环境由5台戴尔服务器组成,其中一台服务器192.168.9.19作为主节点Master,也是ResourceManagerNameNode;其余4台作为从节点Slave,也是NodeManagerDataNode5台服务器都是Dell R7208CPU64GB内存,每台服务器系统均为Centos 6.4版本;hadoop-2.4.2jdk-1.7。集群分布参见图3

3 Hadoop集群分布

5.2 模型效率实验

为了实现对客户细分模型的效率验证,我们对模型中的RK-means算法进行实验。将只有1个运算节点的串行Rk-means算法与5个运算节点的并行RK-means算法进行对比,记录处理不同规模大小的数据所花费的时间,实验结果取10次运行时间的平均值,为串行时间,为并行时间,实验结果如表4所列。

4 算法时间比较

序号

文件大小

记录数

1

8M

68426

24s

68s

2

120M

1389657

49s

121s

3

11267M

16419785

564s

363s

4

11267M

25496847

1035s

788s

5

192512M

279709261

can’t handle

1382s

由表3可知,当数据量较小时,并行的处理方式不如串行处理方式的效率高,但是随着数据量逐渐增大,并行处理方式的高效性优势得到体现。这主要是因为当输入的数据量较小时,Hadoop平台不断的读取、写入、传输数据的过程需要大量的时间,而实际运算的所消耗的时间占比非常小[13],因此并行处理方式没有串行的效率较高。但是随着数据量的增大,单一节点无法支撑算法的开销,消耗的时间较长,并行多节点的处理方式效率明显高于串行处理方式。

5.3 模型实际运用效果

本节以20164月西南地区X移动公司实际执行的一次业务(咪咕、和视频、和音乐、和阅读、定向流量包等)营销过程为例,说明模型的实际运用效果。

构建模型时,选取20161-3月用户阅读类、即时通信类、音乐类、微博类、视频类、应用商店类、游戏类的点击率共7个变量,求取在3个月内用户各类应用点击率的平均值,输入到电信客户细分模型根据获取的客户细分类型,采取外呼、营业厅推荐得到的营销结果如表5所示。

5 20164X移动公司业务营销实施结果

客户细分类型

移动互联网应用活跃型

音乐类应用强偏好型

微博类应用偏好型

游戏类应用强偏好型

即时聊天类强偏好型

实际推荐总人数

95466

32465

21455

24548

31169

推荐成功总人数

30673

8957

3143

3039

5868

一次性推荐成功数

10420

2854

993

807

2031

营销成功率

32%

27%

14%

12%

18%

5中的推荐成功总人数是指排除10086外呼过程中的未接、停机以及拒绝沟通的客户后,接受了自有业务推荐内容的客户。一次性推荐成功数是指外呼、营业厅推荐过程中一次性接受了推荐方案的客户数。能够看出,本次移动互联网业务平均营销成功率为25.1%,而之前做过的测试表明,选取前三个月值平均流量值上升幅度大于30%的用户进行外呼营销的成功率为11.7%,而随机抽取用户进行外呼营销的成功率仅为3%~7%。由此可见,模型在实际营销场景下表现良好,对发现移动互联网业务潜在客户有较高的预测能力。

6 结束语

针对k-means算法容易陷入局部最优的缺点,以及处理电信移动互联网PB级信令数据时效率低下现实问题,本文提出了基于Hadoop的电信客户细分模型,将改进的K-means算法与MapReduce的运算体系结合起来,实现了电信客户移动互联网行为的细分。实施结果表明,与传统串行处理方式相比,提高了客户细分运算效率;改进的自适应RK-means算法显著地提高了k-means算法聚类的准确性,保证了营销结果的成功率。但是,本模型没有对移动互联网低频次型客户进行语音业务深度细分,该类用户群体大,对于提高客户整体价值也起着十分重要的作用。在今后的工作中,将深入挖掘电信客户的行为特征,提高电信客户细分模型的全面性和精准性。

参考文献:

[1] 李净,张苑,张智江. 数据挖掘技术与电信客户分析[J]. Business & Operation, 2009(05):43-47.

[2] 巩建光. 面向电信领域的数据挖掘关键技术研究[D],哈尔滨工程大学, 2012.

[3] H Ahn,JJ Ahn,KJ Oh,HK Dong. Facilitating cross-selling in a mobile telecom market to develop customer classification model based on hybrid data mining techniques[J],Expert Systems with Applications, 2011, 38(5):5005-5012.  

[4] SH HanSX LuSCH Leung,Segmentation of telecom customers based on customer value by decision tree model[J],Expert Systems with Applications, 2012, 39(4):3964-3973.

[5] M Iwashita,S Shimogawa,K Nishimatsu. Semantic analysis and classification method for customer enquiries in telecommunication services[J],Engineering Applications of Artificial Intelligence,2011,24(8):1521-1531.

[6] J WangX Su. An improved K-Means clustering algorithm[J],Journal of Dalian Nationalities University, 2011, 9(1):1-3 [11]

[7] 宫峰勋,戴丽华,马艳秋.自适应选取聚类中心K-means航迹起始算法[J],《哈尔滨工业大学学报》, 2014, 46(5):113-119.

[8] 李彬.具有全局优化能力的K均值聚类算法[J],《西南师范大学学报:自然科学版》, 2014(7):36-40

[9] W ZhaoH MaQ He.Parallel K-Means Clustering Based on MapReduce[J],《Lecture Notes in Computer Science, 2009:674.

[10] J DeanS Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[J],Communications of the Acm, 2008, 51(1):107-113.

[11] 中国移动通信集团公司,QB-X-XXX-XXXX,中国移动数据流量DPI识别能力规范1.0[S]. 北京,中国移动通信集团公司,2013.

[12] 彭长生.基于 Fisher 判别的分布式 K-Means 聚类算法[J],《江苏大学学报:自然科学版》, 2014(4):422-427.

[13] 周婷,张君瑛,罗成. 基于HadoopK-means聚类算法的实现[J],《计算机技术与发展》, 2013, 23(7):18-21.

 

 

 

 [作者简介] 

 

 

 

 

 

 

 

 

 

本刊创刊于1982年,是由自治区科技厅主管、自治区科技信息研究院主办,由自治区科技情报学会协办、国内外公开发行的省级综合性科技刊物,是反映内蒙古自治区科技与经济发展的窗口。杂志入选《中国期刊全文数据(CJFD)》全文收录期刊和《中国学术期刊综合评价数据(CAJCED)统计刊源期刊,《中国核心期刊(遴选)数据库》收录。本刊是公开发行的综合性科技期刊,为月刊,大16开本。本刊坚持以科技创新为目标,融科技、经济、信息、产业、市场为一体,是促进科技成果转化、推动科技进步、加强技术创新,促进经济发展的专业性期刊。