基于大數(shù)據(jù)能力的5G資費潛在客戶挖掘方法
魏國華 郭翔宇 康志強(qiáng)
中國移動通信集團(tuán)內(nèi)蒙古有限公司 內(nèi)蒙古呼和浩特 010010
摘要:本文從用戶畫像與資費業(yè)務(wù)運營實踐出發(fā),探索通過用戶的消費能力、消費穩(wěn)定性與趨勢、流量使用、語音通話等維度構(gòu)建算法模型與套餐匹配策略,提升5G套餐遷轉(zhuǎn)的精細(xì)化運營水平。
關(guān)鍵詞:用戶畫像、5G資費、數(shù)據(jù)挖掘、精準(zhǔn)營銷
1. 引言
5G通信網(wǎng)絡(luò)由于高速率、大容量、低延時的特點將給人們帶來前所未有的極致體驗與生活方式的改變。截至2019年底,全球55家電信運營商為約1000萬客戶提供了網(wǎng)速超過4G網(wǎng)絡(luò)6-8倍的5G服務(wù)。5G資費套餐是用戶能夠體驗5G服務(wù)的前提與基礎(chǔ)。2019年是5G元年,在5G資費初始推廣階段,由于辦理5G資費的客戶規(guī)模小,傳統(tǒng)的數(shù)據(jù)建模方式很難精準(zhǔn)識別5G資費的潛在客戶;另外,5G資費價格較高(128元起),由于高價值客戶占比低,能夠基本滿足價值匹配要求的客戶數(shù)量小,不利于5G資費客戶的快速規(guī)模化;再者,隨著通信市場進(jìn)入零和博弈階段以及“攜號轉(zhuǎn)網(wǎng)”政策的全面實施,用戶話語權(quán)與選擇自由度的提升將導(dǎo)致客戶價值流失甚至攜號轉(zhuǎn)網(wǎng),對于用戶的需求變化與消費異動需要快速的識別,采取針對性的營銷與防御策略,進(jìn)行差異化的維系與挽留。
本文重點闡述以客戶畫像為基礎(chǔ)支撐,如何從資費業(yè)務(wù)運營實踐出發(fā),基于大數(shù)據(jù)能力對5G潛在客戶的個性化需求與消費異動進(jìn)行實時、快速、全面的洞察與識別,精確支撐5G資費的推廣與發(fā)展,促進(jìn)5G資費客戶規(guī)模與收入保有的雙提升。
2. 研究思路與目標(biāo)
緊跟中國移動關(guān)于“基礎(chǔ)電信業(yè)務(wù)從規(guī)模經(jīng)營向基于規(guī)模的價值經(jīng)營加速轉(zhuǎn)變,信息通信市場從要素競爭向[能力+要素]競爭加速轉(zhuǎn)變”戰(zhàn)略要求,順應(yīng)未來移動互聯(lián)網(wǎng)應(yīng)用“視頻流”化的發(fā)展趨勢,基于大數(shù)據(jù)能力完善客戶畫像與特征工程,通過大數(shù)據(jù)建模精確識別潛在5G資費客戶,助力5G套餐遷轉(zhuǎn)發(fā)展戰(zhàn)略實施,主要目標(biāo)有:
2.1.上網(wǎng)日志解析能力提升與客戶畫像完善:
通過大數(shù)據(jù)技術(shù)持續(xù)提升對用戶上網(wǎng)日志的解析能力,增加用戶畫像的特征維度以及特征數(shù)據(jù)的實時性與精準(zhǔn)度。
2.2.大數(shù)據(jù)建模
根據(jù)用戶的互聯(lián)網(wǎng)行為屬性與特征偏好,并結(jié)合客戶套餐情況、行為特征、消費能力與趨勢等方面進(jìn)行數(shù)據(jù)建模,對潛在5G資費客戶進(jìn)行識別。
3. 主要內(nèi)容
3.1用戶上網(wǎng)日志解析能力的提升與用戶畫像的完善
目前,用戶畫像在基礎(chǔ)屬性、消費屬性等方面具有較為完備的特征維度與細(xì)分標(biāo)簽,但對于用戶的互聯(lián)網(wǎng)行為屬性,如內(nèi)容偏好、題材偏好、瀏覽方式、播放時長、時間偏好、APP使用時長與使用流量規(guī)模等方面受制于上網(wǎng)日志解析能力與數(shù)據(jù)的實時性,準(zhǔn)確度不高。針對以上問題,在晚上上網(wǎng)日志數(shù)據(jù)加載機(jī)制的基礎(chǔ)上,借助云爬蟲技術(shù)、開發(fā)實時解析程序,豐富解析規(guī)則庫和內(nèi)容庫,持續(xù)提升上網(wǎng)日志解析能力,細(xì)化用戶行為屬性數(shù)據(jù)的顆粒度,完善用戶畫像的精準(zhǔn)度。
3.1.1. 完善上網(wǎng)日志數(shù)據(jù)加載機(jī)制,提升基礎(chǔ)數(shù)據(jù)的完整性
針對采集到的用戶上網(wǎng)日志流量與計費流量數(shù)據(jù)相差較大,嚴(yán)重影響上網(wǎng)日志解析結(jié)果的完整性,通過以下措施對數(shù)據(jù)傳輸、加載機(jī)制進(jìn)行優(yōu)化:
①完善采集規(guī)則,在核心網(wǎng)采集日志數(shù)據(jù)時,將數(shù)據(jù)盡量匹配進(jìn)入HTTP接口;
②加強(qiáng)日志數(shù)據(jù)生成的監(jiān)控,保證日志數(shù)據(jù)中關(guān)鍵信息的字段值(如:號碼、域名、URL等)非空,以及字段值的有效性和完整性;
③測試、調(diào)優(yōu)Kafka的傳輸參數(shù),保證在日志傳輸過程中的負(fù)載均衡。
3.1.2. 域名庫、規(guī)則庫、內(nèi)容庫的完善
(1)域名庫的補(bǔ)充與完善
①按照集團(tuán)下發(fā)的域名規(guī)則,梳理后補(bǔ)充至本省域名庫中;
②引入第三方域名庫,進(jìn)一步完善域名庫規(guī)則;
③與其他省公司交流,將其個性化的域名規(guī)則引入至本省域名庫;
④定期分析、梳理上網(wǎng)日志解析結(jié)果數(shù)據(jù),將其中用戶數(shù)較高且未識別解析的域名進(jìn)行整理、分類,通過手工web驗證、爬蟲等方式,獲取其相關(guān)信息,并將獲取到的信息補(bǔ)充至規(guī)則庫中;
(2)內(nèi)容規(guī)則庫的補(bǔ)充與完善
①監(jiān)控上網(wǎng)日志內(nèi)容解析結(jié)果,分析數(shù)據(jù)變化,對有疑問的分析結(jié)果,反向跟蹤解析規(guī)則是否合理或缺失,并針對具體原因進(jìn)行內(nèi)容解析規(guī)則的更新補(bǔ)充;
②針對專項需求,對指定的APP,進(jìn)行內(nèi)容識別規(guī)則的提取、分析和建立,并將新規(guī)則補(bǔ)充至內(nèi)容規(guī)則庫;
③通過與基地合作,由基地提供內(nèi)容規(guī)則,驗證其有效性后,將其補(bǔ)充至內(nèi)容規(guī)則庫;
④引入第三方內(nèi)容規(guī)則庫,與現(xiàn)有規(guī)則庫對比、整合后,將我們不具備的內(nèi)容規(guī)則補(bǔ)充至規(guī)則庫。
(3)內(nèi)容庫的完善
①針對有特殊要求的內(nèi)容,在已開發(fā)的爬蟲程序基礎(chǔ)上,修改程序爬蟲模式,將全站深度爬取,修改為指定范圍爬取,提高爬取信息的統(tǒng)一性;同時優(yōu)化爬蟲程序,提高爬取效率,來完成特殊內(nèi)容的爬??;
②采取反向爬取的方式,對于內(nèi)容解析程序已經(jīng)識別但內(nèi)容庫還沒有相關(guān)信息的內(nèi)容ID,進(jìn)行針對性的信息爬??;
③開發(fā)、使用云爬蟲工具進(jìn)行內(nèi)容爬?。煌ㄟ^云爬蟲工具,配置爬蟲規(guī)則,在完成首次采集后,還可以設(shè)置定期采集機(jī)制,指定時間間隔,對新增的內(nèi)容信息進(jìn)行采集;另外,云爬蟲工具是運行在云平臺上,可以保證爬蟲的采集效率;
④引入第三方內(nèi)容庫,完善現(xiàn)有的內(nèi)容庫;
⑤基地下發(fā)內(nèi)容庫,結(jié)合現(xiàn)有內(nèi)容,將本省還不具備的內(nèi)容補(bǔ)充至內(nèi)容庫。
3.1.3上網(wǎng)日志的解析能力的提升
在不斷補(bǔ)充與完善域名庫、內(nèi)容規(guī)則庫、內(nèi)容庫的基礎(chǔ)上,通過開發(fā)實時應(yīng)用級解析程序,從網(wǎng)管側(cè)按流式傳輸至kafka的日志數(shù)據(jù)為基礎(chǔ)進(jìn)行解析,日志傳輸1條就解析1條,實現(xiàn)上網(wǎng)日志的秒級時延解析,配合營銷模式的實時化改造,能夠?qū)崿F(xiàn)在分鐘級時延內(nèi)完成從用戶上網(wǎng)動作發(fā)生到相應(yīng)營銷完成的整個過程。
目前,上網(wǎng)日志解析平臺日均處理180億條上網(wǎng)日志原始數(shù)據(jù),解析率可達(dá)到90%以上,內(nèi)容識別率為85%以上,可識別30萬以上互聯(lián)網(wǎng)站與4371個主流APP應(yīng)用,解析時間可達(dá)到秒級。通過上網(wǎng)日志解析結(jié)果,開發(fā)了上網(wǎng)行為專項分析平臺、豐富了客戶上網(wǎng)行為標(biāo)簽,構(gòu)建了實時事件營銷場景,為開展基于客戶上網(wǎng)行為的精準(zhǔn)營銷提供基礎(chǔ)支撐。
3.1.4用戶畫像的優(yōu)化與完善
根據(jù)上網(wǎng)日志的解析結(jié)果,已建設(shè)1230類客戶上網(wǎng)行為偏好標(biāo)簽,包括視頻、閱讀、音樂、新聞、娛樂、生活、購物、出行、社交、旅游、游戲、動漫等分類的靜態(tài)標(biāo)簽和動態(tài)標(biāo)簽,其中靜態(tài)標(biāo)簽587類,動態(tài)標(biāo)簽643類,通過上網(wǎng)日志解析結(jié)果對客戶標(biāo)簽進(jìn)行動態(tài)更新,進(jìn)一步豐富了客戶畫像,提升了對客戶需求的洞察能力。
3.2 基于用戶畫像的大數(shù)據(jù)建模
5G資費推廣前期,由于辦理5G資費客戶較少,基于樣本訓(xùn)練的建模方式無法達(dá)到滿意效果,本文采取套餐適配法,即在用戶畫像的基礎(chǔ)上根據(jù)用戶行為與各套餐匹配,其模型設(shè)計流程主要包括:A、根據(jù)用戶消費能力(ARPU)、流量使用規(guī)模(DOU)、流量使用飽和度、語音通話分鐘數(shù)(MOU)、語音飽和度等客戶特征與產(chǎn)品庫中5G套餐的套餐價值、套餐所含的語音、流量等進(jìn)行結(jié)構(gòu)化映射解析;B、通過消費穩(wěn)定性與消費趨勢分析對客戶潛在消費能力變化進(jìn)行評估與預(yù)測;C、根據(jù)用戶的流量使用規(guī)模視頻流量使用占比及趨勢、視頻偏好等情況對流量使用需求與潛力進(jìn)行評估;D、通過資費閾值設(shè)置計算法計算得出預(yù)警閾值,最后根據(jù)消費穩(wěn)定性與流量使用潛力情況對客戶進(jìn)行套餐精準(zhǔn)適配。

圖1 基于套餐適配算法的模型設(shè)計流程
3.2.1目標(biāo)客戶篩選
考慮到5G資費套餐的價格較高(128元起),從上月全網(wǎng)通信客戶中選取ARPU大于80元的客戶作為初始目標(biāo)客戶,為了保證營銷資源的精準(zhǔn)投放和充分利用,需要對初始目標(biāo)客戶群體進(jìn)一步篩選與剔除:
①近兩個月內(nèi)入網(wǎng)的新用戶;
②流量≤100M的客戶或無視頻流量客戶;
③當(dāng)前狀態(tài)為非正常的客戶;
④公免、測試、員工號、黑名單、疑似養(yǎng)卡客戶、非語音卡客戶;
⑤近3個月內(nèi)有主資費套餐變更記錄的客戶;
⑥業(yè)務(wù)促銷規(guī)則限制不能更改主資費套餐的客戶。
通過以上規(guī)則篩選,最終得到初步適宜進(jìn)行主資費變更推薦的目標(biāo)客戶群體。
3.2.2用戶的消費穩(wěn)定度與趨勢分析
(1)用戶消費穩(wěn)定度分析
客戶消費的穩(wěn)定性,可以很好的反應(yīng)固定周期內(nèi)目標(biāo)客戶的主動消費意愿,業(yè)務(wù)運營實踐發(fā)現(xiàn),客戶消費穩(wěn)定性與客戶資費變更意愿具有較強(qiáng)的相關(guān)性。
提取用戶前三個月的ARPU消費情況,分別記為ARPUT-1、ARPUT-2、ARPUT-3,其中T代表當(dāng)月月份,D表示該用戶前三個月的ARPU均值,用戶的消費穩(wěn)定度指數(shù)記為S,則有:

根據(jù)4G資費運營實踐,當(dāng)S≤2時,選擇匹配資費套餐,S>2時,暫不匹配資費。
(2)用戶消費趨勢分析
在確定了目標(biāo)客群中用戶的消費穩(wěn)定性指數(shù)與套餐匹配預(yù)警閾值后,需要對用戶的消費趨勢進(jìn)行分析與預(yù)測??蛻粝M趨勢對于套餐匹配策略有較大的參考價值。
提取用戶前6個月的ARPU消費情況,分別記為ARPUT-1、ARPUT-2、ARPUT-3、ARPUT-4、ARPUT-5、ARPUT-6,其中T代表當(dāng)月月份,D表示該用戶前6個月的均值,用戶的消費趨勢指數(shù)記為G,則有:

通過對用戶消費趨勢的計算,可以得到用戶的消費發(fā)展趨勢指數(shù)與分布特征。

圖2 消費發(fā)展趨勢指數(shù)與特征分布
3.2.3資費匹配策略
資費匹配策略主要是用來評價用戶消費能力與新資費匹配后的收入損益。資費匹配策略主要有三種方式:就高匹配、就近匹配、就低匹配。其中就高匹配適用于消費能力或消費行為呈上升趨勢的用戶群體;就低匹配適用于價值流失或消費行為下降的用戶群體;就近匹配適用于消費能力與消費行為都比較穩(wěn)定的用戶群體。
根據(jù)用戶三個月月均消費能力(ARPU)與消費趨勢指數(shù)(S)對符合5G資費套餐遷轉(zhuǎn)的客戶進(jìn)行進(jìn)一步的洞察與細(xì)分,不同細(xì)分區(qū)域的客戶將采取相應(yīng)的資費匹配策略。
圖4 客群細(xì)分與資費匹配策略
消費能力維度:將相鄰的兩種不同主資費檔次之間的用戶消費區(qū)間等分為相等的3個部分;
消費趨勢維度:消費趨勢分布也劃分為3部分。由于提速降費與存量競爭的共同影響,語音與流量單價持續(xù)降低,反應(yīng)在用戶通信消費能力上也是降多升少。運營實踐中,區(qū)間劃分的取值分別為-5%、2.5%。
基于客群細(xì)分, 以下方式匹配資費策略:
(1)消費能力居中1/3的最下面一格以及靠左1/3客戶(紅色部分),按就低原則匹配資費(套餐A);
(2)消費能力居中1/3的最上面一格以及靠右1/3客戶(藍(lán)色部分),按就低原則匹配資費(套餐B);
(3)消費能力居中1/3的中間格(灰色部分),按就近原則匹配資費,就近匹配的具體算法詳見3.4節(jié)。
3.2.4基于相似度的套餐匹配算法
就近匹配推薦算法的核心在于相似距離的計算,常用算法有余弦相似度、皮爾遜相關(guān)系數(shù)、歐式距離、閔可夫斯基距離、杰卡德相似系數(shù)等,本文采用余弦相似度算法。
余弦相似度,是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。余弦距離可表示為:
用于余弦相似度計算的主要輸入變量有消費能力(ARPU)、使用流量(DOU)、主叫語音通話分鐘數(shù)(MOU),計算過程如下:
(1)將輸入變量進(jìn)行歸一化處理,計算公式為:

(2)計算用戶ARPU和不同套餐資費的距離。取產(chǎn)品庫中任意兩檔主資費套餐(月費Ai1、月費Ai2)與近三個月月均ARPU(A)的距離;將所有距離進(jìn)行升序排列,分別取前三個主資費檔次,即距離A最近的三個主資費檔次,距離記為1,2,3;
(3)計算用戶流量和不同套餐包含流量的距離。取 用戶近3個月實際使用流量數(shù)(D)與第三步的匹配后的主資費里面包含的流量數(shù)(Di)的距離,計算公式為:abs(D-Di1),abs(D-Di2);將所有距離進(jìn)行升序排列,分別取前3個流量數(shù)對應(yīng)的主資費檔次,距離記為1,2,3;
(4)按照相同的方法計算用戶語音通話分鐘數(shù)與不同套餐包含語音通話分鐘數(shù)的距離。
(5)求距離均值:將第(2)步得出的主資費套餐檔次的系數(shù)及第(3)、(4)步得出的主資費檔次的距離進(jìn)行相加取得平均值,并將平均值進(jìn)行升序排列,取出第一個主資費套餐(距離最?。吹玫酵扑]對應(yīng)的5G主資費套餐。
4. 應(yīng)用效果
5G資費套餐適配模型2020年1月1日上線運營,截至2月底發(fā)展5G資費套餐客戶80455戶,用戶辦理5G資費套餐以128元資費為主,占比77.4%,詳見圖5。

圖5 辦理各檔位5G資費套餐的客戶數(shù)分布
辦理5G資費客群(T月)在資費生效當(dāng)月(T+1)的收入貢獻(xiàn)較5G資費辦理前月(T-1)增收40.6萬元,收入增幅5%,人均提收5.1元。考慮到新冠病毒疫情持續(xù)至今的影響,5G資費適配與發(fā)展效果還是令人滿意。
5. 結(jié)語
針對5G資費推廣前期辦理5G資費客戶量少、傳統(tǒng)建模方式無法達(dá)到滿意效果的現(xiàn)狀,根據(jù)資費業(yè)務(wù)運營實踐,通過用戶的消費能力、消費穩(wěn)定性與趨勢、流量使用、語音通話等維度構(gòu)建5G套餐適配算法模型并上線運營,取得了不錯的運營效果。該套餐適配模型深耕于資費業(yè)務(wù)運營實踐,具有較強(qiáng)的可復(fù)制性與可實施性。
下一步將根據(jù)已辦理各檔位5G資費套餐客戶為基礎(chǔ)構(gòu)建5G套餐各檔次客戶識別模型,探索確定各套餐檔次的正樣本特征,分別使用xgboost算法、GBDT、邏輯回歸算法等算法對不同檔位的模型效果進(jìn)行綜合比較,選擇各檔位資費的最優(yōu)算法,持續(xù)提升5G資費套餐的精細(xì)化營銷水平,支撐5G套餐遷轉(zhuǎn)戰(zhàn)略目標(biāo)的實現(xiàn)。
參考文獻(xiàn):
[1] 盧輝. 數(shù)據(jù)挖掘與數(shù)據(jù)化運營實踐. 機(jī)械工業(yè)出版社, 2013.
[2] 項亮. 推薦系統(tǒng)實踐, 人民郵電出版社, 2012.
[3] Mark·M·Meerschaert. 數(shù)學(xué)建模方法與分析(第四版), 機(jī)械工業(yè)出版社, 2014.
[4] 李正茂, 王曉云, 張同須等. 5G+:5G如何改變社會, 中信出版社, 2019.




