在“2014西湖品學(xué)”大數(shù)據(jù)峰會(huì)上,中科院大學(xué)管理學(xué)院教授呂本富發(fā)表了《大數(shù)據(jù)分析的經(jīng)濟(jì)價(jià)值》的演講。呂本富表示,如果大數(shù)據(jù)并不是年輕人談性,就要提一個(gè)問題是“價(jià)值在哪里”。價(jià)值并不是忽悠,要從企業(yè)競爭角度創(chuàng)造了什么價(jià)值,所以價(jià)值在哪里,應(yīng)該是所有大數(shù)據(jù)做經(jīng)濟(jì)分析中最重要的關(guān)鍵詞,在哪里存活。
以下為呂本富的演講整理:
經(jīng)常有人引用這一段話:“大數(shù)據(jù)就是年輕人談性,我說你做過,你說我做過,大家誰都沒有做過”。很多傳統(tǒng)企業(yè)都是這么說,如果大數(shù)據(jù)并不是年輕人談性,就要提一個(gè)問題是“價(jià)值在哪里”。價(jià)值并不是忽悠,要從企業(yè)競爭角度創(chuàng)造了什么價(jià)值,所以價(jià)值在哪里,應(yīng)該是所有大數(shù)據(jù)做經(jīng)濟(jì)分析中最重要的關(guān)鍵詞,在哪里存活,在這里就是價(jià)值。
應(yīng)用需求驅(qū)動(dòng)商業(yè)模式,商業(yè)模式帶來里經(jīng)濟(jì)價(jià)值,這就是大數(shù)據(jù)的立足點(diǎn)?;ヂ?lián)網(wǎng)承載了太多的信息和信號,大眾的情緒、消費(fèi)者喜好、市場潮流、不同人群的關(guān)注點(diǎn)等等。
從商業(yè)模式的角度看,把它分為三類:第一類是圈定用戶和針對營銷,就是誰是我的客戶、誰不是;第二類,用戶的關(guān)聯(lián)分析,在用戶群當(dāng)中是老的、少的,他們有什么關(guān)系;第三類,完全個(gè)性化定制或者個(gè)性化分析,就是先確定大圈子,然后圈子中分類,然后個(gè)性化。
應(yīng)該說,不同情況下有不同的價(jià)值,不管對哪個(gè)學(xué)派或者實(shí)踐都認(rèn)為管理的本質(zhì)是決策,而決策最重要的本質(zhì)是受信息不對稱的影響,信息越對稱決策價(jià)值越大,如果可以通過大數(shù)據(jù)的挖掘分析可以作出決策,最根本是能不能有助于決策,這是核心。由于決策之后會(huì)使得企業(yè)的競爭規(guī)則發(fā)生變化,我們知道大部分學(xué)過MBA的同學(xué)都知道邁克爾波特說過競爭的價(jià)值取決于經(jīng)濟(jì)價(jià)值。如果創(chuàng)新會(huì)帶來一些競爭優(yōu)勢,但是容易被別人山寨,我們知道我們山寨能力很強(qiáng),我的成功可以復(fù)制,我的復(fù)制可以成功,什么才是持久的能力呢?低成本高效率,過去認(rèn)為是戰(zhàn)術(shù)性,過去認(rèn)為低成本高效率是戰(zhàn)術(shù)型,現(xiàn)在看來是一個(gè)國家和企業(yè)的長期競爭,就是差異化、低成本,但如果不和運(yùn)營效率放在一起就不是長久的競爭力。低成本高效率就是大數(shù)據(jù)的彈性商業(yè)過程,各個(gè)過程無縫隙、無摩擦的對接。
首先生產(chǎn)體系是對接,第二,、各個(gè)體系摩擦成本降到最低,所以我們把數(shù)據(jù)價(jià)值分為三類:第一,數(shù)據(jù)驅(qū)動(dòng)的決策;第二數(shù)據(jù)驅(qū)動(dòng)的流程;第三數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品。
第一個(gè)就是提高預(yù)測概率,提高決策成功率。今天上午有一個(gè)阿里金融的說計(jì)劃經(jīng)濟(jì)比市場經(jīng)濟(jì)優(yōu)越,因?yàn)榭梢杂写髷?shù)據(jù)、定制、預(yù)售,其實(shí)就是第一個(gè)說的,數(shù)據(jù)驅(qū)動(dòng)的決策可以提高預(yù)測的概率。講一件專業(yè)的事情,不知道各位是否知道“最大最小定制”。什么意思呢?傳統(tǒng)雙方博弈的時(shí)候,比如說你是踢球員,我和守門員,我們兩方的博弈就是我們兩方的概率應(yīng)該是對等。大數(shù)據(jù)就是最大最小定制,我要對你的細(xì)致了解,因?yàn)槲也皇遣┺男再|(zhì)和概率性質(zhì),所以決策可以提高預(yù)測概率。
第二個(gè)是數(shù)據(jù)驅(qū)動(dòng)流程,就像今天上午老師說的我們要形成閉環(huán)營銷的成功率,就是我劃了圈子,所有客戶都在圈子里,所有營銷對折他來,還要和漏斗轉(zhuǎn)化結(jié)合,這就是數(shù)據(jù)驅(qū)動(dòng)流程。
第三個(gè)產(chǎn)品是迭代的創(chuàng)新,創(chuàng)新有顛覆性創(chuàng)新和迭代的創(chuàng)新,經(jīng)常有人說把誰誰顛覆了,我不喜歡聽這個(gè)詞,我喜歡迭代,就是小步快跑,大數(shù)據(jù)一般指導(dǎo)的是小步快跑的迭代創(chuàng)新,現(xiàn)在微信為什么很牛,因?yàn)榈軓?qiáng),就是今天改一個(gè)功能明天改一個(gè)功能,這三類會(huì)帶來價(jià)值。
針對這三類,因?yàn)榇髷?shù)據(jù)最重要的是決策和優(yōu)化,對企業(yè)來說決策和優(yōu)化可以代替效率,可以把迭代和優(yōu)化分為三個(gè)層級:第一誰在圈子內(nèi),第二屬于圈子內(nèi)的哪個(gè)族群,第三個(gè)是圈子消耗。廣告界有一句話名言叫做“我知道我的廣告費(fèi)有50%恩浪費(fèi)了,但不知道哪一半”。現(xiàn)在就是要通過大數(shù)據(jù)排除非相關(guān)人員,確定圈子和利益相關(guān)者,這是有效影響,其他沒有有效影響的基本上和我沒有關(guān)系。不知道在座有沒有看過郭敬明的《小時(shí)代》,我看不懂,就寫了罵他,但他照樣賣3個(gè)億,我就不是他的客戶,不是他的圈子?,F(xiàn)在不要全國人民擁護(hù)我,只要圈子擁護(hù)我就發(fā)財(cái)了。然后是不管是哪一類數(shù)據(jù),圈定了就有價(jià)值。
第一個(gè)層級是針對一個(gè)具體的應(yīng)用,依據(jù)性別、收入、地域、年齡等特點(diǎn),簽訂相近的人群。比如在電子商務(wù)網(wǎng)站內(nèi),預(yù)測什么地方的人買東西最瘋狂或是預(yù)測什么型號手機(jī)最好賣,麥當(dāng)勞、肯德基以及蘋果公司器件專賣店的位置精準(zhǔn)選址,針對這個(gè)全體如何進(jìn)一步打磨廣告、市場營銷等等,就可以優(yōu)化定價(jià)策略和產(chǎn)品線。
第二個(gè)層級就是通常說的在確定圈子以后,需要把商品和人群分為不同的族群的通過族群和消費(fèi)者當(dāng)中確定消費(fèi)人群,購物籃是最常見的大數(shù)據(jù)分析技術(shù),過去就是打印單上家庭主婦放在什么地方一塊兒買了,比如說塔吉特針對懷孕的婦女,做了一個(gè)“懷孕指數(shù)”,就像中國有一句話叫酸兒辣女,通過懷孕指數(shù)可以知道預(yù)產(chǎn)期。我們經(jīng)常會(huì)說通過過程數(shù)據(jù)和結(jié)果數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析。并不是關(guān)聯(lián)性分析很容易,其實(shí)也有難點(diǎn)。比如說對書、手機(jī)、家電的Hard Line的產(chǎn)品可以認(rèn)為是標(biāo)品,通過時(shí)間序列預(yù)測是比較準(zhǔn)的,但對服裝、裝飾等是軟性商品,無法通過時(shí)間預(yù)測,因?yàn)檫@類東西受到干擾東西太多,比如說顏色、合不合身,還有朋友的意見,而且買得人多了就不買了,所以這樣軟性產(chǎn)品的預(yù)測非常困難,比如說從術(shù)語來說是多維變量,就比較難。
第三個(gè)層級確定圈子個(gè)體的特征,由此提供個(gè)性化的定制、產(chǎn)品和服務(wù),比如說有一個(gè)電影叫《點(diǎn)石成金》,里面就是專門算哪一個(gè)球手,比如說我這個(gè)球隊(duì)進(jìn)攻最弱,就把進(jìn)攻最強(qiáng)的球員買過來。比如說我有一個(gè)芯片安裝在汽車上就可以測試駕駛習(xí)慣,拐彎是不是很急,剎車是不是很穩(wěn),確定每年效率稅率,過去中國人完全說看客下菜碟,從消費(fèi)者來說為每一個(gè)人定價(jià)才是最好的,基本上所有的生產(chǎn)者剩余都拿到自己的手里,過去沒有這個(gè)條件,現(xiàn)在大數(shù)據(jù)就可以進(jìn)行個(gè)性化定價(jià)。所以航空公司和快遞公司可以提供體貼入微的服務(wù),沃爾瑪利用數(shù)據(jù)分析提供最優(yōu)的價(jià)值。確定圈子、確定關(guān)系、確定定價(jià)以前就有,只是通過大數(shù)據(jù)確定價(jià)值,帶來新的增量。
既然數(shù)據(jù)的科學(xué),大家覺得大數(shù)據(jù)完全是忽悠的概念,經(jīng)過最近實(shí)踐探討,我們覺得它確實(shí)和原來的統(tǒng)計(jì)不一樣,但是和原來數(shù)據(jù)挖掘的方法論不一樣,它確實(shí)有點(diǎn)新的問題,問題就是解決任何問題都有一個(gè)叫方法,在過去問題多樣性手段是豐富的,不同的行業(yè)特性、不同的企業(yè)規(guī)模、不同的成長階段產(chǎn)生了很多共同特點(diǎn),又有個(gè)性鮮明的問題。在解決管理學(xué)的問題,工具非常多,過去有人統(tǒng)計(jì)世界上有200多種研究的方法。這些盲人都要和數(shù)據(jù)結(jié)合在一起,正好演講開始就講了氣象,其實(shí)作1913年一個(gè)叫理查森就找到了空氣動(dòng)力學(xué)方程,他為了幫助中國打一站,根據(jù)他的方程可以預(yù)測出第二天的天氣,問題是準(zhǔn)備數(shù)據(jù)需要6個(gè)星期,所以一直到一戰(zhàn)結(jié)束的時(shí)候理查森的數(shù)據(jù)沒有準(zhǔn)確過。一直到20世紀(jì),現(xiàn)在對過去天氣的統(tǒng)計(jì)可以精確到5%,剛才演講者說可以達(dá)到85%了,所以我們檢測的時(shí)候數(shù)據(jù)還是那個(gè)數(shù)據(jù),但方法不一樣了。
所以在大數(shù)據(jù)背景下,方向不一樣了。問題從預(yù)測、選擇、優(yōu)化、仿真重點(diǎn)轉(zhuǎn)向了關(guān)聯(lián)和決策,現(xiàn)在最重要找關(guān)聯(lián)關(guān)系能不能決策變成問題最重要的方式了,其實(shí)這也是中國人所擅長的,我原來做大數(shù)據(jù)演講的時(shí)候,有人說大數(shù)據(jù)西方怎么好,我就告訴他也不是這樣的,中國人搞中醫(yī)不就是大數(shù)據(jù)嗎?中醫(yī)只管關(guān)聯(lián)不管過程的,按摩好了不管中間的機(jī)理,但是那個(gè)藥吃死多少人不知道,中醫(yī)就是大數(shù)據(jù),只管相關(guān)關(guān)系,不管過程。數(shù)據(jù)就是從小樣本轉(zhuǎn)減模型大數(shù)據(jù)的研究范式,所以對數(shù)據(jù)結(jié)構(gòu)的深入分析將會(huì)成為重點(diǎn)。
數(shù)據(jù)有些什么問題呢?
我們經(jīng)常在做數(shù)據(jù)分析的時(shí)候發(fā)現(xiàn)兩個(gè)相關(guān),就是高頻數(shù)據(jù)和低頻數(shù)據(jù)需要統(tǒng)一。比如說淘寶的交易數(shù)據(jù)是每秒、每個(gè)小時(shí)、每日,高頻數(shù)據(jù)的研究是對時(shí)間尺度極小的,低頻數(shù)據(jù)的研究是時(shí)間尺度極大的,經(jīng)濟(jì)危機(jī)是三十年一個(gè)循環(huán)就是很大的數(shù)據(jù)周期,所以高頻數(shù)據(jù)和低頻數(shù)據(jù)是怎么,流感傳播是以一個(gè)星期,對接不好了就會(huì)出問題。
還有高階數(shù)據(jù)和低階數(shù)據(jù),因?yàn)槲覀冊谏唐奉A(yù)測上很多,過去不僅取決于過去的財(cái)富量還取決于當(dāng)前的財(cái)富,如果把財(cái)富看成Y,那么財(cái)富的一階導(dǎo)就是當(dāng)期的收入,財(cái)富的二階導(dǎo)就是拐點(diǎn),就是未來的收入,所以決定消費(fèi)者的表征就是C=C(y,y’,y’’)所以經(jīng)濟(jì)系統(tǒng)當(dāng)中引入高階變相和低階變量,即未來變量和滯后變量,都非常重要。過去小數(shù)據(jù)沒有這樣的條件,小數(shù)據(jù)都不知道哪個(gè)是未來哪個(gè)是當(dāng)期,大數(shù)據(jù)可以找出。
還有微觀變量,我們和阿里做消費(fèi)者信息指數(shù)的時(shí)候發(fā)現(xiàn),如果把全網(wǎng)加起來做指數(shù)非常難,因?yàn)轭惸坷鲜亲儎?dòng)。一般來說,熱力學(xué)類型的數(shù)據(jù),我們學(xué)物理都知道,熱力學(xué)類型的數(shù)據(jù)都是宏觀數(shù)據(jù),比如說壓氣等等,都是事物趨勢和可能。動(dòng)力學(xué)類型的微觀數(shù)據(jù),比如說速率、類目等,反應(yīng)是一個(gè)事物的實(shí)現(xiàn)性,這是微觀數(shù)據(jù)。比如說我們和阿里做消費(fèi)者信息指數(shù)的時(shí)候一定不能做微觀數(shù)據(jù)。動(dòng)力學(xué)和數(shù)據(jù)和熱力學(xué)不能混同,如果混同就會(huì)有問題,因?yàn)轭惸坷鲜钦{(diào)整。
第四個(gè)是高維數(shù)據(jù)和變維數(shù)據(jù)的問題。高維數(shù)據(jù)包括三種,比如篩因變量和高維的,即一個(gè)變量可以影響很多變量,第二個(gè)是自變量是高維向量,影響一個(gè)變量變動(dòng)的因子有很多,第三個(gè)是因變量和自變量都是高維的向量。當(dāng)因變量和自變量都是高維的時(shí)候,現(xiàn)在有人說炒股有27000多個(gè)變量,所以很多人搞不清楚。這個(gè)要做相關(guān)性分析怎么做呢?多維變量和多維變量的工具不是很多,所以我跟我們一個(gè)數(shù)據(jù)老師說你做一個(gè)這樣的工具將來揚(yáng)名立萬了。在學(xué)科交界處,不但存在高維數(shù)據(jù),還存在變維數(shù)據(jù)。不要認(rèn)為這很虛,比如說這類人群對某一類服裝的銷售就是多維和多維變量的問題,所以現(xiàn)在為什么叫軟線產(chǎn)品,多維變量的關(guān)系很難理解,而且還有變維,就是有一個(gè)緯度影響不是很大。而且交易數(shù)據(jù)不僅是時(shí)間序列,而且和政治、自然、人際、情緒都有關(guān)系。其實(shí)數(shù)據(jù)除了剛才說的以外,還有很多,我們在進(jìn)行大數(shù)據(jù)分析的時(shí)候,黑天鵝事件和異常值分析等等,比如說異常值分析,在過去統(tǒng)計(jì)分析中異常值就舍棄了,但大數(shù)據(jù)異常值很多,異常值在過去挖掘當(dāng)中就很少,現(xiàn)在做大數(shù)據(jù)很多。
我只講了四個(gè),大數(shù)據(jù)分析當(dāng)中可能遇到的大概有十類問題。今天時(shí)間有限,就不說那么多了,謝謝大家!
相關(guān)閱讀