資訊
頻道
當(dāng)前位置:首頁(yè) > 醫(yī)療器械資訊 > 行業(yè)資訊 > 只以盈利為目的的醫(yī)療大數(shù)據(jù)分析就是“耍流氓”

只以盈利為目的的醫(yī)療大數(shù)據(jù)分析就是“耍流氓”

文章來(lái)源:中國(guó)互聯(lián)網(wǎng)數(shù)據(jù)資訊中心發(fā)布日期:2014-07-25瀏覽次數(shù):17136

        “大數(shù)據(jù)”是當(dāng)下一個(gè)如火如荼的話題。大數(shù)據(jù)的確具有其整體性?xún)?yōu)勢(shì)——海量信息,全面而系統(tǒng),其價(jià)值和作用有目共睹,不再贅述。 
        但事物總是“一分為二、對(duì)立統(tǒng)一”的,大數(shù)據(jù)因其規(guī)模“龐大”,數(shù)據(jù)散亂,雜波干擾嚴(yán)重,從信度和效度的專(zhuān)業(yè)層面來(lái)講,更是良莠不齊。尤其在這個(gè)霧里看花、真假難辨的年代,對(duì)各個(gè)行業(yè)的大數(shù)據(jù)分析我們更應(yīng)該擦亮雙眼,謹(jǐn)慎擇之。而在移動(dòng)醫(yī)療行業(yè),Dr.2認(rèn)為:關(guān)于本行業(yè)的許多大數(shù)據(jù)研究,很大一部分都是偽命題,大批以大數(shù)據(jù)分析結(jié)尾來(lái)論證其商業(yè)模式的企業(yè),大部分都在耍流氓,他們不過(guò)是在欺騙投資人,欺騙員工,欺騙自己而已,甚至很多從業(yè)者以所謂的大數(shù)據(jù)分析,走上了欺騙客戶(hù),小題大做,危言聳聽(tīng),虛言恫嚇的傳銷(xiāo)之路。 
        這是因?yàn)槟壳耙苿?dòng)醫(yī)療大數(shù)據(jù)分析的規(guī)范性還不夠透明,其雜亂性會(huì)影響所有從業(yè)人員的判斷。面對(duì)如此多的數(shù)據(jù),我們不禁要問(wèn):數(shù)據(jù)是怎么來(lái)的?從哪兒來(lái)的?有沒(méi)有收集數(shù)據(jù)的統(tǒng)一標(biāo)準(zhǔn)?為什么會(huì)收集這些數(shù)據(jù)?從實(shí)踐的觀點(diǎn)來(lái)看,一個(gè)好的移動(dòng)醫(yī)療大數(shù)據(jù)項(xiàng)目應(yīng)該具有實(shí)用性,而實(shí)用性主要體現(xiàn)在大數(shù)據(jù)的經(jīng)濟(jì)性、便利性和可解釋性。 
        一、經(jīng)濟(jì)性。 
        此處的經(jīng)濟(jì)性從我們行業(yè)的實(shí)踐性來(lái)說(shuō),主要指其成本上的可操作性。因?yàn)橐苿?dòng)醫(yī)療大數(shù)據(jù)的獲取成本特別高,如果你不是騙子去造假的話,所以各位同道不要盲目的輕信、宣傳大數(shù)據(jù)的商業(yè)價(jià)值,我絲毫不懷疑其巨大的前景,不過(guò)對(duì)小企業(yè)來(lái)說(shuō),沒(méi)有緩沖能力,搞好了固然很好,但是十有九不成,一賠就上西天,傷不起啊!

        關(guān)于其成本與價(jià)值問(wèn)題,Dr.2會(huì)在以后的連載中詳述,在此,我們主要關(guān)注移動(dòng)大數(shù)據(jù)的目的性。我認(rèn)為:如果以自己盈利作為目的,那么他的大數(shù)據(jù)分析特別容易耍流氓。也就是說(shuō),如果收集數(shù)據(jù)的機(jī)構(gòu)能夠通過(guò)修改、扭曲數(shù)據(jù)獲得經(jīng)濟(jì)利益,那么這些數(shù)據(jù)就會(huì)因被扭曲而失真,那么我們要一堆經(jīng)過(guò)人為修改、扭曲過(guò)的信息干什么呢?

        舉個(gè)例子,比如某醫(yī)院委托某第三方公司做一份醫(yī)患關(guān)系滿意度的調(diào)查,此調(diào)查的目的是想要掛在醫(yī)院大廳或者刊登發(fā)表在媒體上給消費(fèi)者看的,也就是為了做宣傳的,那么這份調(diào)查在一開(kāi)始就具有了功利性。如此,該第三方公司用各種大數(shù)據(jù)研究的手段和方法去網(wǎng)絡(luò)調(diào)查,廣泛回訪,從社交媒體上搜索綜合分析,研究方法確實(shí)是真的,也可以持續(xù)跟蹤非常長(zhǎng)的時(shí)間,去盡量搜集完整的數(shù)據(jù)(注意,普及一個(gè)概念,大數(shù)據(jù)不是指大量數(shù)據(jù),而是指對(duì)事物研究的整體的,比較全部的數(shù)據(jù)而非抽樣分析調(diào)查來(lái)進(jìn)行估算的數(shù)據(jù))。 
        但是,這樣收集來(lái)的所謂的“患者數(shù)據(jù)”,其可信度就真的讓人不敢恭維了。推廣到我們行業(yè)中,多少調(diào)查之前就已經(jīng)定了基調(diào)了?為了某藥,某血糖分析,某血壓監(jiān)測(cè)的重大意義的大數(shù)據(jù)分析報(bào)告,諸如此類(lèi)。 
        二、便利性。 
        移動(dòng)醫(yī)療大數(shù)據(jù)給我們的生活、工作帶來(lái)便利性了嗎?如果正好相反的話,那么其作用將大打折扣,因?yàn)槲覀儾皇怯盟鼇?lái)創(chuàng)造工作量和麻煩的。比如,谷歌有一個(gè)名為“谷歌流感趨勢(shì)”的工具,它通過(guò)跟蹤網(wǎng)民的搜索詞等相關(guān)數(shù)據(jù)來(lái)判斷全美地區(qū)的流感情況(比如患者會(huì)搜索“流感”兩個(gè)字)。這個(gè)工具工作的原理大致是這樣的:設(shè)計(jì)人員置入了一些關(guān)鍵詞(比如溫度計(jì)、流感癥狀、肌肉疼痛、胸悶等),只要用戶(hù)輸入這些關(guān)鍵詞,系統(tǒng)就會(huì)展開(kāi)跟蹤分析,創(chuàng)建地區(qū)流感圖表和流感地圖。 
        但是,現(xiàn)實(shí)要遠(yuǎn)比理論復(fù)雜。谷歌搜索的結(jié)果和使用者人群“自我估計(jì)”的流感發(fā)病率相關(guān),而當(dāng)研究結(jié)果公布后,由于谷歌巨大的影響力,這使報(bào)告本身就對(duì)人們正常生活和行為有了影響,不但給生活帶來(lái)了一些不便,小題大做,而且很多人在搜索的時(shí)候還會(huì)受此影響,習(xí)慣性關(guān)注或者無(wú)意性關(guān)注,造成大數(shù)據(jù)“噪聲”影響大數(shù)據(jù)本身,終導(dǎo)致大數(shù)據(jù)分析的不準(zhǔn)確。 
        所以移動(dòng)醫(yī)療大數(shù)據(jù),它囊括了太多的偶然事件、小概率事件。比如一位家庭醫(yī)生給他的患者一臺(tái)電子血壓計(jì),并囑咐其要每天測(cè)量并將數(shù)據(jù)記錄下來(lái)。而我們每一個(gè)人都是處在不同的環(huán)境氛圍中的。血壓肯定也會(huì)因情境而異。比如患者今天開(kāi)了個(gè)生日party,昨天買(mǎi)彩票中了500萬(wàn)大獎(jiǎng)——人逢喜事精神爽啊,明天晚上加個(gè)班,后天看了一部悲劇電影,血壓肯定是會(huì)有變化的,因?yàn)檫@是人體自我調(diào)節(jié)機(jī)制在起作用。而這對(duì)于醫(yī)學(xué)上的動(dòng)態(tài)監(jiān)測(cè)沒(méi)有什么參考意義,還因?yàn)獒t(yī)生不可能詳盡的知曉患者日常生活中的各種情況。這里的血壓升高被偷換了概念,而且條件也不成立。 
        從這個(gè)角度來(lái)講,大數(shù)據(jù)非但沒(méi)有給我們帶來(lái)便利性,還可能會(huì)誤導(dǎo)、干擾我們的判斷,從而影響我們的決策。企業(yè)或者投資人是做什么的?他們做的不僅僅是事,重要的是做決策。沒(méi)什么比一個(gè)半生不熟的大數(shù)據(jù)項(xiàng)目更讓人悲劇了。 
        三、可解釋性。 
        其實(shí)在敘述第二條便利性的時(shí)候已經(jīng)涉及到了這一點(diǎn)??山忉屝裕@一點(diǎn)很重要。因?yàn)槊鎸?duì)大數(shù)據(jù)的使用者,或者面對(duì)我們普通大眾,它需要解釋很多問(wèn)題。 
       

 

         (1)原始數(shù)據(jù)有沒(méi)有公布?若否,為什么不公布?

        現(xiàn)在大部分人面對(duì)的所謂“大數(shù)據(jù)”基本上都是經(jīng)過(guò)整合、分析、處理后的信息,而很少有人能接觸到真正的原始數(shù)據(jù)。任何缺少原始數(shù)據(jù)的研究結(jié)果很可能都是問(wèn)題的。因?yàn)槲覀儾磺宄谶@個(gè)信息整合處理的過(guò)程當(dāng)中,信息都被做了哪些加工。這個(gè)過(guò)程相當(dāng)不透明。就像水果經(jīng)過(guò)加工成了果汁,我們無(wú)從知道這個(gè)水果在加工前是爛水果還是新鮮水果。同樣,我們所面對(duì)的現(xiàn)成的“大數(shù)據(jù)”的前身——“原始數(shù)據(jù)”,被加工前到底是不相關(guān)的垃圾數(shù)據(jù)還是相關(guān)的目標(biāo)數(shù)據(jù),我們一無(wú)所知。如果不公布原始數(shù)據(jù),這就需要一個(gè)合理的解釋。 
        原始數(shù)據(jù)不公布很可能是因?yàn)橐韵碌哪骋粋€(gè)原因:

        1. 原始數(shù)據(jù)實(shí)際上沒(méi)有證明目標(biāo)結(jié)論;

        2. 原始數(shù)據(jù)會(huì)顯示出該研究使用了奇怪的定義或者有偏見(jiàn)的問(wèn)題;

        3. 原始數(shù)據(jù)可能根本不存在,因?yàn)檠芯拷Y(jié)果很可能是某人或某機(jī)構(gòu)有意圖的捏造。就像我前文中所說(shuō)的醫(yī)院市調(diào)的例子,醫(yī)院想獲得對(duì)其有利的市調(diào)結(jié)果,那么這個(gè)結(jié)果很有可能就是人為干預(yù)的。 
        要求公布原始數(shù)據(jù),并不是說(shuō)我們一定會(huì)去對(duì)其進(jìn)行研究分析,而是我們要知道原始數(shù)據(jù)是長(zhǎng)什么樣的,是否是雜亂無(wú)章的,是否囊括了很多小概率事件的數(shù)據(jù),是否具有相關(guān)性和因果性。 
        (2)是否偷換了正常的概念?

        其實(shí)這一點(diǎn)有點(diǎn)像第二條中的“偷換概念”。還是醫(yī)院市調(diào)的例子,假如醫(yī)院所委托的市調(diào)公司將“醫(yī)患關(guān)系滿意度”定義為“疾病終被治愈”,毋庸質(zhì)疑,肯定會(huì)產(chǎn)生誤導(dǎo)。如果一份調(diào)查問(wèn)卷中對(duì)于某個(gè)詞的定義超出了其普遍接受的含義,那么和這個(gè)詞相關(guān)的所有數(shù)據(jù)就基本上都是虛假的。 
        (3)被調(diào)查對(duì)象是否本身就沒(méi)有代表性?

        去年央視有個(gè)很火的街頭采訪——“你幸福嗎?”假如你去問(wèn)黨內(nèi)人士,很難會(huì)得到否定答案,而且原因都大同小異,你懂的吧;假如去問(wèn)一群小孩,你肯定會(huì)得到很多“五彩繽紛”的答案。去問(wèn)問(wèn)不同職業(yè)的人,去問(wèn)問(wèn)不同年齡的人……所以,如果一項(xiàng)調(diào)查只詢(xún)問(wèn)那些肯定會(huì)提供特定答案的人,那么收集到的數(shù)據(jù)就會(huì)反應(yīng)出此種特定的意志。目標(biāo)人群不同,得到的結(jié)論肯定也不盡相同。大數(shù)據(jù)收集也是如此。 
        (4)結(jié)果是否計(jì)算了平均值?

        在一個(gè)房間里有一名億萬(wàn)富翁和九百九十九個(gè)身無(wú)分文的乞丐,他們的平均財(cái)富是一百萬(wàn)美元。那么這個(gè)“一百萬(wàn)美元”的平均數(shù)對(duì)那些乞丐來(lái)說(shuō)是沒(méi)有任何意義的。如果用“平均”的概念來(lái)分析數(shù)據(jù)的話,那么我們所得到的結(jié)論可能會(huì)非?;闹?,因?yàn)樵谶@些數(shù)據(jù)中存在著極大值和極小值,有關(guān)于極大值與極小值的概念我們?cè)谥蟮倪B載中會(huì)為大家詳細(xì)論述。 
        有效的數(shù)據(jù)應(yīng)該使用“中位數(shù)”,中位數(shù)是指將統(tǒng)計(jì)總體當(dāng)中的各個(gè)變量值按大小順序排列起來(lái),形成一個(gè)數(shù)列,處于變量數(shù)列中間位置的變量值就稱(chēng)為中位數(shù)。在上面那個(gè)例子中,財(cái)富的中位數(shù)是零。 
        (5)是否先入為主地假定了因果關(guān)系?

        在大數(shù)據(jù)中會(huì)經(jīng)常出現(xiàn)一種情況,有兩個(gè)因素,在數(shù)據(jù)互相比較的時(shí)候,看起來(lái)會(huì)有些關(guān)系,但是其實(shí)并不是互為因果。即使兩組數(shù)據(jù)看起來(lái)節(jié)奏一致,你也不知道這種一致性是否一定有意義,除非你很肯定地知道一組數(shù)據(jù)的因會(huì)導(dǎo)致另一組數(shù)據(jù)的果。所以相關(guān)性并不一定是因果關(guān)系,也有可能是因?yàn)榈谌蛩氐挠绊憽K^的相關(guān)性,往往是要通過(guò)相關(guān)精確的數(shù)值來(lái)驗(yàn)證的。 
        1. 有些相關(guān)是機(jī)緣巧合產(chǎn)生。能證明存在,但是不能證明是必然相關(guān)的。 
        2. 數(shù)據(jù)之間的聯(lián)合變動(dòng),表示兩者確實(shí)是有關(guān)聯(lián),但是無(wú)法確定何者為因,何者為果。
有的時(shí)候所有變量相互之間,本身是沒(méi)有影響的,但是我們實(shí)際計(jì)算下來(lái)會(huì)發(fā)現(xiàn)他們有顯著的相關(guān)性?;蛘邠Q個(gè)角度說(shuō),還有一種情況就是數(shù)據(jù)都是真實(shí)的,但是不真實(shí)的是根據(jù)這些數(shù)據(jù)推測(cè)出的未經(jīng)證實(shí)的結(jié)論。 
        舉個(gè)比較極端的例子,我家門(mén)口樹(shù)上有個(gè)鳥(niǎo)巢,我經(jīng)過(guò)N多年的觀察發(fā)現(xiàn),國(guó)家財(cái)政赤字的時(shí)候,樹(shù)上的鳥(niǎo)比較多,而財(cái)政有盈余的年份,樹(shù)上的鳥(niǎo)比較少,或者這個(gè)地區(qū)的升學(xué)率和千里之外另外一個(gè)地區(qū)的蘋(píng)果產(chǎn)量經(jīng)大數(shù)據(jù)分析,存在某種關(guān)聯(lián)一樣,這是否把“蝴蝶效應(yīng)”無(wú)限放大了?這就是牛頭跟馬嘴互相類(lèi)比和關(guān)聯(lián)。 
        搜集這樣的資料,卻把它說(shuō)成是那樣一回事,一般的做法是將看上去極像,而完全不同的兩件事混淆在一起。所以,即使大數(shù)據(jù)分析得出有99%的可能性是這樣那樣的原因,那又怎樣?想要用數(shù)據(jù)說(shuō)明問(wèn)題,要看逆否命題是否站的住腳。 
        基于以上分析,大數(shù)據(jù)是否真實(shí)可靠,是否如業(yè)界所說(shuō)具有高價(jià)值高回報(bào)率,是否應(yīng)該大范圍的用來(lái)輔助我們的決策,這些問(wèn)題都仍值得商榷。大數(shù)據(jù)的發(fā)展還不成熟,移動(dòng)醫(yī)療的創(chuàng)業(yè)團(tuán)隊(duì)在進(jìn)行大數(shù)據(jù)項(xiàng)目之前一定要想清楚啊,千萬(wàn)不要盲目跟風(fēng)。