http://www.kinleybaker.com

  • 當前位置:首頁 > 頻道 > 產業數據 >
  • 無數據不AI,無人工不智能

    作者簡介

    TalkingData CEO 崔曉波

          崔曉波,現任北京騰云天下科技有限公司 CEO,全面負責公司的創新發展與戰略決策。作為 TalkingData 首席執行官,他還負責確保各方面業務的有效運營,確定增長機遇,并使 TalkingData 繼續在中國移動大數據市場保持領先地位。擁有15年互聯網與企業應用從業經驗,曾任Oracle大中國區A&C技術總監,BEA亞太區電信技術中心總監,是資深移動互聯網行業專家,對移動互聯網行業發展趨勢、產品技術演進有高度的前瞻性。

    今年以來又出現了很多熱詞,不止大數據,人工智能(AI)、深度學習(deep learning)、機器學習(machine learning)、AR、VR……形色的創業團隊鯨吞了市場上相當一大部分的投資。所有這一切好像跟我們相關,但好像離商業價值又那么遠,他們之間到底跟數據有什么關系,有沒有可能給其他行業創造價值?

     

    新時代的到來

    后數據爆炸時代
     

    其實整個人類的發展歷史,就是人類不斷的嘗試去記錄以及去測量自身和世界的過程,無論從古時候人類發明算盤,發明阿拉伯數字,又到近代發明二進制計算機,好像都是這一現象的反應,但是人類對自己,包括對世界的認知好像還是那么淺。比如描述一個人的時候還是只能說這個人的性別是男是女,年齡是老是少,身高、體重等等,我們提到環境的時候還可能說今天氣溫怎么樣,濕度怎么樣等等,好像我們對世界的認知還是那么粗淺。但是人類對于數據測量自身的需求一直沒有減弱。

     

    根據TalkingData的數據統計,現在在中國,智能手機含平板電腦擁有13.05億用戶,智能手表包括這些可穿戴設備已經達到千萬級,這意味著什么?智能手機、智能設備基本上人手一部甚至多部,無處不在,無時不在。而每部智能手機平均攜帶多達16種的各種傳感器,每天產生1G數據,這不僅加強了人類感知以及數字化世界的能力,也讓數據以前所未有的速度在產生和發展。所有這一切現象,都揭示了以人為中心的世界正在加速數字化。這是一個數據爆發的時代。

     

    人工智能:“已經過了單純積累數據量的時代”
     

    移動設備已經成為人類身體的延伸。根據TalkingData的數據統計,我們每天手機使用時長將近四個小時。好像歷史上第一次有這么一件東西跟著人在一起,它甚至已經變成人體的一部分,它默默在后臺記錄著我們,不管上網,還是在現實生活中,在家中,在上班,在吃飯,在旅游,在消費,我們所有的足跡都在被默默地記錄下來。好像我們這些數據行業迎來了歷史上最好的時刻——數據爆發的時刻。

     

    但是,這已不是一個單純的積累數據量的時代,這個新的時代,對計算提出了更高的挑戰。

    第一,這些數據并不是所有的都被存儲和收集。前面提到除了攝像頭和話筒,一個手機攜帶的傳感器數量多達16個。這大量的隱形數據的采集、運算、存儲、傳輸等等領域依然存在著巨大的障礙。

     

    如何從大量的數據里面解讀人的動作,識別人的場景是更加重要的一個問題。現在的很多數據都是非結構化的情境數據,例如圖像、聲音、姿態、動作等等,需要人工智能的幫忙從中間提煉有價值的信息。所有的世界上頂尖的技術公司都在做一件事情,就是嘗試用算法用機器學習去還原人在現實生活中的動作,不管視覺、聽覺、姿態、感知還是做一些基礎的工作,現在語音識別的技術,圖象識別的技術都在大規模的發展,但是為什么當數十億大腦神經元彼此傳遞信號時,就會出現喜愛、恐懼或者憤怒的主觀感受呢?對此,我們依然一無所知。人工智能對世界的認知還停留在早期階段。

     

    “所有的前沿技術,包括人工智能,對世界的感知,還都處于早期階段。”(崔曉波)

     

    “AI的核心技術并沒有發生重大改變,現在的核心技術幾乎與多年前的一樣。昔日的技術達不到要求,不是因為設計不足,而是因為尚未具備所需的基礎和環境。”

    ——計算機科學家,Kris Hammond

     

    數據促進了人工智能的發展。AI過去與現在的最大區別是,必須的計算能力、原始數據和處理速度現在都有了,因此AI技術現在能大放異彩。目前人工智能在識別,包括在認知,產生很大進展的原因首先是數據量帶來的。谷歌在語音識別領域取得了很大的突破,但這背后的原因是谷歌建立了幾十億音頻的庫,而且用人類的智慧標注它,所以可以用算法,用人工智能找到模式,甚至可以區別口音不同。圖像也是同樣的:過去幾十年里,其實人類花了大量的時間去標注這些圖像,我們才能在圖像里面切割識別出各種各樣的物體,沒有這些人的智慧現在人工智能是達不到這樣的程度。

     

    Garbage in, Garbage out:數據的質量和完整性對于人工智能建造高效的模型至關重要

     

     

    人的智慧:AlphaGo背后的故事
     

     

    以AlphaGo人工智能為代表的AI復興體現對于世界的認知能力正在加強。在過去的幾年間,我們看到,機器學習、強大的算法、巨大的處理能力和所謂的“大數據”已經可以讓機器做一些讓人印象非常深刻的事,比如,實時語言翻譯、在復雜的城市環境中安全地開車。要知道,即使是在10年前,這些也還被認為是不可置信的。

     

    AlphaGo戰勝人類被視為AI歷史上的里程碑事件。大家看到AlphaGo戰勝了李世石,但是不知道背后的故事。我有幸作為親歷者之一(這場棋賽的解說者),看到的角度和大家不同,我看到了數據的力量。

     

    我認為,在這場比賽中,關鍵的獲勝因素有兩個:

     

    第一,要有足夠的數據支撐。AI要模擬人,它首先要知道人在面對不同事情的時候是怎么去把握的,而這種判斷和把握的能力就是出自于成千上萬的海量數據得出的結果。

     

    AlphaGo擁有一個數據庫,里面有十幾萬份人類6-9段職業棋手的對弈棋譜。Alphago從中模仿人類常見的落子方式,根據谷歌透露的數據,模仿的準確率達到了57%。也就是說,單單這一項功能,就可以使Alphago在一步的選擇上有57%的概率與人類高等級職業棋手相同。2014年,google來到中國棋院買棋譜,近兩年累計記錄的棋譜數量是過去幾百年記錄下的棋譜的總和:根據KGS(一個圍棋競技網站)統計,KGS平臺每年專業段位的對局棋譜的累積量,近三年研究的棋譜數量都接近20w。(alphago,darkforest等都用了這個網站的棋譜)。這只是一個平臺的棋譜,還有GoGoD平臺的累積大約8,5000專業段位棋譜。18w的棋譜一共有將近2500w的局面,每一個局面都可以上下左右、鏡面翻轉,這個2500w局面就能再乘以8,這個數據量已經能夠支撐深度學習。

     

    第二,要有人類的智慧。Alphago在下棋的時候“聰明”得像一個人,大量的數據提供了它“思考”的來源。但AI不是由大數據一手決定的,還有人的經驗和智慧;AI會發展成什么樣子,打個園藝的比方來說:大數據是土壤和養分,AI是植物,而人就是園丁。土壤和養分讓植物長得好,但也離不開人的修剪和培養。代表AlphaGo跟李世石坐下來對戰的那個人本身就是六段的高手,他在訓練AlphaGo時,后來我們也交流過,加入了大量的人工智慧,加入了大量的人為規則,讓它少走彎路,這些都是被人忽略的,我們過大強調AI的作用,我們覺得在目前這個時代,讓算法、讓機器代替人做判斷這個事不會發生,在目前的情況下更現實的還是要引入很多專家的智能,人的智慧,在數據科學以及數據工程不斷完善的情況下,去提高AI的水平。

     

    雖然AI應用能使一些任務變得自動化,但人類判斷全部交由算法負責這種情況幾乎不可能發生。更現實的方法是,使用數據科學和工程不斷完善并提升人類的判斷質量。當數據十分充足,依靠統計學的方法進行決策是恰當且合理的。當沒有數據或擁有的數據十分有限時,采用群體智慧和其他心理學方法能夠更好地進行決策。“智能”數據應用將把日程工作自動化,從而空出更多時間讓人類專家專注于需要他們專業判斷的工作,以及從事社會認知(social perception)和共情等非認識能力的行動。比如:保險公司也可以使用深度學習系統將估算受損汽車的成本修理費用變得自動化,讓人類保險雇員有更多時間完成更加復雜和需要更多經驗的客服。但在可以預見的未來,人類仍將是“決策過程中的一部分”。

     

    “我們過大的強調了AI的作用。在目前的情況,機器代替人作決策還不會發生。我們還需要引入專家的智慧。”(崔曉波)

     

     

    數據為本,AI為核心,人為關鍵

    這個時代叫做智能數據時代
     

    前面我們談了大數據的爆炸,人工智能的發展狀態,以及人的智慧在里面起的關鍵的作用。所有這一切隱隱約約地讓企業家們好像感覺到一個新的時代要來了,這個時代是什么?答案是,智能數據時代

     

    智能數據,不同于傳統的數據,就是添加了人工智能和人的智慧的數據,這個名詞的出現,揭示了數據、人和機器三者之間的有機聯系。這種有機聯系賦予數據更多價值,賦予數據心智。現階段的“數據”與以往的數據已經有很大不同。數據內容包含的信息量越來越大、維度越來越多,從圖像、聲音等富媒體數據,逐漸過渡到人的動作、姿態、行為軌跡,再加上地理位置、天氣、社會群體行為等等,按照以往處理數據的思路已經難以適應“數據”本身發展的速度。一個融合人類智慧、人工智能以及海量非結構化數據的智能數據時代已經來臨。因此,“發展多年的‘大數據’即將進入‘下半場’。”

     

    這個時代最重要的三個要素是:數據、AI,人的智慧。這三者之間的關系又是什么?如果舉個例子的話,做個比喻,數據相當于什么?人的血液。人工智能相當于什么?人的心臟。心臟需要靠血液供給,但同時它還會根據人的心跳,把血液再輸回給人體,從此往復循環,形成一個正循環。人的智慧是什么,大腦,是不可替代的。所有這一切構成了智能時代的三個要素。

     

    數據時代的顛覆和挑戰
     

    未來,數據行業本身將會面臨進一步的洗牌,能夠更好的應用異構的、情境化的數據,能夠開發更加智能的算法,能夠開源撬動生態價值流動的企業能夠獲取更大的競爭優勢,也就是說,能夠駕馭智能數據的企業得天下,all in or all out(不接受并駕馭智能數據的企業將逐漸被淘汰)。這樣,競爭優勢會內生疊加,進一步幫助企業吸引更多的人才和技術;人才和技術持續集中,根據數據分布的特點,中小型企業將被迫向垂直數據應用領域轉型,并穩定在垂直領域,但同時又不得不依托于大型生態的數據連接能力,最終呈現一種“一大多小”兩極分化、“小依附大”的競爭態勢。

     

    對于其他行業來說,企業將面臨四個方面的挑戰。

    1)業務數據化:所有業務都以數據的形式進行流轉。

    2)數據資產化:在很多企業,業務與運營沒有形成閉環;數據沒有資產化,只是先儲存起來而已。智能數據時代,會倒過來,業務可能不賺錢,但數據將體現出商業價值。

    3)應用場景化:企業與用戶的每一個交互點,都具有改變用戶認知的功能,因此場景化將成為營銷的核心。

    4)技術開源化。智能數據首先會顛覆的,是比較依賴于快速決策的高頻交易行業,例如高新技術企業,零售,廣告,……還有為這些行業提供決策支撐服務的專業企業,代理商、咨詢服務商等。緊接著,傳統行業的各個環節也會受到極大的顛覆,會出現新的銷售渠道和獲客手段,極大的更新行業平均效率。

     

    數據數據時代的新商業范式:新貝葉斯定律
     

    智能數據時代,數據離所有的企業的商業價值都很近。在跟客戶交流的過程中,不管金融、地產、零售,基本上客戶只問一個問題,好像大數據這個系統投入很大,到底有沒有價值,到底怎么產生商業價值,商業價值又往哪個方向投,這個問題的終極答案會在這個時代得到揭示。一個新的商業范式誕生了,TalkingData稱之為“新貝葉斯定律 ”。

     

    貝葉斯定律是大數據時代最重要的定律,無處不在,所有的機器學習算法、圖象識別、語音識別,所有的一切統計方程式后面都是這個定律在起作用,大數據滿足了修正到最接近現實世界的基礎條件——數據量的積累,在此基礎上,與傳統統計學不同的是,貝葉斯定律集合了人的智慧,在決策的過程中,我們能夠不斷的修正,能夠更快的做出盡可能正確的決策。舉個例子:比如說炮兵瞄準的時候,一般會先會根據他自己的經驗、距離、風速等等預估一個方向打一炮,然后馬上根據炮的落點修正,這樣三到五次就可以命中目標了,這種瞄準的方法就是貝葉斯定律,強調的是首先靠人的智慧,在沒有那么多數據、統計池、大數據的情況下怎么辦:先看人的智慧去確定一種方案,做一個決定,后續不斷的通過吸收數據來調整我這個方案;數據量越大最后越能得到一個接近現實的結果。

     

    可以看到,貝葉斯定律所強調的跟TalkingData提出智能數據時代的三個要素不謀而合:人基于數據去訓練AI,能得到一個非常有價值的東西。在智能數據時代,企業的商業價值會和基于數據的人工智能的發展以及不斷提高的基于數據人的智慧,呈正相關關系。總結來說,數據本沒有意義,AI本沒有智慧,是人,讓其有了意義,有了智慧;無數據不AI,無人工不智能

    鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

    老湿机在线网站观看