大數據時代經典語錄
《大數據時代》是國外大數據研究的先河之作,本書作者維克托邁爾舍恩伯格被譽為“大數據商業應用第一人”,下面小編為大家帶來大數據時代經典語錄,供大家閱讀!
正文:
第一章:樣本 =全體
統計學家證明,采樣分析的精確性隨著采樣隨機性的增加而大幅度提高,但與樣本數量的增加關系不大。隨機采樣取得了巨大的成功,但是他的成功利亞與采樣的絕對隨機性,實現采樣的隨機性非常困難,一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。 搜集的數據越來越多,分析和預測結果就會越來越準確,并發現一些細節和微乎其微的重要問題。
有些情況下,異常值才是重要的信息,大數據的處理方法就不會錯過這個異常值。商務是即時的,因此數據分析也應該是即時的。 《魔鬼經濟學》
大數據是指不用隨機分析法這樣的捷徑,而是通過采用所有數據的方法。數據量不一定很大,但需要全部,包含了所有的信息。
Lytro相機記錄整個光場的信息,搜集了所有的數據,拍攝完之后再對焦,而且有“可循環利用性”。 《爆發》
第二章:混雜性。
只有 5%的數據是結構化的,可以適用于傳統數據庫,如果不接受混亂,剩下 95%的非結構化數據都無法被利用。
少量數據下運行最佳的算法,可能在大數據下可能會表現差強人意,在少量數據下表現差的算法,可能在大數據下驚呆小伙伴們。大數據的簡單算法比小數據的復雜算法更有效,混雜是關鍵。
谷歌翻譯之所以好,除了數據量龐大以外,還接受了有錯誤的數據,即來自互聯網的廢棄內容。
Hadoop 超大量數據下的分布式處理,假設系統癱瘓而建立數據副本,假定數據量巨大無法移動,人們必須在本地進行數據分析。它的輸出結果不想關系型數據庫那般精確,無法用于衛星發射、開具銀行賬戶明細,但是運行卻快很多。
第三章 不是因果關系,而是相關關系
通過數據推薦產品所增加的銷售遠遠超過書評家的貢獻。計算機可能不知道為什么喜歡海明威作品的客戶會購買菲茨吉拉德的書,但是他只要通過算法統計分析,得知這個結果就可以了。
沃爾瑪領導了零售鏈的革命,讓供應商監控銷售速率、數量、以及存貨情況。這個數據庫不僅包含了每一個顧客的購物清單以及消費額,還包括購物籃中的物品、具體購買時間,甚至購買當天的天氣。
在大數據時代,通過建立在人的偏見上的關聯物檢測法已經不再可行,因為數據庫太大而且需要考慮的領域太復雜。幸運的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了。現在我們擁有如此多的數據,這么好的機器計算能力,因而不再需要人工選擇一個關聯物或者一小部分相似的數據來逐一分析了。大數據的相關關系分析法,取代了基于假想的易出錯的方法。大數據的相關關系法更準確、更快,而且不易受偏見的影響。
塔基特公司在完全不合準媽媽對話的前提下預測一個女性會在什么時候懷孕。她們會光顧以前不會去的商店,漸漸對新的品牌建立忠誠。
ups與汽車修理預測,車輛處故障后,造成延誤和在裝載的負擔,消耗大量人力物力。通過檢測汽車的每個部位,及時更換需要更換的零件,免除了可能會造成的困擾。同樣的方法也可以用在人的身上,,檢測病人的即時信息。
第四章 數據化 一切皆可量化
莫里整合美國海軍的航海日志,繪制更安全和快速的航海圖表,其他商船需要使用圖表,必須(病毒式傳染)按照要求撰寫航海日志并提交給莫里。將海上的船只都變成一個個科學站和天文臺。
數據化不是數字化,數字化只是把模擬數據變成1和0來表示。
gps全球定位系統的地理定位能精確到米,實現了自古以來無數航海家、制圖家和數學家的夢想。
airsage每天通過處理上百萬手機用戶的150億條位置信息,為超過100個美國城市提供實時交通信息。
facebook,twitter等社交網絡將我們的關系、經歷和情感進行數據化。他們不僅提供我們尋找和維持朋友、同事關系的場所,也將我們日常生活中的無形元素提取出來,轉化為可用作新用途的數據。華爾街的數學奇才們將數據傳輸到他們的算法模式當中,尋找能被有效利用的關系模式當中。社交網絡分析之父寫了一個程序,能通過監聽新微薄的發布頻率,預測一部電影的成敗,比其他傳統方法還要準確。
自我量化是一項由一群健身迷、醫學瘋子以及技術狂人發起的運動,通過測量身體每一個部位和每一件事來讓生活更美好。
第五章 價值 取之不盡用之不竭
驗證碼輸入時,一個用于證明對方是人類,另一個則是圖書掃描時計算機無法識別的模糊單詞,由網絡上大量用戶幫忙識別,節省了大量人力物力財力。
隨著購物平臺、設計平臺、金融等的出現,我們的人脈關系、想法、喜好和日常生活模式也逐漸被加入到巨大的個人信息庫中。
數據的價值不會隨著它的使用而減少,而是可以不斷被處理,個人的使用不會妨礙其他人的使用。
ibm搜集汽車電量和路線、充電站插槽、天氣等等信息,開發了復雜的預測模型,確定充電的最佳時間和地點,揭示充電站的最佳設置點。
google推出語音識別服務,借助nuance的技術,但是自己儲存語音識別記錄,依靠此記錄重新創建了一個新的語音識別系統。
搜集數據是必須確保數據具有再利用性、重組能力、可拓展能力。
有部分數據價值會隨之時間推移失去價值,比如在亞馬遜上購買一本書,數月后對這方面的書完全失去了興趣,則這個數據就失去了價值。但并非所有的數據都會貶值,大數據下鼓勵儲存所有數據并試圖挖掘其中的價值。
google擁有世界上最完整的拼寫檢查器,涵蓋世界上每一種語言,依據是每天處理的30億查詢中輸入搜索框中的錯誤拼寫。
“數據廢氣”——他是用戶在線交互的副產品,包括瀏覽了那些頁面、停留了多久、鼠標光標停留的位置、輸入了什么信息等。比如google如果發現用戶搜索之后再重復搜索,則表明搜索結果不滿意,或者發現用戶點擊后面的選項,則算法自動將后面的選項調前。是搜索引擎的自我訓練。
電子閱讀器捕捉大量關于文學喜好和閱讀人群的數據,販賣給出版社。比如閱讀一頁或一節需要多長時間,讀者是略讀還是直接放棄閱讀,是否劃線強調還是在空白處做了標記,這些信息都是出版商和作者之前不會知道的信息。
在線課程跟蹤學生的web交互來尋找最佳的.教學方法,比如多次看一個課程,說明該課程沒有講清楚。
政府是最大規模信息的原始采集者。美國、歐盟等政府已經公開了很多信息,除了一些機密的信息。flyontime.us航班時間預測,搜集交通運輸局的歷史航班延誤數據、美國聯邦航空管理局的機場信息,以及美國國家海洋和大氣管理局的以往天氣報告、國美氣象服務的實時狀態等。
給數據估值——facebook更具會計準則計算出的價值為63億美元,但市場估值卻為1040億美元,為什么差距這么大?公司賬面價值和市場價值之間的差額被記為“無形資產”。二十世紀八十年代中期,無形資產在美國上市公司市值中約占40%,而在2002年,這一數據已經增長為75%。無形資產早期包括品牌、人才和戰略這些應計入正規金融會計制度的非有形資產部分。但漸漸地,公司所持有和使用的數據也漸漸納入了無形資產的范疇。幾乎肯定數據的價值將顯示在企業的資產負載表上,成為一個新的資產類別。
催生了一大批倒賣數據的公司和機構,紛紛給數據定價,數據在不斷被轉手和利用,共同挖掘其中的價值。
第六章 角色定位
decide.com收集電子商務網站上所有的電子產品的價格數據和產品信息,告知用戶何時才是購買電子產品的最佳時機。預測準確率高達77%。他和farecast都出自奧倫之手。 大數據價值鏈三大構成:基于數據本身的公司,基于技能的公司,基于思維的公司。google和亞馬遜幸運地同時擁有這三個方面。
數據科學家是統計學家、軟件程序員、圖形設計師和作家的結合體,通過搜尋數據庫來得到新的發現。
信用卡發行商搜集消費信息。
微軟和醫院合作,分析多年來的匿名醫療記錄,發現出現壓抑的病人再次入院的概率更高,因此出院以后的醫學干預必須以解決病人的心理問題為重心,降低再入院率和醫療成本。
所謂大數據思維,是指一種意識,認為公開的數據一旦處理得當就能為千百萬人急需解決的問題提供答案。
金礦產業鏈中,金子最珍貴,因此數據的價值勝過算法技術和大數據思維。
inrix搜集全美和歐洲的汽車交通信息,并提供app給司機,供司機查詢交通情況,同時司機自身的交通數據也上傳分享了出來。他同時發現一些價值點,比如一個商場周圍車輛很多,說明商場的銷量增加。上下班高峰時期的交通狀況變好了,這就說明失業率增加了,經濟狀況變差了。
行業專家和技術專家的光芒都會被統計學家和數據分析家的出現而變暗,因為后者不受舊觀念的影響,能夠聆聽數據發出的聲音。
人們把專業人才看的比全才更重要,深度才是財富。
蘋果公司與運營商簽訂合約的時候規定,運營商提供給它大部分的有用數據。
普通消費者愿意免費提供這些數據來換取更好的服務,比如亞馬遜的圖書推薦、博客、twitter,維基百科等等。
第七章 風險
大數據時代,很多數據在搜集的時候并無意用作其他用途,而最終卻產生了很多創新性的用途。
無處不在的信息泄露,侵犯了人們的隱私,一個可能的途徑是匿名化,但是匿名化對大數據是無效的,因為搜集的數據越來越多,我們會結合越來越多不同來源的數據。 “藍色粉碎”為警員提供情報,關于哪些地方更容易發生犯罪事件,什么時候更容易帶到罪犯。幫助執法部門更好的分配資源,使犯罪發生率下降了26%。
過分依賴數據,而數據遠遠沒有我們所想的那么可靠。美國國防部長衡量越戰成果用死亡人數,但只有2%的美國將軍認為死亡人數對戰爭成果是有意義的,美國很多部門一層一層將數字夸大化。
其實,卓越的才華并不依賴于數據。喬布斯依靠的是直覺,他的第六感,記者問他做了多少市場調研時,“沒做!消費者沒有義務去了解自己想要什么。”
第八章 掌控 責任與自由并舉的信息管理
管理改革1:個人隱私保護,從個人許可到讓數據使用者承擔責任。
新的隱私保護模式,著重于數據使用者為其行為承擔責任,而不是將重心放在收集數據之處取得個人同意上。監管機制可以決定不同種類的個人數據必須刪除的時間。再利用的時間框架則取決于數據內在風險和社會價值觀的不同。公司可以利用數據的時間更長,但相應必須為其行為承擔責任以及富有特定時間之后刪除個人數據的義務。或者故意將數據模糊黑醋栗,促使大數據庫的查詢不能顯示精確地結果,而只有相近的結果。 管理改革2:個人動因vs預測分析。犯罪評定必須根據過去發生的事實評定,對未來的預測即使準確,但有失公平性和說服力。
管理改革3:擊碎黑盒子,大數據算法師的崛起。
管理改革4:反數據壟斷大亨。反壟斷法遏制了權利的濫用,促進了大數據平臺的良性競爭,世界上一些大型數據擁有者和政府都在逐步公布其數據。
結語 正在發生的未來
大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。
佛勞爾成為紐約市的“分析主人”,利用城市尚未開發的數據庫開展分析和研究,提取價值。佛勞爾對經驗豐富的統計學家沒有興趣,,他擔心他們不愿意采取這種新方法來解決問題。“我想要可執行的洞察力”。挑選了五個畢業一兩年的經濟學專業學生組成團隊。一起專注處理“非法改建問題”,將一套住房隔出很多個小房間,容納多十倍的人,帶來巨大的火災隱患。紐約市每年會收到25000起非法改建的投訴,但只有200名檢察院在處理這些事情。沒有好辦法區分簡單的滋擾問題和嚴重的爆炸起火事件。——佛勞爾用大數據來解決。
輸入來自19個機構的數據集,房產稅、公用設施使用異常、建筑類型、修建時間、救護車訪問次數、犯罪率和嚙齒動物投訴等信息,數據形式都不可用,不一致,很凌亂,但他們整合以后,忽略精確度,將巨大的混雜數據庫與火災數據嚴重性排名進行對比并得到一個模型,預測投訴迫切度。
現場考察發現新的數據集線索,比如裝修、磚工等,而且讓檢查員來測試他們的模型。最終讓檢查準確度提高了五倍。“我對因果關系不感興趣,除非他用行動說話。”
大數據提示我們接受類似的不準確,因為不準確正是我們之所以為人的特征之一,就像我們處理混亂數據一樣,畢竟混亂構成了世界的本質,也構成了人腦的本質,學會接受和運用他們才會得益。
【大數據時代經典語錄】相關文章:
新創業時代09-26
數據庫開題報告12-21
冰川時代觀后感05-24
《小時代》觀后感03-02
數據庫開發求職簡歷03-08
銀行監督數據轉化調研報告12-21
飲料消費人群數據調研報告04-04
金融數據求職信封面02-07