Advanced Interdisciplinary Projects Lab(AIPLab) 討論區

Please login or register.

請輸入帳號, 密碼以及預計登入時間

新聞:

[慶賀]恭喜張清貿醫師升任北榮傳醫科主治醫師-20170201

作者 主題: 2016 Teradata大數據峰會-2016-05-20  (閱讀 383 次)

admin

  • 管理員
  • Hero Member
  • *****
  • 文章: 1721
    • 檢視個人資料
2016 Teradata大數據峰會-2016-05-20
« 於: 五月 21, 2016, 05:21:35 pm »
http://www.ithome.com.tw/news/105966
資料倉儲龍頭Teradata(天睿公司),近日於中國北京舉辦2016 Teradata大數據峰會來展示擁抱開源的新進展,上千名金融、電信等各產業的資料分析領域專家及高階主管參與。Teradata近日陸續揭露多項新戰略,包括旗下開源大數據顧問服務Think Big將擴展至中國市場、成立全球IoT資料分析部門,也將旗下的料倉儲產品線延伸至混合雲環境。

今年特別將「開源融合」這四個字放進大會主題,可以看到這個過去39年專注於資料倉儲、資料庫及資料分析領域的老牌大數據公司,現在也要再朝開源更進一步,積極擁抱並且推動開源技術。

戰略一  擴大開源布局:Teradata與Facebook(臉書)合作推動開源專案Presto
戰略二  瞄準IoT資料分析市場:Aster Scoring SDK能協助分析師快速部署 Aster的IoT分析模組,並讓開發者建立複雜分析模組,可實際部署於任何IoT先進伺服器、公有雲環境或是資料中心。
戰略三  延伸支援混合雲架構


延遲綁定與支援JSON、非結構化資料是現今的關鍵資料處理方法

除了祭出3項新戰略之外,Stephen Brobst在大會上也分享了現今資料分析的關鍵作法與技術,包括採用延遲綁定(Late Binding)的資料處理模式,及支援JSON(JavaScript Object Notation)語法及非結構化資料,其中,延遲綁定技術與以前的作法不同,不會在取得資料時便定義資料結構(Schema),而是在要使用資料時,也就是需要查詢、讀取時才建立資料結構,以保留其資料應用的靈活性,而Teradata的做法便是將JSON當作資料庫第一層,當要讀取資料時再決定資料的結構。

他表示,如Teradata推出的QueryGrid技術,可無縫查詢多個異質資料庫,採用QueryGrid的UDA架構中,可以包含如儲存客戶資料的Teradata 6800、紀錄Session路徑的Aster平臺、Hadoop叢集中的非結構化文件、R伺服器網格(R Server Grid),及用來記錄點擊流量的Teradata 1700等,Teradata透過這樣可串連多種資料來源的統一架構,並整合許多既有的軟硬體,來協助企業打造資料分析生態系統。

Stephen Brobst將企業進行資料探索的流程分為蒐集(Capture)、梳理(Curation)及分析(Analysis)三大部分,其中蒐集包括從內、外部將資料採集至儲存平臺中,供資料工程師或資料科學家來存取使用,在梳理方面,企業需找到適當的資料結構,來對應不同的資料儲存體,建立可描述資料儲存模式與欄位的中介資料,並對多個儲存體進行整合以進行週期性管理。最後分析部分,才是找出資料之間的關聯性以及可進行分析預測的模式。

而他認為,現在企業最大的問題是,在資料梳理這部分做的不夠好,且多數企業不願意去正視這個問題,因此,儘管許多企業都已經建立資料湖(Data Lake),把大量資料透過低成本的方式存到同一個地方,但是卻沒有讓資料湖中的資料發揮最大價值。

Stephen Brobst指出一項Gartner在2015年揭露的調查與預測數據,到2018年時,全球將有高達9成的資料湖會失去價值,這些已部署的資料湖將充滿過多因不確定性案例而採集的資料資產不堪負荷。Stephen Brobst表示,企業使用資料湖的方式是錯的,且不應該用資料湖的規模大小來衡量成功,此外,很多時候,企業會將重複的資料丟到資料湖中,卻未對這些資料加以管理或有效應用,或是對於已經放進資料湖中的資料不夠了解,若是如此,即使存放了再多資料,最終只會成為無用的資料沼澤(Data Swamps)。

他認為,最容易被忽略的事情是不斷去追蹤這些內、外部資料的來源(Provenance),此外,也缺乏對資料與資料來源的關聯性,導致對資料品質不信任,而產生資料重複複製,或是重複操作的狀況,資源利用效率低。而要掌握資料來源,得知道誰在什麼時候建立了這筆資料資產、建立這項資產的原始數據來源為何、建立該資料資產使用了哪些處理流程、這些資料資產已知的缺陷為何,以及所使用的演算法等。



Teradata大中華區首席執行長辛兒倫表示,目前Teradata主要產品還包括基於開源Kafka專案的產品Teradata Listener、可以無縫查詢多個異質資料庫的QueryGrid平臺、Aster圖像式的資料挖掘探索平臺,此外,在資料分析層,也支援R、Spark,Giraph等,並支援多項BI存取工具如Tableau。
已記錄
 

SimplePortal Classic 2.0.5