Skip to main content

大數據Big Data工具介紹與實務應用

什麼是大數據 (Big Data)?

近期在資訊業界,「大數據」一詞已蔚為風潮。「大數據」指的是:在資訊科技大量普及下,許多資料規模非常巨大,無法以單一主機在有效時間內分析出有意義的結果。而針對這類資料規模處理的工具及方法,就被稱為大數據。

一般而言,目前大數據的處理工具,必須使用「平行處理」- 也就是數十到數千台電腦同時運行,才有可能在有效時間內完成計算。而對應平行處理的需求,相關資料格式也必須轉換為特定樣式,才能被有效的處理。

事實上「數據分析」,一直是資訊科技的最重要的應用之一,之前帶動之前資料倉儲(Data Warehouse)、商業智慧(Business Intelligent)發展。而此波大數據的浪潮,主要是來成本因素:資料收集與分析成本大幅降低,使得相關應用能大量被使用。此時此刻大數據相關方法、工具與成果,正在極速發展中,可預見不遠的將來,它將會對人類社會造成極大的影響。

大數據相關工具與核心流程

相關工具

因數據分析在資訊理論上已有長期發展,再加上近期大量應用,目前大數據相關工具的發展,已超乎一般人的想像(見下圖):

大數據相關工具
大數據相關工具,摘錄自http://mattturck.com

在圖中可以看到,目前已有上百家國際型企業投入在此領域,其中包括Google、Apple、Amazon、Microsoft等世界級廠商。而這也代表,當我們需要找尋特定領域應用時,通常可以找到現有廠商的解決方案。不過也因為選擇性太多,相關人員必須擁有相當的知識與經驗,並投入時間研究,才能找出好的解決方案。

核心流程

目前業界針對大數據的流程,雖然各家各有所長,但整體流程不脫離以下流程:

大數據處理流程
大數據處理流程
  • Tracking Hub:數據追蹤工具,能在特定領域收集相關數據。目前網頁追蹤工具,以Google Analytics (GA)為代表。而APP追蹤工具,則有Flurry & GA。另外在實體場域、甚至IoT應用,都有對應追蹤工具可以使用。通常這類的追蹤工具,一定會搭配Data Source工具,儲存收集到的數據資料。
  • Data Source:資料來源。除了上述追蹤工具提供的資料,通常還有資料庫(Data Base)、資料倉儲、甚至是機器的Log檔案等,都是可取得的資料來源。在處理資料來源時,最重視的是「儲存」:當資料沒有被有效儲存及管理時,會導致無法進行之後的資料處理。
  • Data Integration (ETL):資料整合。在一般的情境下,資料來源會有各種樣式:一般資料庫、NoSQL、外部系統、Log檔案等等。在進行計算前,必須進行資料處理、過濾、格式轉換等工作,整理為統一的格式。此階段工作也被稱為ETL,也就是Extract-Transform-Load (擷取-轉換-載入)。
  • Massive Parallel Computing:如之前所言,目前在大數據的運算上,都是利用大型平行計算系統,在數秒內完成快速運算,得到結果。目前業界常用的Hadoop、Spark等等,都是平行計算的知名工具。
  • Agile Analytics:在計算完成後,數據分析師會利用分析工具,針對產出數據以圖表、表格或其他方式做出分析,試圖發現數據的意義。

91APP大數據實務應用

目標

91APP做為零售業的服務提供者,提供了官網、APP、門市等使用介面,及金流、物流相關服務。在此架構下,有許多相關操作與處理,與數據息息相關,如:

  • 廣告投放
  • 使用者樣態與行為
  • 訂單資料
  • 官網、APP、門市不同介面

而項目間的交錯互動,其實對於經營至為關鍵,例如:對於新進客戶,廣告投放應該要以官網,還是為APP為主?提供一個平台,能基於數據分析,解答相關問題,是91APP最重要的目標之一。

架構&工具

在經過團隊研究後,我們提出了以下架構,處理數據分析的相關需求:

  • 91APP大數據架構圖
    91APP大數據架構圖

    Data Source:目前91APP有二大資料來源:Google Analytics,不僅提供了追蹤功能,也提供API可以取得官網與APP上的使用者行為等資料。而另外一個重要的資料源,是會員及訂單資料倉儲的關連式資料庫(Relational Database),由它提供會員與訂單細節。

  • Data Integration (ETL):在ETL,我們選擇了Xplenty。Xplenty是BigQuery的合作廠商之一,也是目前BigQuery ETL的領導品牌。Xplenty針對 GA API及SQL Server,都提供現成的串接介面,方便資料的串接與輸入。
  • Massive Parallel Computing:在大數據計算平台,我們決定採用Google BigQuery。BigQuery有以下優勢:
    • Serverless架構,不需管理機器
    • 可運算巨量資料(Petabyte),成本在合理範圍內
    • 運算多少資料,就算多少費用
    • 速度快:1TB運算,通常在10秒內就完成!
    • 易用性:不需寫程式,只要對資料&基本SQL語法有概念,就可以操作
  • Agile Analytics:在資料視覺化分析上,我們採用Tableau。Tableau是目前視覺化資料分析工具領導品牌,在易用性、速度、資料串接上,極為方便,且不需要撰寫程式,就可以進行視覺化資料分析與處理。

目前此架構已正式運行,定期提供內部人員相關報表與數據,輔助許多商業決策,成為公司重要工具。

未來發展

91APP目前在大數據上,有了一個好的開始。而未來也有許多發展空間,如:發展一套自有的Tracking Hub系統,加強數據完整性。Data Source方面,可以納入更多不同的來源,加強資料的有效性。在資料分析上,預計會導入R語言,可以做更有效的分析。隨著大數據產業的蓬勃發展,相信我們也能以更快的速度,提供更精準的數據。

結語

時間回到1942年,美國曼哈頓計劃,其實是史上第一個利用大規模數據計算的專案。因為有數據計算,原子彈的建造才能完成。而曼哈頓計劃也促成後續資訊科學、產業的發展,直至今日的網路世代。所以就某方面而言,大數據其實是回歸資訊產業核心命題:如何利用「計算」來改變世界。在這個題目上,91APP正在召集好手,準備深耕大數據。非常歡迎有興趣的各位一同加入我們

搶攻行動商機,現在就加入 5,000 家已在網路開店的品牌行列!
分享至:
林 大維
91APP 研發副總,擁有十多年軟體開發經驗,專注在軟體開發流程與技術管理。

掌握最新電商脈動,加入 91APP 品牌全通路學院!

免費獲得最新市場趨勢、行銷技巧與資源,直接送達您的信箱。

完全免費,可隨時取消。
搶攻行動商機,現在就加入 5,000 家已在網路開店的品牌行列!