2015年5月24日 星期日

大數據 (Big Data)

Algorithm 演算法

出自於數學用語,在這裡指的是在有限步驟內,分析數據的具體方法,而且通常由軟體來執行。

AIDC 自動識別技術

AIDC(Automatic Identification and Data Capture)是將訊息數據自動識讀、自動輸入電腦的重要方法和手段,它是以電腦技術和通信技術為基礎的綜合性科學技術。常見的 AIDC 例如條碼(Bar codes)、磁條(magnetic strips)、生物識別(Biometrics)、RFID 等技術。

AWS 亞馬遜網路服務系統

2006 年 Amazon 開始以 Web 服務的形式向企業提供各種雲端運算服務,包括運算、儲存、資料庫、分析、應用程式和部署服務。現在許多科學家、開發人員以及各企業的技術人員都在利用 AWS (Amazon Web Services)進行大數據分析。

Avro 序列化系統

Avro 是 Hadoop 底下的子專案,是一個資料序列化系統(Data serialization system),被設計用來支援大量資料交換。

Behavioral analytics 行為分析

行為分析是指用科學方法分析環境刺激與行為之間的因果關係,藉著系統性的觀察來了解行為的變化原則,進而有系統的操作刺激,以達到行為的學習、塑造或改變。簡單來說,就是用一個有系統的方法去觀察、測量、收集客觀數據來分析目標的表現行為。

Big Data 大數據

大數據(or 巨量資料),顧名思義是指大量的資訊,當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數據。有興趣深入了解請參考《巨量資料的時代,用「大、快、雜、疑」四字箴言帶你認識大數據》以及《7 個你不可不知的大數據定義》。

BI 商業智慧

BI (Business Intelligence) 指用現代資料倉儲技術、線上分析處理技術、數據挖掘進行數據分析,再以圖形化的界面或報表呈現以實現商業價值。

Cassandra 資料庫系統

是 Apache 軟體基金會底下的開源分布式 NoSQL 資料庫系統,適合用來管理巨量的結構化資料,由於其良好的可擴展性和性能,被 Digg、Twitter、Hulu、Netflix 等知名網站所採用。

CDR 詳細通聯記錄

CDRs (Call Detail Record)是電信網路的使用紀錄,例如通話時間、通話長度等資訊。CDR 是電信業者與企業分析網路營運和客戶行為的重要資源。

Clickstream Analytics 點擊流分析

點擊流(Clickstream)就是使用者的在網頁間來來去去的點選記錄,也可以分成 Upstream –– 進入這個網站的「來源」,以及 Downstream —— 拜訪完這個網站之後的「去向」。對於網路行銷跟搜尋引擎來說,點擊流分析是十分重要的參考。

Cloud Computing 雲端運算

雲端運算(Cloud Computing)是一種將資料、工具及程式放到網際網路上處理的資源利用方式,是一種分散式電腦運算(Distrubted computing)的概念,也就是讓網路上不同的電腦同時幫你做一件事,可以大大的增加處理速度。

也因為所有資訊都被放置到網路的虛擬空間裡,工程師在繪製示意圖時常以一朵雲來代表這個虛擬空間,因而有了「雲端(Cloud)」一名。

Data Mining 資料探勘

顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈,資料探勘就是從巨量資料中提取出未知的、有價值的潛在資訊。

Data Modelling 資料建模

資料模式(Data Model)在資訊系統中指的是資料如何被表達、儲存及取用的方式,包括資料的格式、定義和屬性,資料之間的關係,以及資料的限制,而資料模式的設計過程就稱為「資料建模」。

Data Visualization 資料視覺化

是關於數據之視覺表現形式的研究,資料視覺化的技術可以幫助不同背景的工程人員溝通、理解,以達良好的設計與分析結果。

Data Experts 數據專家

數據專家就是能利用資料作出研究評估的專業人士,像是資料分析師、資料科學家、資料架構師等都可以被歸類為數據專家,其工作內容細分請參考《資料分析師?科學家?架構師?大數據人才的工作內容及年薪比較》。

Exploratory Data Analysis 探索式分析

探索式資料分析是指在沒有標準流程跟方法的情況下,在現有的數據中找尋資料的結構和特點、探索潛藏於資料中的訊息,這種資料分析方法強調的是探索式的分析而非嚴謹的模式確認。

Hadoop 技術

Hadoop 是一個能夠儲存並管理大量資料的雲端平台,為 Apache 軟體基金會底下的一個開放原始碼、社群基礎、而且完全免費的軟體,Hadoop 的兩大核心功能 —— 儲存(Store)及處理(Process)資料所用到的分散式檔案系統 HDFS 跟 MapReduce 平行運算架構。Hadoop 被廣泛應用於大數據儲存和大數據分析,成為大數據的主流技術。有興趣深入了解請參考《認識大數據的黃色小象幫手 –– Hadoop》。

Internet of Things 物聯網

物聯網(Iots)是一個全球化的網路基礎建設,透過資料擷取以及通訊能力以連結實體與虛擬物件,透過網際網路的發展,物連網可透過特定的機制,將所有裝置連結在一起,以供控制、偵測、識別,並交換所有的資訊。

NoSQL 資料庫系統

NoSQL 最早是指「No SQL」,號稱不使用 SQL 作為查詢語言的資料庫系統。但近來則普遍將 NoSQL 視為「Not Only SQL」,也就是「不只是 SQL」的意思,希望結合 SQL 優點並混用關聯式資料庫和 NoSQL 資料庫來達成最佳的儲存效果。

在巨量資料所帶動的潮流下,各種不同形態的NoSQL資料庫如雨後春筍般竄起,其中 MongoDB 是眾多 NoSQL 資料庫軟體中較為人熟知的一種。

Predictive Analytics 預測分析

是指透過預測模型、機器學習、資料挖掘等技術來分析現有和歷史的事實數據對未來作出預測的數據分析方法。

R 語言

R 是一個開放原始碼統計軟體,提供統計計算和繪圖功能,類似 Matlab 跟 SAS,而 R 不但免費 而且簡單易上手,近年來成為資料科學界裡的重要工具。

SaaS 軟體即服務

SaaS (Software-As-A-Service)是隨著網際網路技術和應用軟體的成熟而興起的一種軟體應用模式。SaaS 提供商將軟體統一部署在自己的伺服器上,藉由網路提供軟體給客戶,所以客戶不用購買軟體,而是根據需求向提供商訂購所需的服務,且客戶無需對軟體進行維護,服務提供商會全權管理和維護軟體;軟體廠商在向客戶提供網際網路應用的同時,也提供軟體的離線操作和本地數據存儲,讓客戶隨時隨地都可以使用其定購的軟體和服務。

對於許多小型企業來說,SaaS 是採用先進技術的最好途徑,它消除了企業購買、構建和維護基礎設施和應用程式的需要。

Terabyte (1 000 000 000 000 Bytes)

TB 為兆位元組,是資料量的分級,相當於 10^11 bytes。其他資料量分級如下:

Bytes (8 Bits)
Kilobyte (1000 Bytes)
Megabyte (1 000 000 Bytes)
Gigabyte (1 000 000 000 Bytes)
Terabyte (1 000 000 000 000 Bytes)
Petabyte (1 000 000 000 000 000 Bytes)
Exabyte (1 000 000 000 000 000 000 Bytes)
Zettabyte (1 000 000 000 000 000 000 000 Bytes)
Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)

沒有留言:

張貼留言