紅蔥頭-巨量資訊 關鍵字1

譚磊的書由資料開始談起,解釋所謂的巨量資料時代,亦即資訊具有3V的概念: 大量化 (Volume)、多樣化 (Variety)及快速化(Velocity),更加入說明為何巨量資訊近年來為何如此熱門的原因,因為商業界需要增加第四個"V",即"Value"。此外,他也論及一般作者較少論及的採集演算法 (algorithm),並論及資料採集所需的軟體,甚至將電子商務的堂奧做簡要的說明,為了補足自己不頂好的記憶,將重要的關鍵字詞記錄下來,當作為來採礦的參考。
 
當然Hurwitz et al. (2013)的書也編寫的淺顯易懂,且重要的項目都粗黑體標示,也非常值得參考 。不知台灣哪天才會將此系列的書全部翻成中文。說真的,若非是得靠這技能吃飯的,若能至少找到本入門書看一下,或許能說是趕上科技討論的熱潮,在討論時才不會顯得孤單。
 
RFM模型 (譚磊,2013,8-21)為Authur Hughes所提出的論點,認為消費者交易的三個核心指標為下列三種:
R: Recency: 最近購物與data mining當日的購物時間差異。
F: Frequency: 在"一定時期"的購買次數,消費頻率。
M: Monetary Value: 客戶在"一定時期"內的"每次"購買金額。

跳離率 (Bounce Rate)為網路上常用的指標 (譚磊,2013,9-3),指的是進入一個網站之後不再繼續瀏覽,
 
也因為譚磊在文中極力推薦"R"程式,因此,我的衍生閱讀清單越來越長,書的厚度也越來越厚。
 
陳景祥 (2014: 12)認為程式語言的五個基本功能:
1. 變數與常數: 具有表達常數、一般變數及陣列變數的功能
2. 輸入與輸出: 收到訊號->處理->產生反應。
3. 條件執行 (conditional execuation)與邏輯判斷 (logical decision): if-else, while-then... etc. 如迷  宮鼠在檢測地板的磁條,或是遇到坑洞的處理原則。
4. 迴圈: for, while, until ... etc; 重覆執行的功能
5. 獨立模組: 允許使用者擁有自己的獨立模組 (函數、程序或模組),供給使用者或是其他人呼叫使用。
 
換言之,我們能透過上述的功能將我們意欲獲得的程式寫出,達成我們希望電腦能執行的功能。這時又得再次責備國內的科學教育了,我對程式設計的淺薄知識是來自於code.org,它們利用殭屍大戰的動畫讓學習者懂得電腦運作的原理,最重要的是能將枯燥乏味的編程弄得簡易有趣。反觀國內老是說著文創,卻只讓我們的孩子學習網頁搜尋,少了基礎與幻想能力。
 
唉...

參考資料
譚磊,2013,大數據挖掘-由巨量資料發現別人看不到的秘密,上奇時代出版。
陳景祥,2014,R軟體應用統計方法,東華書局出版,修訂版七刷
Hurwitz, J.; Nugent, A.; Halper, F. and Kaufman, M. 2013. Big Data for Dummies, John Wiley & Sons, Inc. N.J., USA.

留言

這個網誌中的熱門文章

坂の上の雲

Great free Powerpoint Templates

Better reference site for English Writing-Synonym (同義字)