Más contenido relacionado Similar a Honey's Data Dinner#8 資料科學實用技術、工具與實例分享 (20) Honey's Data Dinner#8 資料科學實用技術、工具與實例分享14. Weka
Copyright: Martin Kramer (mkramer@wxs.nl)
WEKA的全名是懷卡托智慧分析環境(Waikato Environment for
Knowledge Analysis),有趣的是,該軟體的縮寫WEKA也是紐西蘭
獨有的一種鳥名,而WEKA的主要開發者同時恰好來自紐西蘭的the
University of Waikato
• WEKA作為一個公開的資料採擷工作平台,集合了大量能承擔
資料採擷任務的機器學習演算法,包括對資料進行預處理、分
類、回歸、聚類、關聯規則以及在新的互動式介面上的視覺化。
• 免費,非商業化
• 基於JAVA環境下open source的機器學習(Machine
learning)以及資料探勘(Data Mining)軟體
• 它和它的原始程式碼可在官方網站下載
資料來源:Shaw Wu整理,2016年
19. Google Cloud Vision API 使用流程
先搞到一張圖片
轉成Base-64
呼叫API
支援JAVA、Python
回傳結果取得
判斷以標籤結果回傳
資料來源:Shaw Wu,2016年
20. Google Cloud Vision的實驗
Label Detection
我挑了張我老婆跟草尼瑪的合照
我期望能夠由照片中辨識出:
• 我老婆(pretty woman)
• 草尼瑪(alpaca)
結果
1.mammal(哺乳動物) 相似度:0.95
2.animal(動物) 相似度:0.93
3.alpaca(羊駝) 相似度:0.92
4.camel like mammal
(駱駝像哺乳動物) 相似度:0.91
5.vertebrate(脊椎動物) 相似度:0.88
資料來源:Shaw Wu,2016年3月23日
21. R 與 R Studio
資料來源:Shaw Wu整理,2015年
29. 視覺工具
• Data Visualization套件大集合
• AMCHARTS
• HighCharts
• Plotly
• D3.js
42. 42
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
為了能夠拉近與賓客間的距離
讓婚禮不再是只有新郎與新娘
而是創造出有大家共同回憶的空間
一個空間共同體的概念
45. 45
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
• 你可能會覺得要拿到這些圖片很簡單?
• 從我自己的電腦裡一張一張整理去對應?
• 還是我會有他們所有的社群大頭照?
別忘了,除了我的,還有我老婆的…
46. 46
© Shaw Wu ,2015
可是瑞凡… 我只有這個ㄟ…
姓名 暱稱 與新人關係 類別 祝福留言
溫瑞凡 瑞凡 男方 誰知道 祝你幸福...
Google問卷調查的資料
?網路上哪張照片是你?
47. 47
© Shaw Wu ,2015
所以我做了兩件事情
• 最起碼要能判斷留言者的性別,給予圖像
• 連結起虛實關係,建立出真實人類與虛擬
帳號的對應,找到最有可能的圖像
48. 48
© Shaw Wu ,2015
由姓名學出發建立性別判斷模型
這是文本分析的再應用
吳君孝
吳君如
男
女
50%50%
50%50% 100%
100%
訓練
字詞庫
未知性別
姓名丟入 性別分類
結果圖像
49. 49
© Shaw Wu ,2015
從有限資料建立虛實帳號對應關係
真實世界人類
溫瑞凡
將真實世界有限資料,如
姓名、暱稱等,丟入虛擬
帳號關係建構模型
政治大學
交談紀錄
找出最有可能的帳號
取得
虛擬帳號
大頭照
連結
只是同名
依然存在有無法達到的限制性
但已經可以幫我Cover到45%的賓客
剩下的再用工人智慧就輕鬆多了