Más contenido relacionado
La actualidad más candente (20)
Similar a 俞晨杰:Linked in大数据应用和azkaban (20)
俞晨杰:Linked in大数据应用和azkaban
- 6. 数据产品
• Terabytes in, Terabytes out
• 结果被应用于终端产品
InMaps
Browse maps
Skills/Endorsements
Recommendations
- 7. PYMK (People you may know)
• 最早开发于 2006
– 6-8 Million members
• 早期运行于 Oracle
• 基于用户共同点
– 教育经历, 工作… etc
• 基于用户共有联系人
– 三角闭合
- 19. Apache Hive
• Hive 0.11
• 只用于即时查询
– 商业运行, 项目管理, 分析师
• 较难优化
• 易于使用
• 容易被有sql背景的人采纳
Disturbing Mascot
- 20. 其他
• Hadoop 2.x
– 正在调研
• HCatalog
– 即将推出
– Hive/Pig with HCat
• Parquet
– 即将推出
– Pig/Hive/MR
•
•
•
•
Scala
Crunch
Giraph
Tez
– Pig on Tez
• Impala, Shark/Spark,
Tajo
– 小规模试用
• Samza
– 使用推广
- 26. 任务执行灵活性
支持任何 Hadoop 版本
支持 Hadoop security
proxy user
hadoop token
同时支持所有 pig/hive/etc. 版本
支持非 Hadoop 平台
Teradata, mysql, voldemort