240 likes | 344 Views
云计算大数据初探. 大数据在日本企业中的应用. @ x inqiyang. 2014 年 10 月 4 日. 第 1 期 东京 IT 技术沙龙 @ 东京. 东京IT技术沙龙 介绍. 东京 IT 技术沙龙是由一群在东京的华人 IT 技术爱好者策划、组织、实施的线下专业技术交流活动,每月举办 2 期,每期由 1 个话题以及开放讨论环节组成。旨在为在日 IT 从业人员提供一个自由的技术交流和分享的平台。
E N D
云计算大数据初探 大数据在日本企业中的应用 @xinqiyang 2014年10月4日 第1期 东京IT技术沙龙 @东京
东京IT技术沙龙 介绍 东京IT技术沙龙是由一群在东京的华人IT技术爱好者策划、组织、实施的线下专业技术交流活动,每月举办2期,每期由1个话题以及开放讨论环节组成。旨在为在日IT从业人员提供一个自由的技术交流和分享的平台。 每期沙龙会邀请1名在大手企业工作的或者优秀企业的技术者担任讲师,分享在特定技术领域的成果及实践经验。活动主要面向技术者,IT营业,公司技术负责人以及想从事IT创业的朋友。 我们的口号是:自由交流,创想发扬。 由来: 技术沙龙,在各个地方都比较常见,xinqi来日本之前,在北京混,参加过百度技术沙龙和车库咖啡的创业分享交流,来了日本后,偶然看到dehui组织的创业主题交流活动,有幸参加了一回,后来又认识了コニー哥,说是否能组织一个相对比较专业的讲座或者是定期交流会啥的,在日本这个相对比较封闭的圈子里面,想找到志同道合的人很难,所以和大家商量了之后,打算尝试一下,这个沙龙就这么诞生了.
东京IT技术沙龙由TITTS Team成员维护,我们旨在创建一个实用的开源交流平台,并且能够帮助大家提高技术或者解决创业过程中遇到的问题. 东京IT技术沙龙 特点: 参加活动免费,场地和茶水费用由合作厂商赞助 讲师分享干货,通过团队成员筛选,努力保证质量,分享之后,提供视频及PPT下载 开放交流,在这里可以阐述你的创业想法或者是学习方向,找到志同道合的伙伴 开源新技术跟进,提供一个在日华人间开源及新技术的交流场所 创业支持,在这里希望能找到创业的技术合伙人,帮助大家更快的实现所想 技术培训,和合作厂商一起,通过交流和培训提高大家的技术水平 TITTS Team 团队成员: xinqiyang,コニー,linou
Index • 什么是大数据 • 日本,中国,美国云计算的使用及业界简介 • 大数据的技术方案介绍 • Hadoop/HBase云存储方案介绍 • Hadoop文件操作实战 • Hadoop集群配置及管理实战 • Q&A
名词: 云计算, 大数据,云存储, 云盘, PASS, SASS ,infra等等………. 还有大家说的, 数据挖掘, 智能推荐,等一些高深的词汇…… 各个云盘争夺战,动不动就是给几十个 T 的存储空间,这个是从容量上来看的 想说的是, 大数据在我们身边……..
什么叫大数据: 大数据从数据量上来看, 至少要达到PB级别(1PB=1024TB=1048576GB) 不知道日本这边的大型IT公司的数据存储量如何,是由有 10 ~ 999 PB的数据存储? 国内大型的BAT等公司的数据量基本都自己的大数据处理方案,对日本的业界知之甚少. 这么大的数据量,如何来处理呢? 就涉及到了云计算技术,这里又得讲讲三个概念: 离线计算,实时计算和流计算
归结起来,大数据便是海量的(Volume),多种类的(Variety),需要大规模的处理才能够归结起来,大数据便是海量的(Volume),多种类的(Variety),需要大规模的处理才能够 凝聚足够价值的(Value),处理和检索响应速度快的(Velocity)的数据. 处理大数据所需的系统和传统的系统有根本性的区别. 大数据时代愈发去掉数据的关联性,将各种数据之间关系组合,以产生更大的价值.
日本的大数据,我了解的并不多 参加勉強会/セミナー: 有关注的是,参加过 EMC 举办的Hadoop勉強会,这个主要是美国公司的发展简介. 接下来就是去参会的个大公司的技术者之间的交流, 去过一次,日语太烂交流不畅. 大家有兴趣的可以去参加,不单单是EMC,在日本,Cloudera在日本的公司,也定期举办和 Cloudera相关的セミナー、大家也可以去听听. 我自己本身上班所在的也是一家小型的软件公司,做云存储解决方案的. 在我的理解里面,在日本主要做云存储方案的公司比较多.可能其他的没有咋个接触. 所以才希望通过沙龙或者聚会的形式,认识更多的业内人士.
中国的大数据 各种系统应用: 淘宝的数据魔方 百度指数 淘宝指数 百度云盘 360云盘 等等.. 云计算技术方面: 淘宝的云梯系统 以及淘宝开源出来的相关的各种技术, 可以参考github的开源网站 技术者方面: 在现在作为 Hadoop/HBase/ Storm 等技术方案的 代码committer比较多,直接 参与了开源技术方面,并作为开发者,例如 淘宝,小米的committer 就有很多个.
美国的大数据 美国作为技术发展的源头国家, 那个是没的说了,只有佩服仰望了…….. 基础云设施 : Amazon AWS 还有现在出来的 Docker ……. 学术思想概念提出者: Google 公司,Facebook公司, Twitter等大量巨头的技术论文 开源实现的公司: 典型的 Hortonworks, Cloudera, MapR 等云计算技术公司 人才: 一堆的牛逼设计者,一堆的牛逼的committer,在美国,其实我们的最大的竞争 对手是印度人,嗨,英语得好好的学啊,真心的感觉印度人牛啊…………… 下面崇拜的N句,略过……………………………………………………………….
以上很水 , 就此还是来点干货, 进入技术环节…… 方案有很多,今天着重讨论几个 HadoopHbaseStormSparkHiveFlumeZookeeper
(例)一个简单的私有企业云存储方案: Samba Mac iOS Android Windows RestfulApiServlet(Tomcat) WebConsole HDFS HBase TOOL
遇到的一些坑 集群挂掉, 表损坏 数据丢失 一个操作去判断表是否存在,一个请求 20秒 Api 版本更新向下兼容问题
命令行操作: hadoopfs –ls / hadoopfs –mkdir /user/cloudera/folder/testa hadoopfs –cat /user/cloudera/folder
介绍下Ambari 安装集群: 跑下测试代码: 由于时间关系,没有现场演示: 请参考网页配置: http://www.cnblogs.com/scotoma/archive/2013/05/18/3085248.html