雅虎专家称对Hadoop社区贡献率达70%
时间:2010-09-07 来源:linux论坛
Hadoop中国2010云计算大会9月4日在京圆满结束了,在大会上,IT168记者采访了Yahoo的Hadoop技术专家、云架构副总裁Todd Papaioannou,了解了更多Hadoop目前的发展情况,以及Yahoo在Hadoop上的应用及未来发展策略。
screen.width*0.7) {this.resized=true; this.width=screen.width*0.7; this.alt='Click here to open new window\nCTRL+Mouse wheel to zoom in/out';}" onmouseover="if(this.width>screen.width*0.7) {this.resized=true; this.width=screen.width*0.7; this.style.cursor='hand'; this.alt='Click here to open new window\nCTRL+Mouse wheel to zoom in/out';}" onclick="if(!this.resized) {return true;} else {window.open('http://pub.chinaunix.net//uploadfile/2010/0907/20100907011831384.jpg');}" onmousewheel="return imgzoom(this);" alt="" />
图:媒体群访Yahoo技术专家Todd Papaioannon
我们都知道Hadoop是一个开源的平台,目前使用最广的是互联网公司,在采访中Todd Papaioannou告诉IT168记者,目前Yahoo在Hadoop上的贡献占了70%,而且Yahoo贡献给Hadoop社区的是Yahoo全部的研究成果。Todd Papaioannou说Hadoop也是Yahoo云计算平台最核心的部分,所以Yahoo投入了大量的人力和物力到Hadoop的研究中。目前Yahoo在中国也建立一个大型的研究基地,该基地大约有一半以上的人员每天都在接触使用Hadoop。Yahoo希望借助自己以及其他企业和开发人员的共同努力,让Hadoop在性能和安全性上更加完善,并向那些不太熟悉Hadoop又想使用Hadoop的小型企业提供资讯、技术上的帮助。Yahoo技术专家也表示,今后会继续完善Hadoop,特别是在安全性方面,今后Yahoo比较关注的问题包括小文件的处理和整体性能的优化,以及名字
服务器
的可扩展性等。
也许有很多用户还不清楚Hadoop跟传统的计算模式有什么区别,这点在采访中Todd Papaioannou也提到,他认为与传统的工具,比如说像SQL等这样的数据库查询语言相比,Hadoop更关注的是处理那种非结构化的数据,而传统的主要是使用关系型数据。传统处理的数据关系比较规范化,而对于那些非关系型数据Hadoop则能够提供更大的灵活性。Hadoop是 MapReduce的最佳实现。
据Yahoo专家介绍,Yahoo内部使用的Hadoop中,目前最大的Hadoop集群有四千台机器,Yahoop内部有很多个集群,目前至少有十六七个集群。而这些集群大小各异,小的只有几台机器,最大的有四千台机器,总机器数大概在四万台左右。Todd Papaioannou介绍说,Yahoo内部不同的机器有不同的用处,有的是做实验用,有的是在生产上使用,取决于任务的性质。接下来,Yahoo一方面会在系统的可扩展性上继续投入,使其规模可以超过四千台机器,以建立更大的集群。另一面会关注于可管理性,提高Hadoop的可管理和运营方面。最后Yahoo会努力提高系统的利用率,优化系统可用性。
Hadoop似乎是一个让人望而止步的应用,很多小企业会疑惑自己是不是具备了使用Hadoop的条件,针对这一个大众疑惑,IT168记者也向Todd Papaioannou讨教了一番。Todd Papaioannou认为只要有数据处理需求的企业都可以用Hadoop,现在除了互联网行业外,也有很多企业在用Hadoop,比如说银行、制药企业、还包括一些机械制造企业都开始使用Hadoop。
那么企业到底需要多少的资金、人力资源的投入才能使用Hadoop呢?Todd Papaioannou认为企业可以从分享开始,也就是你投入多少就能有多少分享产出。小企业完全可以从几台机器开始投资,而具体投资多少往往取决于企业数据的大小,随着数据的增长,企业可以适时的增加投资力度,这样企业也会得到越来越多的处理能力。Todd Papaioannou强调Hadoop是一个相当有弹性和扩展性的平台,它既可以在成千上万的机器上跑,也可以在很小规模上运行,比如可以在一台
笔记本
上跑Hadoop。
Todd Papaioannou认为对于开源软件来说其实是更容易实现的,因为它是开放的。Yahoo所关注的贡献并不仅仅是Hadoop运营方面,而是在一个数据中心的范畴上。整个数据中心不仅仅有Hadoop,还有其他的工作,包括数据库、以及前端服务。Yahoo把这一系列看做Hadoop的一个整体,希望在这个整体上提供完整的服务。在未来Yahoo也希望有更多的人参与到Hadoop的建设中,让Hadoop开发社区更加强大,也更具有影响力。[page]记者: 目前很多公司要用Yahoo发布的Hadoop版本,还是需要修改一些代码才能符合自己的需求,用的时候也才觉得更安全。Yahoo是怎么看待这个问题的?
Todd Papaioannou:Yahoo能够理解每个公司自己的安全标准,每个公司在用Hadoop时候也应该遵照自己公司的安全标准。Hadoop是一个开放性的平台,而Yahoo也投入了大量的人力物力去开发Hadoop上的安全功能。那么我们也相信随着Hadoop在企业中的应用更为广泛的情况下,各个企业在Hadoop上所做的安全方面的贡献就能够逐渐汇聚到Hadoop上面去,使得Hadoop的整体安全性的到进一步的提升。
记者:现在大的互联网公司都在自己做Hadoop,这些大的互联网企业也有能力去部署自己的Hadoop,比如说Yahoo和淘宝都有很强的能力去部署Hadoop平台,那么像其他小型企业是否有能力自己部署呢?
Todd Papaioannou:我们希望随着Hadoop的不断发展,Hadoop能变成一个越来越强大的社区或者是一个社区生态系统。这样的话也会有更多的社区参与进来,他们能提供Hadoop上面的一些Hadoop咨询服务。包括技术服务,提供工具或者平台。通过他们提供的服务可以帮助那些非互联网企业来进行部署、使用Hadoop。
记者:现在Hadoop的扩展性越来越往高端扩展,以及大规模实施,我想知道Hadoop的扩展性最小节点到达一个什么层次呢?比如说最小规模达到一个什么程度?
Todd Papaioannou:Hadoop是一个相当有弹性和扩展性的平台,它既可以在成千上万的机器上跑,也可以在很小规模上运行。比如我的
笔记本
上就有跑Hadoop。
记者: Hadoop与传统的计算模式相比,有什么样的优势呢?
Todd Papaioannou:传统的工具,比如说像SQL等这样的数据库查询语言相比,Hadoop更关注的是处理那种非结构化的数据,而传统的是使用关系型数据,传统的数据关系比较规范化,而对于那些非关系型数据Hadoop能提供更大的灵活性。
记者:Hadoop现在并不是很完美,也存在很多的问题,比如安全性问题,比如小文件处理以及性能优化方面的问题,Yahoop在未来会在哪些方面的改进?
Todd Papaioannou:Hadoop经过几年的发展,现在已经是一个比较成熟的产品了,这一点Yahoo是相当骄傲的。Yahoo现在还是在继续努力改进中,我们比较关注的问题,包括你刚提到的小文件的处理和整体性能的优化,以及名字
服务器
的可扩展性,这些都是Yahoop今后重点关注的优化方向。
记者:现在中国关注Hadoop的人越来越多,究竟Hadoop适合什么样的企业和应用?因为目前我们所看到的大部分都是互联网企业或者是日志分析等应用,一些企业想参与到Hadoop中来,需要具备什么样的条件?比如技术、人才等方面。
Todd Papaioannou:什么样的企业可以使用Hadoop?显而言之,有数据需要处理的的企业都可以用Hadoop。Hadoop尤其擅长处理那些非结构化的数据,比如说互联网的搜索日志 、图片、或者是各种各样的多媒体应用。这就是为什么互联网企业最早且最广泛的使用Hadoop。任何的企业,如果他有大量的数据需要分析处理,都可以使用Hadoop。现在除了互联网行业之外,也有很多企业在用Hadoop,比如说银行、制药企业、包括一些机械制造企业都开始使用Hadoop。那么企业到底需要多少的资金、人力资源的投入呢?我觉得企业可以从分享开始,你投入多少就会有多少分享产出。你完全可以从几台机器开始投资,而投资的多少往往取决于你数据的大小,随着你数据的增长,你可以适时的增加投资,从而你也会得到越来越多的处理能力。
记者:Yahoo有四千多个节点在部署Hadoop,但是具体的应用方面,我在网上看到英文资料比较多,国内网又也不太了解。您能简单介绍下Yahoo目前在Hadoop这块的应用和开发的情况。
Todd Papaioannou:Yahoo内部目前最大Hadoop单个集成是四千个,Yahoo内部有很多个集群,目前至少有十六七个集群。集群大小各异,小的从几台机器到到几百台机器,最大的有四千台机器。总机器数大概在四万台左右。而不同的机器有不同的用处,有的是做实验用,有的是在生产上使用,这取决于你的任务性质,我们会在不同的任务上运行你的任务。接下来,Yahoo一方面会在系统的可扩展性上继续投入,争取超过4千台机器,建立更大的集群。另一面我们会关注于可管理性方面,提高Hadoop的可管理和运营方面。最后Yahoo会提高系统的利用率,优化系统可利用性。
记者:在国外除了Yahoo在使用Hadoop之外,像Facebook,Google,亚马逊是不是也围绕Hadoop这个平台在做一些事情?
Todd Papaioannou:你刚提到的Facebook、Google、亚马逊确实都在使用Hadoop,也有做一些贡献。但是Hadoop最大的贡献者还是Yahoo,Yahoo对于Hadoop有超过70%的贡献。
记者:Yahoo投入了多少人力物力到Hadoop上,以及Hadoop在Yahoo公司的地位如何?
Todd Papaioannou:Yahoo在过去超过5年的时间一直持续有大量的时间花在Hadoop业务上,有相当大的开发者投入到Hadoop中来,所以就Hadoop在公司的地位来讲,Yahoo认为Hadoop是Yahoo云计算平台最核心的部分,雅虎一直相信Hadoop在公司的核心价值。
记者:你刚也提到Yahoo对于Hadoop社区的贡献是70%,但是我也看过一些报道,说Google对外开放的云计算平台与自己内部使用的平台完全是两回事,Yahoo对这事怎么评价?Yahoo对于这个Hadoop70%的贡献,是Yahoo全部研究的70%,还是yahoo对外贡献一小部,对外界而言就达到70%了呢?
Todd Papaioannou:70%是对整个Hadoop而言,Yahoo占70%,另外30%是其他公司贡献的,对于Hadoop的70%贡献是Yahoo全部的研发技术,用户可以在Yahoo官网上下载所有的生产包,这些与Yahoo自己内部生产使用的完全一样的。
记者: 像Linux开源有社区、基金会,相对来说有公益性的管理。而像Hadoop有什么标准化的机构来主导Hadoop的技术发展吗?
Todd Papaioannou:在Hadoop上有一个开发社区让大家来讨论或者决定大家的兴趣点所在,而Yahoo在这里是一个核心地位。当然Yahoo也希望有更多的人参与到Hadoop开发社区里来。
记者:我想问一下,Yahoo在中国的Hadoop的策略是怎么样的。
Todd Papaioannou:Yahoo在中国目前有一个很大的研发基地,中国研发基地这里基本上有一半以上的人每天都会与Hadoop打交道,所以Yahoo的很多产品基本上都离不开Hadoop。我们这里有相当大的一部分人都是Hadoop的专家。Yahoo在中国7也希望帮助Hadoop社区,让更多的人和企业使用Hadoop。目前Yahoo中国研究基地也是Yahoo全球核心研发的一部分团队,当然在中国可能看到Yahoo的产品可能会少点,但是实际上Yahoo在信息业、电信等产业上都有投入。现在Hadoop的有那么多的版本,针对不同的用户,需求又不一样,那么如何收集大量的数据,设计一套最符合用户需求的Hadoop平台呢?这是Yahoo今天需要关注的地方。目前Yahoo也把Hadoop的安全功能当做一个很重要的功能,因为现在有越来越多的用户要做Hadoop上处理信息,我们更关注到用户信息的安全性。所以未来我们需要把Hadoop提高到一个很高的安全性上面。
记者:Yahoo很多的应用,但是针对每个应用就相当于一个很大的网站,一个公司可能正在做这方面,比如财经方面,如果Yahoo不花那么大力气去开发这些了,那Yahoo就可以做更好了,那么其他公司都利用Hadoop一下子就做得很大了,那你帮助了那么多人,是不是就为Yahoo树立了很多竞争对手了呢?
Todd Papaioannou: 这是开源软件的特点,整个工业界的发展需要有人出来贡献点什么,Hadoop开源出来会鼓励更多的开发者出来。那么对于Yahoo的好处,目前就有30%的人参与进来。随着开源就会有更多的Hadoop人才出来,包括清华也有很多人在叫Hadoop,Hadoop对于Yahoo而言是一个双赢的事。
记者:Hadoop更多的是在运营管理中的贡献,那么在实施过程中的,实施方面的开源是不是也是一个发展方向?
Todd Papaioannou:对于开源软件来说其实是更容易实现的,因为他是开发的。Yahoo所关注的贡献并不仅仅是Hadoop在运营上的,而是在一个数据中心上的范畴上,整个数据中心不仅仅有Hadoop,还有其他的工作,包括数据库、以及前端服务。Yahoo把这一系列看做一个整体,希望在这个整体上能够提供完整的服务。
记者: 据了解Google是最早使用MapReduce,为什么Google不用Hadoop?
Todd Papaioannou: MapReduce不是Google独有的技术,实际上MapReduce是一种方法或者是一种思想方式,mapreduce的出现远远早于Google对它的应用,实际上Mapreduce还有很多其他的应用实现。而Hadoop就是其中之一,还有其他公司也有MapReduce的应用。目前而Hadoop是MapReduce应用上最成功也是最开放的一个方面,很多人对于MapReduce是属于Google的其实是一个误解,据我所知MapReduce至少出现20年了。Google有自己对MapReduce的实现方式,而Yahoo也有自己的方式来实现MapReduce。其中Hadoop就是MapReduce最成功的一个实现,这也是为什么目前Hadoop这么知名的原因。
screen.width*0.7) {this.resized=true; this.width=screen.width*0.7; this.alt='Click here to open new window\nCTRL+Mouse wheel to zoom in/out';}" onmouseover="if(this.width>screen.width*0.7) {this.resized=true; this.width=screen.width*0.7; this.style.cursor='hand'; this.alt='Click here to open new window\nCTRL+Mouse wheel to zoom in/out';}" onclick="if(!this.resized) {return true;} else {window.open('http://pub.chinaunix.net//uploadfile/2010/0907/20100907011831384.jpg');}" onmousewheel="return imgzoom(this);" alt="" />
图:媒体群访Yahoo技术专家Todd Papaioannon
我们都知道Hadoop是一个开源的平台,目前使用最广的是互联网公司,在采访中Todd Papaioannou告诉IT168记者,目前Yahoo在Hadoop上的贡献占了70%,而且Yahoo贡献给Hadoop社区的是Yahoo全部的研究成果。Todd Papaioannou说Hadoop也是Yahoo云计算平台最核心的部分,所以Yahoo投入了大量的人力和物力到Hadoop的研究中。目前Yahoo在中国也建立一个大型的研究基地,该基地大约有一半以上的人员每天都在接触使用Hadoop。Yahoo希望借助自己以及其他企业和开发人员的共同努力,让Hadoop在性能和安全性上更加完善,并向那些不太熟悉Hadoop又想使用Hadoop的小型企业提供资讯、技术上的帮助。Yahoo技术专家也表示,今后会继续完善Hadoop,特别是在安全性方面,今后Yahoo比较关注的问题包括小文件的处理和整体性能的优化,以及名字
服务器
的可扩展性等。
也许有很多用户还不清楚Hadoop跟传统的计算模式有什么区别,这点在采访中Todd Papaioannou也提到,他认为与传统的工具,比如说像SQL等这样的数据库查询语言相比,Hadoop更关注的是处理那种非结构化的数据,而传统的主要是使用关系型数据。传统处理的数据关系比较规范化,而对于那些非关系型数据Hadoop则能够提供更大的灵活性。Hadoop是 MapReduce的最佳实现。
据Yahoo专家介绍,Yahoo内部使用的Hadoop中,目前最大的Hadoop集群有四千台机器,Yahoop内部有很多个集群,目前至少有十六七个集群。而这些集群大小各异,小的只有几台机器,最大的有四千台机器,总机器数大概在四万台左右。Todd Papaioannou介绍说,Yahoo内部不同的机器有不同的用处,有的是做实验用,有的是在生产上使用,取决于任务的性质。接下来,Yahoo一方面会在系统的可扩展性上继续投入,使其规模可以超过四千台机器,以建立更大的集群。另一面会关注于可管理性,提高Hadoop的可管理和运营方面。最后Yahoo会努力提高系统的利用率,优化系统可用性。
Hadoop似乎是一个让人望而止步的应用,很多小企业会疑惑自己是不是具备了使用Hadoop的条件,针对这一个大众疑惑,IT168记者也向Todd Papaioannou讨教了一番。Todd Papaioannou认为只要有数据处理需求的企业都可以用Hadoop,现在除了互联网行业外,也有很多企业在用Hadoop,比如说银行、制药企业、还包括一些机械制造企业都开始使用Hadoop。
那么企业到底需要多少的资金、人力资源的投入才能使用Hadoop呢?Todd Papaioannou认为企业可以从分享开始,也就是你投入多少就能有多少分享产出。小企业完全可以从几台机器开始投资,而具体投资多少往往取决于企业数据的大小,随着数据的增长,企业可以适时的增加投资力度,这样企业也会得到越来越多的处理能力。Todd Papaioannou强调Hadoop是一个相当有弹性和扩展性的平台,它既可以在成千上万的机器上跑,也可以在很小规模上运行,比如可以在一台
笔记本
上跑Hadoop。
Todd Papaioannou认为对于开源软件来说其实是更容易实现的,因为它是开放的。Yahoo所关注的贡献并不仅仅是Hadoop运营方面,而是在一个数据中心的范畴上。整个数据中心不仅仅有Hadoop,还有其他的工作,包括数据库、以及前端服务。Yahoo把这一系列看做Hadoop的一个整体,希望在这个整体上提供完整的服务。在未来Yahoo也希望有更多的人参与到Hadoop的建设中,让Hadoop开发社区更加强大,也更具有影响力。[page]记者: 目前很多公司要用Yahoo发布的Hadoop版本,还是需要修改一些代码才能符合自己的需求,用的时候也才觉得更安全。Yahoo是怎么看待这个问题的?
Todd Papaioannou:Yahoo能够理解每个公司自己的安全标准,每个公司在用Hadoop时候也应该遵照自己公司的安全标准。Hadoop是一个开放性的平台,而Yahoo也投入了大量的人力物力去开发Hadoop上的安全功能。那么我们也相信随着Hadoop在企业中的应用更为广泛的情况下,各个企业在Hadoop上所做的安全方面的贡献就能够逐渐汇聚到Hadoop上面去,使得Hadoop的整体安全性的到进一步的提升。
记者:现在大的互联网公司都在自己做Hadoop,这些大的互联网企业也有能力去部署自己的Hadoop,比如说Yahoo和淘宝都有很强的能力去部署Hadoop平台,那么像其他小型企业是否有能力自己部署呢?
Todd Papaioannou:我们希望随着Hadoop的不断发展,Hadoop能变成一个越来越强大的社区或者是一个社区生态系统。这样的话也会有更多的社区参与进来,他们能提供Hadoop上面的一些Hadoop咨询服务。包括技术服务,提供工具或者平台。通过他们提供的服务可以帮助那些非互联网企业来进行部署、使用Hadoop。
记者:现在Hadoop的扩展性越来越往高端扩展,以及大规模实施,我想知道Hadoop的扩展性最小节点到达一个什么层次呢?比如说最小规模达到一个什么程度?
Todd Papaioannou:Hadoop是一个相当有弹性和扩展性的平台,它既可以在成千上万的机器上跑,也可以在很小规模上运行。比如我的
笔记本
上就有跑Hadoop。
记者: Hadoop与传统的计算模式相比,有什么样的优势呢?
Todd Papaioannou:传统的工具,比如说像SQL等这样的数据库查询语言相比,Hadoop更关注的是处理那种非结构化的数据,而传统的是使用关系型数据,传统的数据关系比较规范化,而对于那些非关系型数据Hadoop能提供更大的灵活性。
记者:Hadoop现在并不是很完美,也存在很多的问题,比如安全性问题,比如小文件处理以及性能优化方面的问题,Yahoop在未来会在哪些方面的改进?
Todd Papaioannou:Hadoop经过几年的发展,现在已经是一个比较成熟的产品了,这一点Yahoo是相当骄傲的。Yahoo现在还是在继续努力改进中,我们比较关注的问题,包括你刚提到的小文件的处理和整体性能的优化,以及名字
服务器
的可扩展性,这些都是Yahoop今后重点关注的优化方向。
记者:现在中国关注Hadoop的人越来越多,究竟Hadoop适合什么样的企业和应用?因为目前我们所看到的大部分都是互联网企业或者是日志分析等应用,一些企业想参与到Hadoop中来,需要具备什么样的条件?比如技术、人才等方面。
Todd Papaioannou:什么样的企业可以使用Hadoop?显而言之,有数据需要处理的的企业都可以用Hadoop。Hadoop尤其擅长处理那些非结构化的数据,比如说互联网的搜索日志 、图片、或者是各种各样的多媒体应用。这就是为什么互联网企业最早且最广泛的使用Hadoop。任何的企业,如果他有大量的数据需要分析处理,都可以使用Hadoop。现在除了互联网行业之外,也有很多企业在用Hadoop,比如说银行、制药企业、包括一些机械制造企业都开始使用Hadoop。那么企业到底需要多少的资金、人力资源的投入呢?我觉得企业可以从分享开始,你投入多少就会有多少分享产出。你完全可以从几台机器开始投资,而投资的多少往往取决于你数据的大小,随着你数据的增长,你可以适时的增加投资,从而你也会得到越来越多的处理能力。
记者:Yahoo有四千多个节点在部署Hadoop,但是具体的应用方面,我在网上看到英文资料比较多,国内网又也不太了解。您能简单介绍下Yahoo目前在Hadoop这块的应用和开发的情况。
Todd Papaioannou:Yahoo内部目前最大Hadoop单个集成是四千个,Yahoo内部有很多个集群,目前至少有十六七个集群。集群大小各异,小的从几台机器到到几百台机器,最大的有四千台机器。总机器数大概在四万台左右。而不同的机器有不同的用处,有的是做实验用,有的是在生产上使用,这取决于你的任务性质,我们会在不同的任务上运行你的任务。接下来,Yahoo一方面会在系统的可扩展性上继续投入,争取超过4千台机器,建立更大的集群。另一面我们会关注于可管理性方面,提高Hadoop的可管理和运营方面。最后Yahoo会提高系统的利用率,优化系统可利用性。
记者:在国外除了Yahoo在使用Hadoop之外,像Facebook,Google,亚马逊是不是也围绕Hadoop这个平台在做一些事情?
Todd Papaioannou:你刚提到的Facebook、Google、亚马逊确实都在使用Hadoop,也有做一些贡献。但是Hadoop最大的贡献者还是Yahoo,Yahoo对于Hadoop有超过70%的贡献。
记者:Yahoo投入了多少人力物力到Hadoop上,以及Hadoop在Yahoo公司的地位如何?
Todd Papaioannou:Yahoo在过去超过5年的时间一直持续有大量的时间花在Hadoop业务上,有相当大的开发者投入到Hadoop中来,所以就Hadoop在公司的地位来讲,Yahoo认为Hadoop是Yahoo云计算平台最核心的部分,雅虎一直相信Hadoop在公司的核心价值。
记者:你刚也提到Yahoo对于Hadoop社区的贡献是70%,但是我也看过一些报道,说Google对外开放的云计算平台与自己内部使用的平台完全是两回事,Yahoo对这事怎么评价?Yahoo对于这个Hadoop70%的贡献,是Yahoo全部研究的70%,还是yahoo对外贡献一小部,对外界而言就达到70%了呢?
Todd Papaioannou:70%是对整个Hadoop而言,Yahoo占70%,另外30%是其他公司贡献的,对于Hadoop的70%贡献是Yahoo全部的研发技术,用户可以在Yahoo官网上下载所有的生产包,这些与Yahoo自己内部生产使用的完全一样的。
记者: 像Linux开源有社区、基金会,相对来说有公益性的管理。而像Hadoop有什么标准化的机构来主导Hadoop的技术发展吗?
Todd Papaioannou:在Hadoop上有一个开发社区让大家来讨论或者决定大家的兴趣点所在,而Yahoo在这里是一个核心地位。当然Yahoo也希望有更多的人参与到Hadoop开发社区里来。
记者:我想问一下,Yahoo在中国的Hadoop的策略是怎么样的。
Todd Papaioannou:Yahoo在中国目前有一个很大的研发基地,中国研发基地这里基本上有一半以上的人每天都会与Hadoop打交道,所以Yahoo的很多产品基本上都离不开Hadoop。我们这里有相当大的一部分人都是Hadoop的专家。Yahoo在中国7也希望帮助Hadoop社区,让更多的人和企业使用Hadoop。目前Yahoo中国研究基地也是Yahoo全球核心研发的一部分团队,当然在中国可能看到Yahoo的产品可能会少点,但是实际上Yahoo在信息业、电信等产业上都有投入。现在Hadoop的有那么多的版本,针对不同的用户,需求又不一样,那么如何收集大量的数据,设计一套最符合用户需求的Hadoop平台呢?这是Yahoo今天需要关注的地方。目前Yahoo也把Hadoop的安全功能当做一个很重要的功能,因为现在有越来越多的用户要做Hadoop上处理信息,我们更关注到用户信息的安全性。所以未来我们需要把Hadoop提高到一个很高的安全性上面。
记者:Yahoo很多的应用,但是针对每个应用就相当于一个很大的网站,一个公司可能正在做这方面,比如财经方面,如果Yahoo不花那么大力气去开发这些了,那Yahoo就可以做更好了,那么其他公司都利用Hadoop一下子就做得很大了,那你帮助了那么多人,是不是就为Yahoo树立了很多竞争对手了呢?
Todd Papaioannou: 这是开源软件的特点,整个工业界的发展需要有人出来贡献点什么,Hadoop开源出来会鼓励更多的开发者出来。那么对于Yahoo的好处,目前就有30%的人参与进来。随着开源就会有更多的Hadoop人才出来,包括清华也有很多人在叫Hadoop,Hadoop对于Yahoo而言是一个双赢的事。
记者:Hadoop更多的是在运营管理中的贡献,那么在实施过程中的,实施方面的开源是不是也是一个发展方向?
Todd Papaioannou:对于开源软件来说其实是更容易实现的,因为他是开发的。Yahoo所关注的贡献并不仅仅是Hadoop在运营上的,而是在一个数据中心上的范畴上,整个数据中心不仅仅有Hadoop,还有其他的工作,包括数据库、以及前端服务。Yahoo把这一系列看做一个整体,希望在这个整体上能够提供完整的服务。
记者: 据了解Google是最早使用MapReduce,为什么Google不用Hadoop?
Todd Papaioannou: MapReduce不是Google独有的技术,实际上MapReduce是一种方法或者是一种思想方式,mapreduce的出现远远早于Google对它的应用,实际上Mapreduce还有很多其他的应用实现。而Hadoop就是其中之一,还有其他公司也有MapReduce的应用。目前而Hadoop是MapReduce应用上最成功也是最开放的一个方面,很多人对于MapReduce是属于Google的其实是一个误解,据我所知MapReduce至少出现20年了。Google有自己对MapReduce的实现方式,而Yahoo也有自己的方式来实现MapReduce。其中Hadoop就是MapReduce最成功的一个实现,这也是为什么目前Hadoop这么知名的原因。
相关阅读 更多 +