开发者的殿堂!盘点2011新涌现的云平台
涂兰敬 发表于:12年01月30日 10:21 [转载] 中关村在线
Cloudxy
2011年11月末,康华在工作之余,带领西邮兴趣小组的同学进行弹性云存储项目的开发,发布了第一个版本的Cloudxy。在Cloudxy中,“xy”的意思是任何感兴趣者都可以加入进来,或许因为您的加入,这个xy就有了未知的扩展。
Cloudxy立足于实现虚拟子网(以太网)的弹性云计算平台,该项目主要包含有两个子项目:HLFS虚拟机分布式镜像存储 (类似于亚马逊EBS)和ECM虚拟环境管理系统 。
其中,HLFS是HDFS log structrue filesystem 的缩写,它是一个在Hadoop hdfs文件系统之上实现的log structrue filesystem——like系统。但要注意它并非一个实现完整posix语义的文件系统(支持目录操作、link等),而是仅仅实现了单一文件的基本管理(open,write,read,close)的系统,所以把它称为存储系统(block-level)可能更加合适。
由于HLFS自身特色就是高可用性、写透、快照、分布式、用户态,所以,它更适合于做虚拟机镜像存储、在线网盘等虚拟块设备的存储架构。甚至发散一下思维,它也可以做为PNFS类似系统的后台存储等。
S4
2011年3月,有消息称Yahoo!发布了一个开源通用、分布式、可扩展、部分容错、具备可插拔功能的云平台S4(Simple Scalable Streaming System)。S4最初是Yahoo!为提高搜索广告有效点击率的问题而开发的一个平台,通过统计分析用户对广告的点击率,排除相关度低的广告,提升点击率。目前该项目刚启动不久,所以也可以理解为是他们提出的一个分布式流计算(Distributed Stream Computing)的模型。这套平台主要是为了方便开发者开发处理流式数据(continuous unbounded streams of data)的应用。
之所以Yahoo!要开发S4系统,主要是为了解决它现实的问题:搜索广告的展现。搜索广告是当前各大搜索引擎的主要收入来源,用户发出查询请求,搜索引擎在返回正常结果的同时也会返回相关广告,而广告是按照点击付费。
为了在最好的位置,放置最相关(也就是用户最有可能点击)的广告,各大搜索引擎使用了大量的数据挖掘和机器学习算法来进行相关性计算,以便提高收入,满足用户需求。其中很重要的一点就是要不断分析用户的点击反馈,以便捕获用户的行为。