Spark首次由Databricks发布,融资3300万美元;Hadoop再次得到MapR的1.1亿美元的融资,以促进其在激烈市场竞争中的成长。在未来的大数据处理中,Spark将会简化现有的数据管道处理,融合多种功能,使得数据处理更快、更方便和更灵活;Hadoop也将会以更快、更简单的方式读写大数据。巨大的融资金额将会促进Spark和Hadoop的大力发展,它们将以怎样的姿态立足未来的大数据市场呢,是并驾齐驱?还是独占鳌头?让我们拭目以待。
Databricks发布Spark,融资3300万美元
近日,Databricks在Spark峰会上发布了Spark云服务,同时筹集了3300万美元的风险资金。公司新发布的Spark云服务采用的是Spark框架,据说此框架更快、更方便和更灵活,其云服务的设计有助于简化现有的数据管道处理,包含了大量需要企业管理的数据存储和数据处理系统,同时将诸多供能(如为了建立和显示机器学习模型的各种处理引擎、“记事本”和仪表板功能等)进行有效的融合。
Hadoop的供应商MapR考虑到在MapReduce的技术和生态系统上投入的大量资金和人力资源,对Spark目前的应用有所迟疑,但仍支持此处理框架,并且认为它读写大数据的方式会比MapReduce更快、更简单。
MapR再融资1.1亿美元推动Hadoop成长
与此同时,MapR也筹集了1.1亿美元推动Hadoop的发展。公司的CEO肯定了公司在专有工具上的优势,为顾客在组件提供了更多的选择:MapR支持少数的SQL-on-Hadoop工具,包括Hive和Drill,同时也支持Cloudera-developed Impala 和惠普的Vertica software。
此次MapR在Hadoop领域的融资力度明显加强,融资总额超过之前的总额5900万美元。当然,对于Hadoop的融资,Cloudera的5轮融资高达3亿美元,Hortonwork从创立之初到2013年的3年内融资金额就达到了1.98亿美元。
Spark和Hadoop将走向何方
在激烈的市场竞争中,Spark和Hadoop的未来发展还处于或多或少的争议中。
Spark服务的数据默认存储在亚马逊S3中,如果使用者拥有已经在AWS上正常运行的Hadoop集群,也可以将数据存储在HDFS中。Databricks可以从MongoDB、MySQL和亚马逊Redshift读进数据,也可以导出数据。公司有望支持混合cloud-local Spark环境,放在完全开放的Spark云中,能够有效实现工作负载的可移植性。
Hadoop的融资企业MapR选择了Google作为其合作伙伴之一,他们的走向代表了大数据的未来。Hadoop供应商竞争者也面临着巨大的竞争挑战。
Spark和Hadoop作为有效的数据处理框架,各自具有明显的优势,作为使用者,更快、更方便的解决自身所需也许是他们进行选择的因素之一,各融资者应加强各自服务应用的功能,更好地服务于客户,才能带来可观的市场利润。
参考文献:
Databricks announces a Spark cloud and M in venture capital(Databricks announces a Spark cloud and M in venture capital)
MapR raises 0M to fuel its enterprise Hadoop push(http://gigaom.com/2014/06/30/mapr-raises-110m-to-fuel-its-enterprise-hadoop-push/)
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。