分析公司IDC预计,数据总量将从2016年的16.1ZB增长到2025年的163ZB。所以根据调研公司MarketsandMarkets的预计,对管理这些数据并让这些数据变得更有价值的大数据软件和服务需求将以每年超过18%的速度增长。
大数据领域有很多专注于提供解决连接分散数据源、将数据迁移到云以便更轻松地访问和分析等问题的解决方案。此外,在大数据软件中将机器学习与其他人工智能技术相融合,使其比现在更智能,这个趋势也越来越明显。
下面就是2017年上半年值得我们关注的、最酷的10家大数据初创公司:
AtScale
CEO: Dave Mariani
在收集和管理大数据方面,Hadoop也许很流行,但是访问这些数据、分析数据并从数据中提取价值就会遇到一些问题。
AtScale开发的软件能够让Tableau和Qlik这样受欢迎的商业智能工具来访问保存在Hadoop集群中的数据,实际上它将Hadoop变成了一台在线分析处理服务器,可以用于多维度的分析。
AtScale公司创建于2013年,位于加州圣玛特奥,它为自己的计算引擎能力申请了专利,这种引擎能够与任何BI可视化工具相提并论。6月,该公司发布了AtScale 5.5,新增功能包括高可用性部署、预定义的聚合、支持复杂业务用例和分析模型。
DataRobot
CEO: Jeremy Achin
机器学习很热,创建于2012年的DataRobot公司专门开发一种自动化机器学习平台,获取数据科学家的经验和最佳实践,并利用这些信息构建和部署预测模型,时间远远短于使用传统工具和技术。
位于波士顿的DataRobot公司,在今年5月收购了Nutonian——另一家专注于时间序列分析模型的数据科学软件开发商。
3月,DataRobot在C轮融资中获得了5400万美元,总融资金额超过1.2亿美元。
DataScience
CEO: Ian Swanson
如今数据科学家是很抢手且短缺的,所以企业正在寻求以各种方式最大限度地利用数据科学家的时间,充分发挥他们的才能。
DataScience提供的企业级数据科学平台将工具、库和语言与IT基础设施和业务工作流结合起来。5月发布的广泛更新,提供了本地或者云部署选择——后者是跨多个云服务提供商——以及安全性、定制工作流,且支持更广泛的数据科学编程语言。
DataScience创建于2014年,位于加州卡尔弗市。6月,DataScience与开源人工智能系统开发商H2O.ai达成联盟,此举将让数据科学家利用DataScience平台部署人工智能和深度学习模型。
Endor
CEO: Doron Alter
Endor开发了一个预测分析平台,可以让企业用户询问任何问题,例如“谁有可能尝试这种新产品?”以及“我们应该在哪里开设我们的下一家商店?”,并且在几分钟内得到答案。
Endor的专有技术是基于来自麻省理工学院研究的“社会物理学”。虽然机器学习很擅长预测,但是当设备关键部分发生故障的时候,社会物理学就会利用大数据分析和生物学的数学模型来了解人类群体的行为。
Endor(是的,它的名字和星球大战中的行星名字相同)成立于2014年,位于以色列特拉维夫。今年,Gartner将该公司评为商业智能领域中的“酷厂商”,“世界经济论坛”则将其命名为技术先驱。
Gluent
CEO: Tanel Poder
Gluent开发的数据虚拟化技术能够实现这家位于达拉斯的初创公司所谓的“混合数据”计算。Gluent Data Platform将数据从传统关系型数据库系统卸载到Hadoop,同时仍然提供对这些数据的访问。
Gluent的系统让企业能够利用基于云或者本地Hadoop集群的灵活性和可扩展性,同时提高队列性能,降低SAN和关系型数据库许可成本。
Gluent被Gartner评为数据管理领域的“酷厂商”,并在3月Strata + Hadoop World Startup Showcase获得第二名。
Iguazio
CEO: Asaf Somekh
Iguazio Continuous Analytics Data Platform简化了大数据、物联网和云原生应用的业务分析流程,将不同的数据类型和工作负载进行统一。
Iguazio系统通过多个协议和行业标准API创建了一个统一的数据模型,后者包括兼容Amazon的流和表格、对象和文件API。任何类型的数据都以归一化和搜索优化的形式保存一次,动态转换,无需拷贝、ETL流程和复杂的数据管道。
Iguazio创建于2014年,位于以色列荷兹利亚,被Gartner评为2017年数据管理领域的“酷厂商”。
Maana
CEO: Babur Ozden
Maana开发它所谓的“以知识为核心的”数据搜索和发现软件。Maana Knowledge Platform从多个分散的系统或者“孤岛”收集数据,并将其转换为可被业务线应用采用的运营洞察。
在Maana系统的核心,是它的Knowledge Graph专利技术及算法,提供了对业务希望优化的资产或者流程的一体化视图。Maana的关注点主要是在石油和天然气行业的行业应用和客户。Maana最大的投资方是能源公司,包括壳牌、雪佛龙和沙特阿美公司。
Maana创建于2012年,位于加州帕洛阿尔托,最近被评为世界经济论坛的技术先驱之一。
Nexla
CEO: Saket Saurabh
Nexla开发的数据运营平台利用机器学习技术监控和调整数据,并实时地在公司之间安全迁移数据。Nexla认为,通过将这些数据操作自动化,可以更快速地从他们的数据中获得价值。
Nexla创建于去年,位于加州Millbrae,刚刚在5月发布了其产品的公开测试版。同时,Nexla在种子融资中获得了350万美元。
Nexla在3月的Strata + Hadoop World大会上获得了创业展示最高奖项,引起人们的关注。
Panoply.io
CEO: Yaniv Leven
Panoply.io开发的基于云的数据仓库系统,可以全面全自动化做复杂且耗费时间的数据准备、建模和管理流程。
Panoply的系统与AWS Redshift服务协作,结合机器学习与自然语言处理以执行很多通常由数据工程师、服务器开发者以及数据科学家做的工作,通过减少编码时间和数据转换工作节省大量时间。
Panoply.io创建于2015年,位于以色列特拉维夫。
Periscope Data
CEO: Harry Glaser
Periscope Data的软件连接多个数据库,让用户可以对保存在多个系统中的数据运行SQL查询,并且生成可以在整个公司分享的交互式仪表板和图表。Periscope Database Cache是一种具有柱状存储的分布式架构,是Periscope系统中的关键技术。
Periscope Data创建于2012年,位于旧金山,在2016年11月的B轮融资中获得2500万美元。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。