环球第一财经

Dremio将机器学习添加到自助数据分析平台

更新时间:2021-01-19 14:20:26

Dremio Corp.将机器学习整合到其自助数据分析平台中,以提高性能并与Looker Data Science Inc.的同名商业智能查询引擎集成。

Dremio声称消除了将数据加载到数据仓库,多维多维数据集和聚合表以用于商业智能所需的费时的数据转换任务。它的数据反射技术基于开放源代码的Apache Arrow列式内存中查询引擎,可物理优化源数据的表示形式,以进行快速查询处理。Dremio分离了计算和存储功能,并使用内存处理来优化性能和成本。

该公司表示,此版本的增强功能可以将处理速度提高多达1000倍。现在,查询计划器会自动选择最佳反映,以加快对临时请求,商业智能和数据科学工作负载的查询。

Dremio现在还可以自动检测星形和雪花模式,它们是数据仓库场景中常用的多维表中数据的逻辑排列。首席执行官Tomer Shiran表示:“如果从概念上讲,可以感知星型或雪花模式,我们可以检测到它并优化查询,使它们以交互速度运行,而无需您将数据加载到立方体或仓库中。”

新版本包括一个管理引擎,该引擎可自动优化反射刷新的优先级,排序和排队以及错误恢复。在此版本中,用户现在还可以访问云对象存储,例如Amazon Web Services Inc.的S3和Microsoft Corp.的Azure Data Lake Store。此版本中对Apache Arrow的增强可将查询延迟减少多达60%。

边干边学

新的Dremio学习引擎会根据其在一段时间内用户查询中观察到的模式提出建议。“例如,如果我使用的是特定数据集,Dremio可以自动向我推荐另一个我不知道的数据集,该数据集适合与正在使用的数据组合,” Shiran说。

机器学习还用于在查询执行期间观察数据,以检测源系统中的架构更改并自动调整数据目录。当从非结构化源(如非结构化文本和NoSQL数据库)中查询数据时,此模式特别有用,其中模式在记录之间可能会有所不同。Dremio还可以考虑用户访问模式,智能地将元数据缓存并编入其目录中。

在此版本中,Dremio吸引了快速增长的Looker平台(如图所示)的用户,该平台通过直接从多个来源获取可视化数据来简化数据提取过程。Shiran说:“ Looker的设计主要是一次使用一个关系数据库。” “现在Dremio可以使MongoDB和ElasticSearch之类的东西看起来像一个关系数据库。您无需关系源即可获得Looker的所有优势,并且可以跨多个数据源执行联接。”

Dremio最近筹集了2500万美元的风险投资,使其总资金达到4000万美元。它提供了其分析引擎的开源版本和企业版本。许可是按节点按年订阅的,但该公司拒绝提供详细信息。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。