帮助大数据民主化

mg游戏开始砖的时候, mg游戏认为从大数据中提取见解是非常困难的. 你几乎需要一个高学历才能完成任何有意义的工作. 作为一个结果, 每个组织中只有少数人能够从他们的大数据中提出问题, 建立集群的人,知道如何使用高级工具,如Hive和MapReduce. 因此,mg游戏着手打造一个软件服务产品,大大简化大数据处理.

在游戏发行后不久,mg游戏发现了一些有趣的事情. 在许多组织, 一场民主化运动正在进行,越来越多的人开始使用砖从数据中提出问题. 他们不再被那些知道如何与数据对话的少数人所束缚. 然而, 因为一些组织有上百个用户在使用砖, 新的挑战出现了. 首先,用户希望控制对其数据的访问. 其次,他们需要对多个Apache Spark版本进行版本控制和管理. 第三,他们需要共和党的支持. 这些要求都是相互关联的. 我很自豪地宣布,经过艰苦的努力, mg游戏现在发布的砖具有所有这些功能. 下面我将解释这些特性是如何产生的,以及这些特性背后的经验教训.

不同职能的员工开始从数据中提问, 很快,控制组织中的谁应该看到或修改他们的查询就变成了一个困难的需求, 哪些可能包含非常敏感的信息或由于安全遵从性原因无法共享. 这在大型组织中是很自然的. 在mg游戏的案例中, 这个需求变得更加重要,因为mg游戏开发了一种新的方式,可以让数百个用户在同一个共享Spark集群上使用不同的笔记本电脑, 为组织节省巨大的成本. 这在以前是不可能的, 与此特性之前一样, 每个笔记本和用户都必须有一个独立的集群. 通过启用这种集群共享, 更重要的是,你的同事不能偷看你最敏感的笔记本. 砖现在带有访问控制功能,可以让你控制谁可以看到, 谁可以运行和参数化, 可以编辑和管理你的笔记本. mg游戏是第一个为Spark提供此特性的厂商.

截屏2015-08-04 9:00.59.01 PM在数据块中设置权限

从第一天开始,mg游戏就试图让在实时笔记本上的协作变得非常容易, 具有实时更新和评论功能. 但是当协作开始真正发生时,用户想要有可审核性. 谁修改了我的笔记本,我怎样才能回到以前的版本? 此外,许多用户已经在使用外部版本控制系统,如GitHub. 最后, 许多用户有时想在一个小的实验性集群上探索Spark版本的一些新特性, 但在生产集群上继续使用旧的Spark版本. 随着他们在新的Spark版本中获得了更多的经验, 他们想在新的Spark版本上重新使用他们的旧笔记本. 因此, 他们想要管理多个Spark版本,并且能够在工作和笔记本电脑之间轻松切换. 目前的砖版本带有这些功能来进行版本控制, GitHub集成, Spark多版本管理.

截屏2015-08-05.28.06 AM笔记本版本控制

最后, 随着越来越多的工作职能部门开始从数据中提出问题, mg游戏听到的更多,想要使用R作为他们与数据对话的首选语言. SQL和Python已经被支持了一段时间,它们非常流行. 但是mg游戏没有R支持. 这一趋势似乎非常明显,因为很多没有计算机学位的人都在大学接受R培训, 在类, 和其他设置. 因此,mg游戏加速了SparkR与Spark的合并 在砖中添加了R作为第一语言这使mg游戏成为第一家在商业上支持SparkR的公司.

RNotebooksR笔记本在砖

这次发布的砖被称为“版本2”.0”,因为它包含了许多上述所有特性,使得许多组织内部的民主化努力得以实现. 我在版本号旁边加了引号, 因为SaaS产品版本的角色与传统软件不同. mg游戏将继续保持两周的发布时间, 每一个都包含了用户要求的令人兴奋的新功能.

自己试试这些功能 请让mg游戏知道你的想法.

 

 

可以免费试用砖 开始

报名