机器学习业务实践

by Norman Wang 2018-08-19

下一代计算

Apache Spark是一个快速,通用的分布式计算平台,并且为大数据领域带来了革命性的变化,比Hadoop的MapReduce快10到100倍。通过支持Python,Java,Scala以及R,Spark对广泛的用户提供了运算平台,从对Python和R比较偏好的的数据科学家社区,到普遍存在的Java社区以及使用日益流行的Scala社区,Spark似乎被运用的越来越广泛,然而,搭建一个Spark的运行环境,并让他和已经存在的大数据原有组件进行兼容,是一个耗时间且复杂的事情。

通过本文,你可以看到在BDOS上可以一键启动Zeppline,提供一个即时在生产环境上可用的Spark运行环境,只需要一个BDOS的账号,你即刻在Zeppline上运行你的Spark程序,并且通过Zeppelin提供的交互式分析查询提供了可视化界面,你可以大大集中在数据挖掘,分析,和机器学习上面,并不需要担心任何,有关编译,依赖,配置的问题,并且通过BDOS启动的Zeppline,是一个一开始就可以和你现有的大数据组件和数据兼容的环境,你可以随时使用存在BDOS里面其他组件里面的数据,并且Zeppline里面运行结束的数据,也可以供给给其他的组件使用。

商业场景扩展

**自定义数据库的数据可视化和统建 **

通过使用Apache Zeppelin编译器概念,你可以将任何语言/数据处理后端插入Zeppelin。 Zeppelin支持许多编译器,如Apache Spark,Python,JDBC,Markdown和Shell。通过这个特性你可以为轻松实现使用存储在BDOS的MongoDB和MySQL的数据,通过你的Spark程序来查询并可视化真个过程,从而获取你的商业洞见

**交通事件可视化和预测 **

通过使用BDOS提供的一站式环境,你可以一站式分析,交通事件的数据,通过事件发生的类型,事件发生的日期和时间和事件地点的经纬度,将所有的这一些集中一起并提取其中能够被预见的事情,能够大大的辅助队城市交通的治理工作,而达到这一切,你仅仅只需要在BDOS上接通所需事件的事件数据集,数据提取与探索,数据操作,数据可视化,Spark&R的程序进行探索,所有的这一些步骤,仅仅只需要几次点击即刻在BDOS上完成

**探索性分析 – **

数据科学家需要做探索性分析,通常必须对数据进行采样,想要快速并且高效的实现的话。他们需要一个完全进行交互式探索的平台,无论选择的开发语言是SQL,R,Python还是Scala,他们都能快速的进行交互式的探索实验,并随时随地对“小数据”用例进行分析,一个基于浏览器的界面,笔记本样式的交互界面可以大大提升数据科学家研究效率

场景实现

本场景教程,截取于网络入侵的检测场景,适用于引导你企业的数据科学家通过在BDOS系统上面启动Zeppelin并使用其主要功能,了解如何构建和训练模型数据模型, 着重演示机器学习的过程。

通过BDOS Online提供的快速入口,可以迅速启动Zeppline。在启动的Zeppline的界面,点击“import note”,这个按钮允许一键导入一个机器学习的Notebook的模板,这个以帮助你在实际的编写机器学习算法之前就能直观的看到结果,体验数据科学家的工作环境,这里我们使用“Add from URL” 选项,通过一个URL的链接来生成一个机遇K-Means的Spark 机器学习场景

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.