硅谷速递 | 在硅谷,这类人刚入行就能领到10万美元薪水,看硅谷巨头如何玩转大数据?

by June 2020-10-26

硅谷不仅是世界高科技中心,也是新时代的灵魂,作为全球创新的聚集地,无论是基础的技术创新,还是下一代的技术应用创新,都有一批又一批的技术与应用来自“硅谷创新”。在硅谷我们不仅能看到专注于技术本身的创新科技,同时也能够看到一些真正好的技术与市场化的应用。我们希望大家有机会可以多去硅谷看一看,但是如果不能身临其境到硅谷,那么来到【硅谷速递】就是你最省时、最省力地获取硅谷最新科技动态的不二选择。

在这里我们将为大家速递美国硅谷最精彩、时效性最强的科技文章和学习资料,简约不简单是本栏目的最大特点,3篇短小精悍的文章,助你快速精准Get一项最新技术点!把握技术风向标,了解行业应用与实践,就交给【硅谷速递】吧~

速递先知

硅谷是非常神奇的地方,科技概念在这里也不能免俗的会被追捧,但这种激情和关注某种程度上正是硅谷创新的动力。本期三篇超实用文章,带领大家走进“改变世界”的硅谷世界:

  • 什么是 “改变世界” 的大数据公司 ?

  • 在硅谷大数据公司,这类人刚入行就能领到10万美元的薪水

  • 硅谷巨头如何玩转大数据?

什么是 “改变世界” 的大数据公司

难道有数据就叫大数据公司了?如果庆丰包子铺留存有半个多世纪以来的购买者和交易记录,它就能叫大数据公司了?

是,但也不是。

先归纳一下硅谷 “大数据公司” 的类型,有补充或修正的请拍砖:

数据的拥有者、数据源:特点是通过业务优势能收集到大量数据,就像煤老板垄断一个地区的矿产一样,其实大多数有能力产生或收集数据的公司都属于这种类型,比如 Vantage Sports 和收集了 PB 级数据的包子铺。

大数据咨询:特点是技术性强,提供从基础设施规划建设维护到软件开发和数据分析等多项服务,但不拥有数据,比如Cloudera这家不到 500 人的曾经的初创公司 ,是最著名的 Hadoop 架构咨询公司。

做大数据工具的:比如 AMPLab 出来的Databricks和 Yahoo 人主导的Hortonworks。

整合应用型:特点是收集拥有或购买一些数据,然后结合 AI 来解决更多实际的痛点。

所以回过头来看“庆丰包子铺是不是大数据公司”的问题:是,因为包子铺只要收集的消费者数据量足够大就能成为数据拥有者,有那么大的数据就有得到洞见的可能;不是,因为可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。

我们相信未来是 AI 的,而 AI 的食物是数据。就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用 AI 进行分析的能力会变得更为关键。

再看硅谷主打 AI 的公司,现在大致可以分成以下三类:1. 分析用户行为,改进产品和营销的,比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销;2. 统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如 Uber 和 Amazon Fresh 及 Grub Market;3. 分析识别各种类型的数据,开发更智能的设备和程序,比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。

这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。

在硅谷大数据公司,这类人刚入行就能领到10万美元的薪水

那么大数据公司,或者说真正可以改变世界的大数据公司需要什么样的人才呢?这里要介绍一个在硅谷被炒得很热的高频词汇:数据科学家。

这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取,那是数据工程师的活。那产生的原因是什么呢?正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分,而且量越大越好。从数学角度上来说,数据越多,我们越有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI 越来越智能。

由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了,以至于刚入行的新人也能领到差不多10万美元的薪水。而模糊的定义和误解也让有的人戏称,data scientist is a data analyst living in the bay area。

值得一提的是,数据本身的飞速发展,其实也给数据工程师们在大数据处理方面带来了许多挑战。主要来源于以下两个方面:

第一,数据量的急速增长。如今,数据的产生变得异常容易。社交网络,移动应用,几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时,我们就需要新的储存方式,如云储存,以及新的处理方案,如 Hadoop 这样的分布计算平台。

第二,数据本身的非结构化。在传统的数据处理领域,我们处理的主要是结构化数据,例如,Excel 表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据,如社交网络的评论,用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中,这些数据中隐含着众多有价值的信息,但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等一系列新的算法来进行数据挖掘,这也就成为了 “大数据” 的挑战所在。

目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网领域。其实现在智能设备才刚刚起步,被 Nest 收购的Dropcam、Iotera、emberlight等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。

另外一个角度就是人。如果把之前谈及的设备全部置换成个人的时候,他们的相互关系在各种维度上的交错会产生一张巨大的网络,其中每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向,即Social Physics。不过按照从硅谷到全国的发展速度,感觉不管哪一方面的普及起码得等上五年以上的时间。

展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。

硅谷巨头Google如何玩转大数据?

作为世界上最大的搜索引擎,Google 和大数据的关系又是怎样的呢?这确实是一个很有意思的话题。

Google 在大数据方面的基础产品最早是 2003年发布的第一个大规模商用分布式文件系统 GFS(Google File System),主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代 NoSQL 数据库的鼻祖。

GFS 为大数据的计算实现提供了可能,现在涌现出的各种文件系统和 NoSQL 数据库不可否认的都受到 了Google 这些早期项目的影响。

随后 2004年和2006年分别发布的 Map Reduce 和 Big Table,奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖・布林和拉里・佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。

2011年,Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery,有点类似于 Amazon 的 AWS,虽然目前从市场占有率上看与 AWS 还不在一个数量级,但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了 BigQuery 可视化查询工具,抢占了大数据存储和分析的市场。

BigQuery 和 GAE(Google App Engine)等 Google 自有业务服务器构建了一个大数据生态圈,程序创建、数据收集、数据处理和数据分析等形成了闭环。

再来看 Google 的产品线,搜索、广告、地图、图像、音乐、视频,这些都是要靠大数据来支撑的,根据不同种类数据建立模型进行优化,以此提升用户体验及市场占有率。

单独说一下 Google maps,这个全球在移动地图市场拥有超过 40%的市场占有率的产品,也是美国的出行神器。它几乎表示了全球有互联网覆盖的每个角落,对建筑物的 3D 视觉处理也较早就完成来,这个数据处理的工作量可能是目前最大的,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。

Google 还把 Google+,Panoramio 和其他 Google 云平台的图片进行了标记和处理,将图片内容和地理位置信息结合在一起,图像识别和社交系统评分处理后,Google 能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。

大数据为 Google 带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的 Google 广告。当然,它是一把双刃剑,如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.