硅谷速递 | 猎杀本·拉登、操控美国大选、追踪新冠疫苗,大数据分析早已超出人类想象

by June 2020-11-11

硅谷不仅是世界高科技中心,也是新时代的灵魂,作为全球创新的聚集地,无论是基础的技术创新,还是下一代的技术应用创新,都有一批又一批的技术与应用来自“硅谷创新”。在硅谷我们不仅能看到专注于技术本身的创新科技,同时也能够看到一些真正好的技术与市场化的应用。我们希望大家有机会可以多去硅谷看一看,但是如果不能身临其境到硅谷,那么来到【硅谷速递】就是你最省时、最省力地获取硅谷最新科技动态的不二选择。

在这里我们将为大家速递美国硅谷最精彩、时效性最强的科技文章和学习资料,简约不简单是本栏目的最大特点,3篇短小精悍的文章,助你快速精准Get一项最新技术点!把握技术风向标,了解行业应用与实践,就交给【硅谷速递】吧~

速递先知

本期三篇超实用文章,带领大家走进“大数据分析”的硅谷世界:

  • 协助美国猎杀本·拉登的Palantir,以大数据分析“人机共生”理念提升客户的决策洞察力

  • 大数据分析之总统选举,看选举如何变成精妙的算法?

  • 常见的9种大数据分析方法

最近,全球最神秘的大数据公司Palantir又有新消息曝出,消息称该公司一直在帮助联邦卫生部门开发一款可以用来管理各种疫苗数据,并发现可能阻止注射情况的软件。这款系统名叫Tiberius,取自科幻电影“星际迷航”的角色James T. Kirk的中间名,代表着一次利用尖端数据科学,帮助联邦政府管理并保护美国人免受新冠病毒Covid-19伤害的尝试。

除此之外,Palantir的另一个数据收集和分析工具名为HHS Protect,其应用范围类似于Tiberius,美国卫生和人类服务部用它来追踪医院的Covid-19数据。文件提到,卫生官员可以使用分析和数据系统创建的地图来计划分配并做出疫苗剂量的分配决定,以及跟踪交付疫苗到医院、 诊所和其他打疫苗的机构。这些材料包括阿拉巴马州的一个例子,该州的地图上显示了各县的Covid-19病例趋势。

大数据情报分析公司Palantir在“大数据分析”领域所展现的相关技术与故事,一直以来都非常传奇,那么接下来我们就来看看那些早已超出人类想象的“大数据分析”吧。

协助美国猎杀本·拉登的Palantir,以大数据分析“人机共生”理念提升客户的决策洞察力

Palantir作为硅谷估值最高的初创公司之一,由硅谷风投教父Peter Thiel于2003年参与创立,该公司以大数据分析出名,以开发高度机密但却预算很高的数据分析项目著称。主要客户为政府机构和金融机构,最出名的案例是以大数据技术帮助美国军方成功定位和击毙基地组织首脑本·拉登。

目前Palantir有两大核心产品,Palantir Gotham和Palantir Metropolis,前者主要服务于国防安全和政府管理领域,后者主要服务于金融领域。两个产品线的核心技术是服务客户,整理和分析利用不同来源的结构化和非结构化数据,创造一种人脑决策和计算机智能共生的大数据分析环境及工具系统,利用人脑和大数据分析互补提升客户的决策洞察力。

大数据分析,一定面临数据多源异构、关联性、动态性和不确定性等复杂多变的问题,Palantir的“人机共生”大数据分析理念值得我们学习,而且很可能会是AI时代最为重要的大数据应用模式。

例如在军事情报分析和反欺诈分析方面,因为敌人或犯罪分子的应对手段是动态变化的,只靠历史数据分析是不够的,而且最新动态信息不能实时更新的话,分析结果可能会造成严重误导,换句话说,大数据系统一定要解决动态、增量、反馈、决策这几个关键问题,基于数据科学迭代本质,要把这几个方面串起来,形成完整的分析链和迭代分析环境,从某种程度上讲就是类似Palantir的人机共生环境。

大数据不仅仅是数据采集、分析和管理,更为重要的是将领域业务、知识模型和本体抽象融合,把人的理解和决策与机器智能的融合、计算、推理、实时迭代等能力强强联合,是Palantir最为核心的大数据技术,另外Palantir做的不只是产品,通过技术人员的现场服务,帮助分析人员理解融入人机共生的大数据分析环境,才能最大化大数据系统的决策价值。

大数据分析之总统选举,看选举如何变成精妙的算法?

2020年美国总统大选可谓是跌宕起伏,反转,反转,再反转,看得人目不暇接。相较于比赛本身而言,预测选举则更为有趣。

如今,人们早已被智能设备包裹,每个人的日常生活轨迹、行为偏好等都被其进行分类并记录,形成独一无二的心理画像。与过去相比,大数据分析技术已经日臻完善,现今的总统选举在利用大数据分析这一方面更是大张旗鼓。大数据分析现在是大型政治选举的桌面筹码,当需要帮助政治家尽可能有效地拉选票时,大数据收集和整理就必不可少了。

那么,说到大数据分析帮助总统选举,就不得不提到两个公司,TargetSmart 公司为民主党派和州民主党派以及他们的同盟提供大数据分析和服务;Deep Root Analytics则为共和党及其从属团队提供数据分析。

两者都是利用 Alteryx 的软件来容纳、净化、混合以及分析来源不同的大规模资料,这种分析软件以一种最有效的方法,来分析所有选民的年龄结构,根据不同年龄分段打分,然后利用这些资讯来优化他们在媒体上的花销,特别是在非常重要的电视广告上。

Deep Root 利用它的分析模型来告诉参选者,在他们已有电视预算的条件下,哪些地方能获得最大的收获。正如企业主管Seawright 表示,资料分析在每天的决策过程中发挥很重要的作用;TargetSmart 透过利用个人可辨识的信息,将2.55 亿国内投票者资料与类似 Facebook、Google、MSN 等数码平台上的使用者匹配,利用社交媒体资料来更广泛地理解人们的消费方式,以及人们与社交媒体连接的方式,这对于大数据分析而言将会更有价值。

接下来为大家简单介绍一下大数据学习最经典的五种数据分析算法。

1、快速排序法,是由东尼 · 霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n) 次比较。在最坏状况下则需要Ο(n2) 次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来;

2、堆排序算法,是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子节点的键值或索引总是小于(或者大于)它的父节点,堆排序的平均时间复杂度为Ο(nlogn) ;

3、归并排序,是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用;

4、二分查找算法,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束。如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较,如果在某一步骤数组为空,则代表找不到;

5、BFPRT 算法解决的问题十分经典,即从某 n 个元素的序列中选出第 k 大(第 k 小)的元素,通过巧妙的分析,BFPRT可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似,当然为使得算法在最坏情况下,依然能达到 Ο(n) 的时间复杂度,五位算法作者做了精妙的处理。

常见的9种大数据分析方法

数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分类方法和数据处理模式,才能起到事半功倍的效果,以下是数据分析员必备的9种数据分析思维模式:

1、分类是一种基本的数据分析方式,数据根据其特点可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。

2、聚类是根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大的一种分类方式,其与分类分析不同,所划分的类是未知的,因此聚类分析也称为无指导或无监督的学习。该方法在许多领域受到广泛应用,包括机器学习、数据挖掘、模式识别、图像分析以及生物信息。

3、回归是一种运用广泛的统计分析方法,可以通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够很好的拟合实测数据,如果能够很好的拟合,则可以根据自变量作进一步预测。

4、频繁项集是指事例中频繁出现的项的集合,如啤酒和尿不湿,Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,目前已被广泛的应用在商业、网络安全等领域。

5、相似匹配是通过一定的方法来计算两个数据的相似程度,相似程度通常会用一个是百分比来衡量。相似匹配算法被用在很多不同的计算场景,如数据清洗、用户输入纠错、推荐统计、剽窃检测系统、自动评分系统、网页搜索和DNA序列匹配等领域。

6、数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据冗余和存储空间的一种技术方法。

7、链接预测是一种预测数据之间本应存有的关系的一种方法,链接预测可分为基于节点属性的预测和基于网络结构的预测,基于节点之间属性的链接预测包括分析节点资审的属性和节点之间属性的关系等信息,利用节点信息知识集和节点相似度等方法得到节点之间隐藏的关系。与基于节点属性的链接预测相比,网络结构数据更容易获得,复杂网络领域一个主要的观点表明,网络中的个体的特质没有个体间的关系重要,因此基于网络结构的链接预测受到越来越多的关注。

8、统计描述是根据数据的特点,用一定的统计指标和指标体系,表明数据所反馈的信息,是对数据分析的基础处理工作,主要方法包括:平均指标和变异指标的计算、资料分布形态的图形表现等。

9、因果分析法是利用事物发展变化的因果关系来进行预测的方法,运用因果分析法进行市场预测,主要是采用回归分析方法,除此之外,计算经济模型和投人产出分析等方法也较为常用。

以上是数据分析员应熟练掌握的9种数据分析法,当然数据分析员应根据实际情况合理运用不同的方法,以便快速精确的挖掘出更有价值的信息!

参考文章:

【1】Big Data Analysis and Mining
【2】Predicting the Presidential Election
【3】大数据独角兽Palantir之核心技术探秘

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.