机器学习之美食评分预测

by zhuofan 2021-05-25

项目背景

本项目展示了对一个既包含文字类信息又包含数字型信息的数据集,通过线性回归模型对用户评分进行预测的机器学习过程。原始数据来源:foodreview。数据集包含了1999年10月到2012年10月,Amozon用户对于美食的评论数据。

本介绍以视频的形式,向大家展示一个机器学习通过线性回归模型进行用户评分预测的实例,过程包括数据采集、数据处理和数据分析这几个步骤:

步骤0: 克隆公共项目到个人/机构

克隆已准备好的完整项目到个人/机构进行体验。

步骤1:URL 文件导入

在BDOS Online大数据平台,用户可通过URL文件导入,导入分析数据到系统的HDFS。

步骤2:将数据导入到目标 Hive 库

在BDOS Online大数据平台,用户可通过HDFS 到 Hive 导入步骤把数据导入到目标 Hive 库。

步骤3:进入JupyterLab,并对数据进行处理和导出

进入JupyterLab,新建PySpark notebook,并在PySpark程序步骤对美食测评demo数据进行处理并导出。

步骤4:特征提取

在JupyterLab中新建PySpark notebook,在PySpark程序中运用文本特征提取模型,将用户评论数据转换为特征向量。

步骤5:线性回归模型预测

在JupyterLab中新建PySpark notebook,在PySpark程序中针对线性回归模型模型,测试不同的参数组合,最后导出最优参数组合的模型以及该模型的预测结果。

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.