[机器学习、Spark]Spark MLlib分类

👨‍🎓👨‍🎓博主:发量不足

语义分割

📑📑本期更新内容:Spark MLlib分类🔥🔥

TI

📑📑下篇文章预告:Hadoop全分布部署🔥🔥🔥

华为云数字资产链服务

简介:耐心,自信来源于你强大的思想和知识基础!!

TCN

 

五一技术分享

目录

CBAM

一、线性支持向量机

强化学习

二、逻辑回归

Unity打包设置


 

宽度优先

854b79060b363355a334ab9b2fea1ba5.jpeg

dd

 

测试

MLB支持多种分类分新方法。如一元分类、多元分类

特征检测

分析方法

智能合约

相关算法

最短路径

二元分类

保存图片

线性支持向量机、逻辑回归、决策树、随机森林、梯度提升树、朴素贝叶斯

车牌识别

多元分类

报错处理

逻辑回归、决策树、随机森林朴素贝叶斯

LinearLayout

本文章主要介绍Spark MLlib的两种线性分类方法:线性支持向量机(SVM)和逻辑回归

addLast

一、线性支持向量机

线性支持向量机在机器学习领域中是一种常见的判别方法,是一一个有监督学习模型,通常用来进行模式识别,分类以及回归分析

模型格式转化

通过找到支持向量从而获得分类平面的方法,称为支持向量机。可以非常成功地处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。
MLlib中对支持向量机算法有较好的支持,用来解决一般线性回归和逻辑回归不好处理的数据分类内容,结果验证其准确性较好。

虚拟现实

1.导入线性支持向量机所需包

extern

fb370910183f4232b5de351594f5e48b.png

情感分析

 

web3.js

2.导入二元分类评估类

面试

ead7325e981e4b9bb7c218ff0c6a4b06.png

core dump

 

敏捷

3.MLUtils提供了一些辅助方法,用于加载,保存和预处理MLLib中使用的数据

小说

f303570fe6344fa9b97cb13d10eea6dc.png

数组

 

adb

4.加载Spark官方提供数据集

7705d3721c504ee5949ca20421814fcc.png

 

5.将数据的60%分为训练数据,40%分为测试数据

8f09eee8bfe84f8aa78d4888fbbf4296.png

 f01c452c2bea4ee68cf7a41ba001407d.png

 6fa4b4bca2044c4fac38afac264f6c6f.png

 

 

 

6.设置迭代次数

bc438b31b2464d6eb46115ed3d94d424.png

 

7.执行算法来构建模型

d358e2236f05443f96eba30a9bea27ff.png

 

8.用测试数据评估模型

475a342107714042a27f4452122b9578.png

 

9.获取评估指标

f9564358d6ba4e98aec63ce6e9f91778.png

 

10.计算二元分类的PR和ROC曲线下的面积

c719c484cfbb4257ba0d51d1be838a0d.png

 

11.保存并加载模型

 

ee204149875a4323999c90082ad49fd0.png

 1820a9ce5d5046b68bb501ebd32cafc3.png

 

二、逻辑回归

逻辑回归又称为逻辑回归分析,它是一个概率模型的分类算法,常用于数据挖掘、疾病自动诊断以及经济预测等领域。

逻辑回归和线性回归类似,但它不属于回归分析家族,差异主要是在于变量不同,因此其解法和生成曲线也不尽相同。逻辑回归也是无监督学习的一个重要算法,特别是用在二分分类中。
逻辑回归实际上就是对已有数据进行分析从而判断其结果可能是多少,它可以通过数学公式来表达。MLlib中MulticlassMetrics类是对数据进行分类的类,其中包括各种方法。

1.导人逻辑回归所需包

9af774d703794b16bfc26c9f6a56402d.png

 

2.导入分类评估器

 

 

 ea8c4ea7fd0b4f73b324dc0a227a99b3.png23f48113083a4f7c90c550fd0215be06.png

 bace41d9ecf849a69759a4c5e3bc0428.png

 

3.加载spark官方提供数据集

7ecfdc3f41af48b98791262decd9151c.png

 

4.将数据的60%分为训练数据,40%分为测试数据

7985b3d088b946a084cd13d70496e45b.png

 fd9ddb74dcd6415b9a1efcefba649042.png

 c72c50737387420a88fd0717418da98e.png

 

 

 

5.运行训练算法来构建模型

51482655094846298947974a1b88789a.png

 

6.用测试数据评估模型

e3c5d08a88234b2498c88c483828c38b.png

 

7.获取评估指标

870a2a94df934ac1adecd5196eb45b82.png

 

8.保存并加载模型

 

b366da4ca3db417fb99c97934e0a4b1b.png

 

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注