当前位置：首页 > news >正文

创建企业网站的步骤现在比较好的营销平台

news 2025/8/10 16:13:33

创建企业网站的步骤,现在比较好的营销平台,江门市住房和城乡建设局网站,电脑做兼职找那个网站特征选择与类不平衡处理技术一、特征选择方法 1. 过滤法（Filter Methods） 原理： 基于统计学方法或特征本身的分布特性独立于模型进行特征筛选，通过计算特征与目标变量的相关性或特征的发散性进行排序选择。典型方法&#xf…

特征选择与类不平衡处理技术

一、特征选择方法

1. 过滤法（Filter Methods）

原理：
基于统计学方法或特征本身的分布特性独立于模型进行特征筛选，通过计算特征与目标变量的相关性或特征的发散性进行排序选择。

典型方法：

卡方检验：
原理：评估特征与标签的独立性，卡方值越大表示特征与标签相关性越强。
步骤：
1. 计算每个特征的卡方统计量 $Σ\frac{(实际频数-理论频数)^2}{理论频数}$
2. 按卡方值从高到低排序，选择Top-K特征。
方差过滤：
原理：移除方差接近0的特征（认为其区分度低）。
步骤：
1. 计算各特征的方差
2. 设定阈值，删除方差低于阈值的特征（如sklearn.VarianceThreshold）。

2. 包裹法（Wrapper Methods）

原理：
将特征选择视为搜索问题，通过模型的性能反馈迭代选择最优特征子集，与特定学习器耦合。

典型方法：

递归特征消除（RFE）：
原理：反复训练模型并剔除权重最低的特征，直至达到目标特征数。
步骤：
1. 训练基模型（如SVM、逻辑回归）
2. 根据特征重要性排序
3. 移除最不重要特征，重复直至剩余指定特征数。
遗传算法：
原理：模拟生物进化过程，通过交叉、变异等操作优化特征子集。
步骤：
1. 初始化种群（随机特征子集）
2. 计算适应度（模型性能）
3. 选择、交叉、变异生成新种群
4. 迭代至收敛。

3. 嵌入法（Embedded Methods）

原理：
在模型训练过程中自动完成特征选择，通过正则化或特征重要性评估实现。

典型方法：

L1正则化（LASSO）：
原理：通过L1惩罚项使部分特征的系数归零，实现特征稀疏化。
步骤：
1. 定义损失函数（如 $Σ(y_i - ŷ_i)^2 + λΣ|w_j|$ ）
2. 优化求解，保留非零系数对应的特征。
树模型特征重要性：
原理：基于特征在树节点分裂中的贡献度（如基尼指数、信息增益）评估重要性。
步骤：
1. 训练随机森林/XGBoost
2. 提取feature_importances_属性
3. 按重要性阈值筛选特征。

二、类不平衡处理方法

1. 过采样（Oversampling）

SMOTE（Synthetic Minority Oversampling）
原理：在少数类样本的K近邻之间线性插值生成新样本，避免简单复制导致的过拟合。
步骤：

对每个少数类样本 $x_i$ ，计算其K近邻（欧氏距离）
随机选择近邻 $x_j$ ，生成新样本：
$x_{new} = x_i + rand(0,1) × (x_j - x_i)$
重复直至类别平衡。

改进方法：

Borderline-SMOTE：仅对边界样本过采样
ADASYN：根据样本密度自适应调整生成数量。

2. 欠采样（Undersampling）

随机欠采样：
原理：随机删除多数类样本以平衡类别分布。
步骤：

计算少数类样本数 $N_{min}$
从多数类中随机抽取 $N_{min}$ 个样本。

聚类欠采样（如K-Means）：
原理：对多数类聚类后从每个簇中选取代表性样本。
步骤：

将多数类聚类为K个簇（K=少数类样本数）
从每个簇中随机抽取1个样本与少数类合并。

3. 调整类别权重

Focal Loss
原理：通过调节因子γ和类别平衡因子α，降低易分类样本的损失权重，聚焦难分类样本。
公式：
$FL(p_t) = -α_t(1-p_t)^γ \log(p_t)$

$α$ ：平衡正负样本权重（如正样本α=0.75，负样本α=0.25）
$γ$ ：调节难易样本权重（γ=2时效果最佳）。

步骤：

在交叉熵损失基础上引入α和γ参数
训练时动态调整样本权重。

三、评估方法

1. AUC-ROC曲线

原理：

横轴（FPR）= FP/(FP+TN)，纵轴（TPR）= TP/(TP+FN)
AUC值表示模型区分正负类的能力，AUC=1为完美分类，AUC=0.5为随机猜测。

步骤：

按预测概率降序排列样本
遍历阈值计算TPR/FPR
绘制ROC曲线，使用梯形法则计算AUC。

2. PR曲线

原理：

横轴（Recall）= TP/(TP+FN)，纵轴（Precision）= TP/(TP+FP)
适用于类别高度不平衡场景，AUPR越接近1模型越好。

步骤：

按预测概率降序排列样本
遍历阈值计算Precision/Recall
绘制PR曲线，计算AUPR。

http://www.cadmedia.cn/news/2326.html

相关文章：

小程序源码资源附子seo教程

云南住房与建设厅网站潍坊百度seo公司

建设网站宽度最好是多少钱站内seo是什么意思

政府网站和政务新媒体建设管理办法长沙网站制作关键词推广

石家庄关键词排名提升seo文章范文

装修设计专业seo同行网站

icp备案需要先建设网站么关键词优化外包

北京小程序网站制作模板网站建站公司

吉林网站网站建设外贸seo网站推广

太原网站建设价格种子搜索引擎磁力天堂

成都网站建设有名的制作链接的app的软件

初中网站建设南京seo外包

规范门户网站的建设和管理办法广东短视频seo搜索哪家好

厦门建设企业网站建设湘潭网站seo磐石网络

怎么制作网站视频教程步骤2021年十大热点事件

自己网站上做支付宝怎么收费的seo快速排名工具

怎么向百度提交网站友情链接的检查方法

正规网站建设建设公司seo全站优化全案例

太原百度网站建设seo交流

装修公司加盟哪家好网站优化福州

定制西装需要多少钱推广优化关键词

路由器做网站终端seo薪酬水平

加强局网站建设品牌广告

广告推广费用上海牛巨微seo关键词优化

重庆装饰公司15大排名济南seo网络优化公司

什么网站可以做时间加减关注公众号推广2元一个

北京专业做网站的公司太原百度推广开户

插画师培训网站建设友情链接是免费的吗

手机海外代理ipseo黑帽有哪些技术

搜狐三季度营收多少长沙网站优化