请停止对分类变量进行独热编码!

请停止对分类变量进行独热编码!

2021年3月14日

字幕组双语原文:请停止对分类变量进行独热编码!

独热编码,又称虚拟变量,是一种将分类变量转换为若干二进制列的方法,其中1表示存在属于该类别的那一行。

这些方法都是有监督的编码器,或者说是考虑目标变量的编码方法,因此他们在预测任务中大都效果较好。然而当需要进行无监督分析时,他们就未必能取得类似的结果。

很显然,从机器学习的角度来看,它并不是一个对分类变量编码的很好的选择。

雷锋字幕组是一个由 AI 爱好者组成的翻译团队,汇聚五百多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业变革与技术创新的见解。

当然,如果只有三个或四个类别,独热编码可能还不是那么糟糕,但根据数据集的相对大小,探索其他选择也是值得。

留一法编码试图弥补这种对y变量的依赖,并通过排除当前行的数值来计算平均值作为编码,使数值更加多样化。这种方法可以消除离群值的影响,并生成了更多样化的编码值。

当地时间11月9日,在美国首都华盛顿,民众在室外餐厅保持“社交距离”就餐。当天,美国新冠肺炎确诊人数累计突破1000万人,死亡人数超过23.8万人。 中新社记者 沙晗汀 摄

《西雅图时报》援引因斯利的话说,新措施将至少持续四个星期。他说:“我们希望能取得进展,限制措施的期限能够不再延长。”

然后通过贝叶斯模型将这些分布的属性纳入其中,从而能够产生一个更了解类别标签分布的编码。但是,这种方法结果可解释性较差。

由于该方法显示了每个编码类相同的数值和范围,因此他可以学到更好的泛化能力。

要实现这一点,可以使用category_encoders库。由于目标编码器是一种监督方法,所以它需要包含x和y两个值才能训练。

当地时间11月9日,位于大华盛顿地区一车管局内,摆放一佩戴口罩的黑熊玩偶,提醒民众佩戴口罩。当天,美国新冠肺炎确诊人数累计突破1000万人,死亡人数超过23.8万人。中新社记者 沙晗汀 摄

美国全国广播公司报道称,俄勒冈州与新墨西哥州也于13日颁布了类似的限制措施。(完)

它不仅给数据集增加了大量的维度,而且冗余信息太多——1偶尔点缀在零的海洋中。这个异常稀疏的矩阵,使得它很难处理优化问题。对于神经网络来说尤其如此,这几十个空的维度使得神经网络的优化器在错误空间中寻找最优解时就会遇到许多麻烦。

雷锋网版权文章,。详情见转载须知。

在本次活动中小岛秀夫还谈及了PC版《死亡搁浅》的情况,新川洋司谈及了PC版的特性与设计。感兴趣的朋友可以详细查看本段视频了解详情。

非线性PCA是一种通过使用分类量化来处理分类变量的PCA方法。它可以为类别找到最佳的数值,从而使常规PCA的性能(解释方差)最大化。在下面阅读更多信息:超越普通PCA:非线性主成分分析在这里的类别编码文档中探索其他几种编码选项。

贝叶斯标签编码是一种更偏向数学的方法,将标签作为一种编码方法。只使用平均数作为度量可能存在一定的欺骗性,因此贝叶斯标签编码寻求纳入标签变量分布的其他统计量,例如它的方差或偏度–被称为 “高矩”。

但主要的是,这种编码方法会对变量y非常敏感,从而影响模型提取编码信息的能力。

另一种能实现类似效果的方法是在编码中加入正态分布的噪声,其中正态分布的标准差是一个可调节的参数。

证据权重是对分类独立变量和因变量之间的关系的另一种微妙的表现。WoE是从信用评分领域演变而来的。它用于衡量违约客户和还款客户之间的差异。证据权重的数学定义是几率比的自然对数:

因此,需要仔细监控y变量是否存在异常值。

雷锋网(公众号:雷锋网)雷锋网

因斯利说,如果不采取行动,肯定会导致医院和太平间负担沉重,并妨碍人们针对新冠肺炎以外的疾病接受治疗。

这种编码方法有一些缺点。首先,它使模型更难学习均值编码变量和另一变量之间的关系,它只根据一列变量与目标变量的关系来得出相似性,这既可能是个优点也可能是个缺点。

一般来说,维度的数量越低越好,而这种方法很明显增加了大量的维度。例如,如果我们要有一列代表美国的州(比如加州、纽约州),独热编码就会增加五十个维度。

如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。

新限制措施不适用于学校和法院系统,这些机构大多已在远程运行。建筑和制造业以及根据自己的准则运行的儿童保育机构可以继续营业。美发沙龙等个人服务企业只能开放其最大服务能力的25%。专业服务被要求在可能的情况下进行远程工作,否则,必须将开放规模限制在其最大服务能力的25%以内。对长期护理设施的探访只能在户外进行。婚礼和葬礼的规模不能超过30人,并禁止招待活动。室内宗教活动的参与人数不得超过活动场所容量的25%,同时不能超过200人。活动期间,参与者必须始终戴口罩,并禁止合唱团、乐队和会众唱歌。

由于类别的每一个值都被替换为相同的数值,模型可能会倾向于过拟合它所见的编码值(比如将0.8与0.79联系成完全不同的东西)。这就是将连续值视为大量重复类的影响。

更糟糕的是,每一个信息稀疏的列之间都有线性关系。这意味着一个变量可以很容易地使用其他变量进行预测,高维度下这会造成的并行性和多线性问题。

团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

最优的数据集由独立且包含有价值信息的特征组成,而独热编码张成的空间却不是这样的。

WoE越高,表明事件发生的可能性越大。’非事件’是那些不在某个类别中的事件发生的百分比。对于逻辑回归来说,使用证据权重建立与因变量的单调关系(永远不会停止向一个方向发展),并确保逻辑尺度上的类别,这是很自然的一件事。WoE还是另一个度量指标 “信息值 “的关键组成部分,它可以衡量一个特征能为预测提供的信息量大小。

目标编码是表示分类列的一种非常有效的方法,只占用一个特征的空间。其又称均值编码,列中的每个值都用该类别的目标均值代替。这样可以更直接地表示分类变量和目标变量之间的关系,是一种非常流行的技术(尤其是在Kaggle比赛上)。

《西雅图时报》报道称,过去的两个星期中,该州的单日新增病例数急速增长。11月3日,该州记录了1469例新增新冠肺炎确诊病例。14日,这一数字达到2286例。

Posted in 相声