• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于决策树模型的古代玻璃制品的成分分析与判别

徐灵铖 林雨菲
  
教育视野媒体号
2023年11期
杭州师范大学 浙江杭州 311121

打开文本图片集

摘要:玻璃是现代人们生活中必不可少的部分,深究各种古代玻璃的化学成分,有利于我们加深对古文化的印象。针对玻璃中化学成分较多的问题,我们筛选出其中对于玻璃类别具有较大影响的化学成分,并以此为特征,以数据大小对数据进行分类,最终生成决策树用于对未知属性的玻璃进行分类。最终得出:在未风化情况下,我们可以通过氧化铅量是否大于等于2将玻璃分为高钾玻璃与铅钡玻璃;在风化情况下,氧化铅含量是否大于等于2可以帮助我们将玻璃进行分类。

关键词:玻璃制品判别;属性划分;决策树模型

0 引言

玻璃是生活中随处可见的物品,却并非兴起于近代,具有悠长的历史文化背景。它作为一种珍贵的商品,不仅见证了我国商品贸易的兴起,也象征着文化的传承。我们国家在发展与传承这样玻璃的同时,研制出了新的玻璃制备方式,由于技艺不同,最后得到的化学成分也各不相同,深究各种古代玻璃的化学成分,有利于我们加深对古文化的印象。在本文中,我们围绕古代玻璃制品的成分分析与鉴别,开展了一系列的深入研究。

由于玻璃的构成成分较为复杂,且其中的化学成分随着时间的更迭也不断与周围环境发生反应。但通过大数据分析,我们可以发现,存放在不同环境的玻璃中的部分化学物质含量呈现出高度一致,仅与玻璃的种类有关。这与决策树方法的原理十分吻合,因此本文选用了决策树方法来建立古代玻璃分类模型。

1 数据处理

通过我们所获得的数据中,我们不难发现,风化和未风化状态下同类玻璃的各种化学成分的平均值是不相同,因此,在开始探究规律之前,我们首先需要将以后数据分为两类——风化状态下采集的数据与未风化状态下采集的数据,分别讨论在这两大类中不同玻璃的化学成分的数据处理。

2 模型构建

2.1 决策树分类概述

决策树模型训练的本质是从训练数据集中归纳出一组分类规则,在这里,我们采用C4.5算法。C4.5算法的核心是在决策树各个结点上利用信息增益比选择特征,递归地构建决策树,计算过程可以用下图表示:

2.2 信息增益比的计算

由于在风化前和风化后的数据中包含多个特征,提取出对训练决策树算法有效的特征十分关键,其中对于结果影响微小的特征值则可以忽略。

我们将讨论得到的特征和标签作为输入数据集,并标记为D,其中风化后的数据集标记为D1,未风化的数据集为D2。特征1至特征4构成的集合标记为A,其中风化后的集合为A1,未风化的集合为A2,根据题目给出的数据,我们已知我们需要将数据分为两类,每一类标记为,则信息增益比的计算方法为:

2.3 决策树分类模型的求解

根据上述过程,我们分别对我们得到的风化后与未风化的数据集进行处理。

(1)风化后的数据处理

依据上述过程,我们通过计算可以得到四个特征的信息熵如下表所示

根据上述数据计算信息增益,我们会发现特征二氧化硅含量是否大于等于90与特征氧化铅含量是否大于等于5所得到的信息增益比相同,且二者并列最大,我们选择特征二氧化硅含量是否大于等于90对数据进行分类,最终我们得到的结果如下图所示:

(2)未风化的数据处理

依据上述过程,我们通过计算可以得到四个特征的信息熵如下表所示

根据上述数据计算信息增益,我们会发现特征氧化铅含量是否大于等于2与特征氧化钡含量是否大于等于2所得到的信息增益比相同,且二者并列最大,我们选择特征氧化铅含量是否大于等于2对数据进行分类,最终我们得到的结果如下图所示:

3 实验结果与分析

3.1 分类结果与分析

我们对各种不同类型的玻璃进行了一系列的划分。首先,我们依据玻璃是否风化将其分成了风化与未风化两类,在风化类别中,依据二氧化硅含量是否大于90将其分为铅钡玻璃与高钾玻璃。在未风化类别中,依据氧化铅含量是否大于等于2将其细分为铅钡玻璃与高钾玻璃。

3.2 精度检验

为了探究我们分类的合理性与准确性,我们在此开展灵敏度分析。数据有限,因此我们利用混淆矩阵和已知玻璃属性的数据对分类结果进行检验。

我们有32条数据是在玻璃风化的状态下测得的,有37条数据在测取的时候,玻璃处于未分化的状态。我们将这69条数据代入各自对应的决策树,得到预测的玻璃类别,建立混淆矩阵。

根据混淆矩阵,我们可以发现在风化情况下,已有32条数据全部被正确分类,这说明我们在风化状态下分类的正确率为100%,说明该决策树较为合理。在未风化状态下,14个高钾玻璃的数据与23条铅钡玻璃的数据全部被正确分类,说明未风化状态下的决策树分类的正确率也接近100%。

参考文献:

[1]孙佩,汪权方,易洁伟,康全国,张驰,尹伟,袁知洋.基于决策树分类方法的小麦油菜种植范围提取[J].农业与技术,2022,42(24):7-11.

[2]张莉,丁毛毛,李玮,王颖,吕静贤,王笑一.基于决策树算法的客服终端冗余数据迭代消除方法[J].计算技术与自动化,2022,41(04):118-122.

[3]许圳淇,徐超杰,张月正,周昊,庞康,郑岳久.基于决策树的异常电池分类方法[J/OL].汽车工程学报:1-8[2022-09-18].

[4]汪靖翔.决策树算法的原理研究和实际应用[J].电脑编程技巧与维护,2022(08):

*本文暂不支持打印功能

monitor