北京大学学报(自然科学版) 第60卷 第6期 2024年11月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 6 (Nov. 2024)
doi: 10.13209/j.0479-8023.2024.077
国家自然科学基金(42192502, 92351302, 42372049)资助
收稿日期: 2024–05–09;
修回日期: 2024–08–23
摘要 将网络分析、元素相关性分析及系统发育分析应用到矿物晶体化学数据的可视化方法学研究中。以含磷矿物为例, 绘制矿物成分和成因网络力导向图和二分网络图、矿物晶体特征演化系统发育树和矿物组成元素的相关性热图。这些可视化方法同时考虑了矿物在空间和时间上分布和演化的多样性及其物理化学性质等信息, 有助于用深时矿物学记录来探究地球环境的演化, 并理解其演化过程和驱动机制。
关键词 矿物信息学; 含磷矿物; 可视化方法; 网络分析; 系统发育分析; 元素相关性分析
数十亿年的行星演化过程中, 矿物从最初的十几种增加到 6031 种[1], 矿物的多样性及其晶体化学特征伴随着新的物理、化学或生物过程而逐渐丰富。矿物演化是化学元素重新组合与排列的过程, 反映与环境演化相适配的热力学稳定性或亚稳定性。通过深入、系统地挖掘深时矿物数据信息, 可以反演地球环境的演变规律及其驱动机制。
当前已经建成如下大型矿物学数据库: RRUFF数据库(https://rruff.info/ima/), 包含国际矿物学协会(International Mineralogical Association, IMA)确认的 6031 种矿物(截至 2024 年 5 月)及其晶体化学、物理性质、谱学、成因和产地等数据信息; Mindat.org数据库(https://www.mindat.org/), 不仅包含 6031 种矿物的晶体图片、晶体结构、晶体化学、矿物物理等属性, 还包含来自 30 余万个产地的超过 100 万个矿物–产地数据对; EarthChem 数据库(https://earth chem.org/), 包含全球岩石中的矿物、元素同位素以及成分化学分析等数据; Astromat 数据库(https:// www.astromat.org/), 包含天体材料(如月岩、陨石等)中的矿物组成、地球化学和地质年代等数据。
矿物数据信息的可视化研究是通过将矿物晶体化学性质、种类和时空分布等数据转化为易于理解和分析的可视化形式, 解析多变量影响与约束下矿物与生物及地质过程的共演化机制。尽管矿物可视化方法已在矿物演化和矿物生态研究中得到应用, 但其可视化方法尚局限于矿物单一信息(如矿物的价态和数量)的简单数学统计[2–11]。
鉴于上述背景, 本文以含磷矿物为例, 通过将系统发育分析、网络分析和元素相关性分析等可视化方法应用到矿物学研究中, 展示含磷矿物的时空分布、晶体化学特征多样性及其物理性质等多维数据信息, 以期有助于深入挖掘矿物个体和系统发育特征及其与地球系统的共同演化过程和机制。
含磷矿物原始数据集来自 RRUFF 数据库以及Mindat.org 数据库, 包含 288 种共 4931 个具有地质年龄信息的含磷矿物① 本文中统计的所有含磷矿物均以 RRUFF 数据库中化学式包含磷元素的矿物为准, 包括磷以单质、磷酸盐和磷化物等形式形成的矿物和以类质同像替代形式形成的矿物。样本(即矿物–产地数据对)、182 种有 CIF 文件的含磷矿物和 225 种磷酸盐矿物。我们经过数据清洗和数据扩充, 建立 3 个含磷矿物子数据集, 其信息主要包括金属元素钙(Ca)、铁(Fe)、锰(Mn)、镁(Mg)、铀(U)、钼(Mo)和稀土元素(REE)组成、阴离子组成、晶体结构和矿物成因(火成、变质、沉积、风化、陨石和生物)等(表 1)。
数据集 1 中有 288 种 4931 个具有地质年龄的含磷矿物样本, 用于矿物成因网络图的绘制。数据集2 中包括同时满足含地质年龄信息、含至少一种金属元素(Ca, Fe, Mn, Mg, U, Mo和REE)以及含矿物CIF 文件这 3 个条件的 104 种磷酸盐矿物, 用于矿物系统发育树的绘制。数据集 3 中包含可统计元素种类的磷酸盐矿物 225 种, 用于矿物元素相关性热图的绘制。
一些含磷矿物的金属阳离子存在类质同像替代, 其金属阳离子配位数的计算方法如下: 根据矿物 CIF 文件, 把晶体结构转化为超胞, 保证所有原子都完全占位(https://orex.github.io/supercell/); 使用 Python 库“Pymatgen”读取超胞的 CIF 文件, 获取每个金属阳离子的配位数。
网络分析方法起源于 18 世纪瑞士科学家欧拉提出的图论基本概念, 并在 20 世纪末随着互联网的兴起, 发展为使用图形方法来表示元素之间的关系, 广泛应用于社会科学、生物学和信息科学等领 域[12–13]。网络分析方法应用于矿物学中, 能够分析庞大的矿物数据, 并揭示其中矿物种类、地质年龄、矿物成因及元素组成等信息之间的关系。
矿物网络图是一种用于可视化和分析网络结构的图形表示方法, 其要素包括边和节点(图 1), 其中节点(如矿物种类和元素组成)代表网络中的要素, 通过边的连接表示节点间关系(如矿物种类与元素组成的关系)。边的长度取决于节点之间的关联程度, 边越短表示关联性越强。常见的矿物网络图有力导向图和二分网络图两类。
力导向图是一种矢量图, 组成要素包括单个节点以及连接节点的边等。以探究含磷矿物中关键金属元素(Ca, Fe, Mn, Mg, U, Mo 和 REE)和矿物成因关系为例, 图 2 中单个节点代表含磷矿物种类, 节点数量为含磷矿物种类的数量, 节点大小代表该矿物种类所含关键金属元素种类的数量, 节点颜色代表矿物成因(火成、变质、沉积、风化、陨石和生物成因[14])。依据矿物是否含有关键金属元素, 判断是否需要连接, 边的数量代表存在该连接关系的数量。
表1 含磷矿物子数据集信息及参数
Table 1 Information and parameters of P-bearing mineral sub-datasets
数据集特征描述 维度 1关键金属元素Ca, Fe, Mn, Mg, Mo, U, REE7 矿物成因火成, 变质, 沉积, 风化, 陨石, 生物6 2金属阳离子结构含磷矿物中所有金属阳离子(共32种)的配位数32 阴离子结构是否含附加阴离子、结晶水1 3元素含磷矿物中的所有元素, 包括金属和非金属元素46
图1 网络结构示意图
Fig. 1 Schematic diagram of network structure
为了比较矿物力导向图的结构特征, 本文将其参数定量化。
用力导向图的边密度 D 来量化网络的互联程度, 即实际连接数与最大可能连接数之比[15], 对于节点数为 N, 边的数量为 L 的网络(集群):
力导向图的边密度 D 表示网络中矿物节点的连接程度, 取值范围为 0~1。D=0 时, 矿物网络不连接, 不存在同时包含某关键金属元素(一种或多种)的矿物; D=1 时, 矿物网络完全连接, 所有矿物同时包含某关键金属元素(一种或多种)。
定义直径 d 为网络中任何两个矿物节点间最短路径的最大值, 取决于两个节点间的边数和平均边长度。平均距离 MD 为所有节点间最短路径的平均值, 代表不同种类矿物节点的平均分离程度。
为从多角度评估不同种类矿物节点在矿物网络中的重要性, 引入 4 种中心性(度中心性、接近中心性、介数中心性和特征向量中心性)[16]。
包含 4 个封闭连接的集群, 黑色正体和斜体元素符号分别表示此处全部和(或)部分节点包含该元素; 集群 I 中粗体彩色元素符号表示 5 个小簇(Mn, Fe, Mg, Ca 和 REE); 集群 II 和 III 中灰色粗体元素符号表示仅含 Mo 或 U 的矿物集合; None 指不包含 Ca, Fe, Mn, Mg, U, Mo 和 REE 的含磷矿物。节点越大表示数量越多, 下同
图2 含磷矿物中关键金属元素及其成因网络图
Fig. 2 Network graph of key metal elements and mineral paragenetic modes in P-bearing minerals
定义度中心性为矿物集群 M 中与某种矿物节点相关的边的数量, 计算公式[16]如下:
(3)
其中, DC(i)为节点 i 的度中心性,为集群 M 的平均度中心性, L 和 N 分别为集群 M 的边总数和节点总数, Li 为节点 i 的边数。
定义接近中心性为某种矿物节点与集群 M 中其他种类矿物节点之间平均距离的倒数, 计算公 式[16]如下:
(5)
其中, CC(i)表示节点 i 的接近中心性, (M)表示集群 M的平均接近中心性,
ij 表示节点 i 与 j 之间的最短距离。
定义介数中心性为某种矿物节点在矿物网络中的最短路径数量, 计算公式[16]如下:
(7)
其中, BC(i)为节点 i 的介数中心性,为集群M的平均介数中心性, σst 为元素 s 和 t 的最短路径, σst(i)为经过节点 i 的元素 s 和 t 的最短路径数量。
定义特征向量中心性为某种矿物节点与其相邻矿物节点间的关系, 计算公式[16]如下:
(9)
其中, EC(i)为节点 i 的介数中心性,为集群M的平均介数中心性, xi 表示节点 i 的特征向量中心性值, aij 表示集群 M 的邻接矩阵中节点 i 到 j 的连接权重, λ 为常数(通常取值为 1)。
根据模型计算得到对应矿物集群 M (M = I~IV)的平均中心性(表 2)。
矿物集群 I 和集群 II~IV 的力导向图存在较大差异(图 2)。相较于集群 II~IV, 集群 I 的边密度最低(D=0.293,,
但网络直径和平均距离最大(d=3, MD=2.104), 说明集群I更分散。其中, 集群I 中矿物均含两种及以上重要金属元素: Ca, Fe, Mn, Mg 和REE; 集群 II 和 III 中矿物仅含元素 Mo 或 U, 不含Ca, Fe, Mn, Mg 和 REE; 集群 IV 中矿物不含 Ca, Fe, Mn, Mg, REE, Mo 和 U (图 2 和表 3)。
集群 I 中存在仅含 Ca, Fe, Mn, Mg 和 REE 中一种元素的 5 个小簇(图 2), 其中含 Mn 与含 Ca 的矿物之间连接更紧密(即同时含 Mn 和 Ca 的矿物较多), 且这些矿物中也可能包含 Mg, Fe 和 REE; 含 REE, Fe 和 Mg 的矿物之间连接较为松散, 说明 REE, Fe和 Mg 倾向于单独而非同时存在于矿物中。Ca, Fe, Mn 和 Mg, 或者 Ca, Fe, Mn 和 REE 均可共存于一种矿物中, 但是 REE 与 Mg 不能同时存在于矿物中。
此外, 连接 5 个小簇的节点, 其矿物大多为火成成因(图 2), 例如磷铁镁锰钙石(Ferromangite, CaMnII(MgII,FeII)2FeIII2(PO4)4(OH)2·8H2O)、板磷锰矿(Bermanite, MnIIMnIII2(PO4)2(OH)2·4H2O)和磷硅稀土矿(Steenstrupine-(Ce), Na14Ce6MnII2FeIII2Zr (PO4)7 Si12 O36(OH)2·3H2O)。
表2 力导向图的网络参数
Table 2 Network metrics for force-directed graph
集群密度直径平均距离平均中心性平均度中心性平均介数中心性平均接近中心性平均特征向量中心性 I0.2933.0002.1040.2940.0050.4870.048 II1.0001.0001.0001.0000.0001.0000.577 III1.0001.0001.0001.0000.0001.0000.707 IV1.0001.0001.0001.0000.0001.0000.144
表3 含磷矿物重要金属元素和成因力导向图分析
Table 3 Force-directed graph analysis of key metal elements and paragenetic modes of P-bearing minerals
集群节点数量重要金属元素成因 I235Ca, Fe, Mn, Mg, REE火成, 变质, 沉积, 风化, 陨石 II 3U火成, 风化 III 2Mo陨石 IV 48–火成, 变质, 沉积, 风化, 陨石
矿物二分网络图可与其力导向图互补, 用于研究两种不同类型的矿物节点及其连接关系。矿物二分网络包含不同矿物成因和不同元素组成这两个不相交集合的节点, 边仅连接不同集合中的节点, 同一集合中的节点不连接, 因此矿物二分网络图可用三元组表达为
G=(U, V, E), (10)
其中, G指代矿物网络图, 表示矿物网络的结构及特征; U 和 V 为网络图中两个不相交集合, U 表示不同矿物成因节点集合, V 表示不同元素组合节点集合; E 为某成因矿物含某元素组合的关系集合, 即连接集合 U 和 V 中节点的边集合。
矿物二分网络结构和特征可通过定量参数进行量化和比较。其中, 节点度为节点的连接数量, 节点度的分布频率用度分布表示。边密度 ρ 指矿物网络节点间连接的紧密程度, 即矿物网络中实际存在的与可能最大的矿物成因节点和元素组成节点间连接(即边)数量之比:
其中, E 为网络中实际存在的边数量, |U|和|V|分别为矿物成因节点和元素组成节点集合的节点数。ρ 的取值范围为 0~1, ρ 趋近 0 表示连接很少, 即矿物成因与某些元素组成的关联小,ρ 趋近 1 表示节点间几乎都连接, 即矿物成因与某些元素组成的关联大。
聚类系数 Ci是表征矿物网络中不同矿物成因节点或不同元素组成节点聚类程度的指标, 定义为节点邻居间连接概率:
(13)
其中, 为聚类系数的平均值, M 表示网络矿物成因节点集合 U 或元素组合节点集合 V, ki 为节点 i的度数(即节点连接的边的数量), Ei 为节点 i 实际存在的的邻居节点, ki(ki–1)为节点 i 可能存在的邻居节点的最大连接数。一般而言, 聚类系数越高, 说明节点聚类程度越高。
同配性指同一集合(U 或 V)节点间连接的倾向性, 使用皮尔逊相关系数[15,17]计算:
其中, rxy 为节点的属性值间的皮尔逊相关系数, xi 和分别为集合 U 的节点属性值(矿物成因)和其平均值, yi 和
分别为集合 V 的节点属性值(矿物元素组成)和其平均值。rxy<0 表示低同配性, 即节点间属性值差异大, 该节点更倾向于与具有不同特征的节点连接; rxy>0 表示高同配性, 即节点属性相似, 该节点更倾向于与具有相似特征的节点连接。
矿物二分网络直径 l 的值可以评估矿物网络的大小, 即为任意两个节点间最短路径的最大值:
其中, d(i, j)表示节点 i 到节点 j 的最短路径。
图 3 中二分网络边密度很低(ρ=0.012), 直径较大(l=8), 网络同配性为负值(rxy=–0.829), 说明矿物所含关键元素与矿物成因间连接倾向性差异较大, 即含不同关键元素的矿物倾向于不同的成因(表 4)。网络中关键元素和矿物成因两个数据集的聚类系数分别为 0.090 和 0.595(表 4), 即关键元素数据的聚类程度低于成因数据。
根据元素节点度(图 3 和表 5), 含 Fe 和 Ca 的矿物种类最多, 分别为 103 和 100 种; 含 Mn 和 Mg 的矿物种类次之, 分别为 77 和 46 种; 含 REE 的矿物种类较少(23 种); 含 Mo 和 U 的矿物种类最少, 分别为 3 和 1 种。根据成因平均节点度(算数平均值), 火成成因和变质成因矿物含元素种类最多, 分别为1.61 和 1.53 种; 风化成因、沉积成因和陨石成因矿物含元素种类次之, 分别为 1.44, 1.31 和 1.25 种; 生物成因矿物含元素种类最少, 仅 1 种。
灰色节点代表矿物关键金属元素; 彩色节点代表与关键金属元素相连的矿物物种, 其颜色指示矿物成因; 灰色和彩色节点的大小分别表示含某关键金属元素的矿物种类数量和矿物所含关键金属元素种类的数量
图3 含磷矿物中关键金属元素与其成因关系二分网络图
Fig. 3 Bipartite network diagram of relationship between the key metal elements in P-bearing minerals and their paragenetic modes
从图 3 中所含关键元素来看, 含 Fe 和 Ca 矿物成因的类别最多(6 种); 含 Mn 和 Mg 矿物成因的类别次之(5 种); 含 REE, Mo 和 U 矿物成因的类别依次减少, 分别为 4, 3 和 2 种。生物成因矿物含 Ca 元素, 少部分含 Fe 和 Mo 元素。多数矿物含 1~2 种关键金属元素, 同时含金属元素种类最多(4 种: Mn, Fe, Ca 和 Mg)的矿物为火成成因和风化成因; 同时含 3 种金属元素的矿物为火成成因、变质成因、沉积成因及风化成因。
图 4 中二分网络的边密度非常低(ρ=0.002), 直径较大(l=10), 网络同配性为负值(rxy=−0.210)(表4), 说明不同产地矿物与其成因间连接倾向性差异较大, 即不同产地矿物倾向于不同的成因。网络中成因和产地两个数据集的聚类系数分别为 0.117 和0.437(表 4), 即矿物产地聚类程度高于成因聚类程度。根据成因平均节点度, 变质成因矿物产地数量最多(66.50); 沉积成因和风化成因矿物产地数量次之, 分别为 22.25 和 16.93; 陨石成因矿物产地数量较少(11.45), 生物成因矿物产地数量最少(1.4) (图 4 和表 5)。
系统发育指某一类群的形成和发展过程以及不同类群在进化过程中的关系, 这一概念被广泛应用于生物系统发育学研究中, 如重建祖先基因序列并衍生现存基因、研究人类疾病起源、推断生态特征和行为特征随时间的演变以及估计历史–生物–地理关系等[18–21]。借鉴生物系统发育分析的概念和逻辑, 本文提出矿物系统发育定量分析方法, 用于比较矿物个体、种群和物种信息, 并用系统发育树的形式描述矿物种间的历史关系。
图4 含磷矿物成因与空间分布关系二分网络图
Fig. 4 Bipartite network diagram of paragenetic model and spatial distribution of P-bearing minerals
表4 二分网络图参数
Table 4 Parameters for bipartite network diagram
网络边密度网络直径同配性聚类系数AB 图30.012 8−0.8290.5950.090 图40.00210−0.2100.1170.437
说明: A和 B 为网络中两个集合 A 和 B 分开计算所得的聚类系数; 集合 A 在图 3 和 4 中均为矿物成因数据集, 集合 B 在图 3 和 4 中分别为矿物所含关键金属元素数据集和矿物产地数据集。
表5 二分网络图节点度
Table 5 Node degree for bipartite network diagram
网络元素节点度成因平均节点度CaFeMnMgUMoREE火成变质沉积风化陨石生物 图310010377461323 1.61 1.53 1.31 1.44 1.251.00 图4–––––––10.2166.5022.2516.9311.451.40
矿物系统发育树定义如下: 通过比较不同矿物特征(如矿物的化学成分、晶体结构和物理性质等)之间的相似性和差异性, 探索矿物种类数量及其分布随时间的变化过程, 描述地质历史时期各矿物种类的出现、演化和消亡及其相互关系, 揭示矿物和生物共同演化的复杂过程。矿物系统发育树展示特定时期矿物种类及其晶体化学特征的演化历史, 其拓扑结构描述物种间的关系和分支模式, 分支长度表示矿物种间分化的时间或差异程度(图 5)。叶子节点即系统发育树外部节点, 代表矿物物种, 也叫做分类单元[22]。内部节点(即系统发育树连接分支的中间节点)代表矿物物种的共同祖先或未知分化事件, 也称为假想分类单元[23]。树底部的起始点称为根节点, 代表树上所有矿物种的共同祖先。
为探究磷酸盐矿物各种晶体化学特征之间的关系和演化路径, 构建包含 104 种磷酸盐矿物的 33 维晶体化学信息(如阳离子配位数、阴离子种类以及是否含结晶水等)的数据集 2, 用矩阵 XN×S 表示。其中, N=104, 表示矿物种数, 即叶子节点数量; S=33, 表示矿物种特征数。
磷酸盐矿物系统发育树基于距离方法(如邻接法、最小进化法和 UPGMA 法)构建。首先, 计算叶子节点(矿物物种) N1 与 N2 之间的距离, 即空间中两点 S1(x1, y1)与 S2 (x2, y2)间的欧氏距离 dE(S1, S2):
从矩阵 XN×S 中选取距离最小的两个节点和
,将其聚类为子树
, 根据式(16)计算
与其他叶子节点 Si 间的距离:
(17)
根据数据集 2 的特点, 选择 UPGMA 法构建系统发育树(图 6 中核心部分)。
如表 6 和图 6 所示, 依据矿物是否含附加阴离子和结晶水, 可以把数据集 2 中矿物分为 5 类。类型 a: 无附加阴离子和结晶水; 类型 b: 仅附加阴离子; 类型 c: 仅含结晶水; 类型 d: 含附加阴离子和结晶水; 类型 e: 含铀酰离子([UO2]2+)。由于含磷矿物在大氧化事件(GOE, 2.5~2.4Ga)和新元古代氧化事件(NOE, 0.8~0.6Ga)中均出现显著的新矿物种沉积间断现象[24], 故以这两个事件的时间节点作为分界线, 将含磷矿物样本分为3个阶段: 阶段I, >2.4Ga; 阶段 II, 2.4~0.8Ga; 阶段 III, 0.8~0Ga。
矿物样本数量最多的矿物为氟磷灰石(Fluora-patite, Ca5(PO4)3F)、独居石(Monazite-(Ce), CeIIIPO4)和磷钇矿(Xenotime-Y, YIIIPO4), 对应的矿物样本数分别为 889, 293 和 256 个。形成这 3 种矿物所需的Ca, P 和 REE (如 Ce 和 Y)等元素在地壳中相对丰富, 其丰度分别为 4.15%, 0.12%和 0.03%[25–27]。此外, 这 3 种矿物晶体的基本骨架是磷氧四面体(PO₄³⁻), 它们在晶体结构中孤立存在且互不直连, 易与 Ca²⁺, Ce³⁺和 Y³⁺等具有较高电荷和较大离子半径的阳离子结合而形成晶体结构稳定的无水磷酸盐, 利于长期保存。因此, 氟磷灰石、独居石和磷钇矿在含磷矿物中较为常见。
a 类矿物中样本数占比最高的为独居石(30.0%)和磷钇矿(26.2%)。b 类矿物中氟磷灰石样本数的占比为 44.3%, 其他每种矿物样本数占比不超过 10%, 样本数排在第二位的羟基磷灰石(Hydroxylapatite, Ca5(PO4)3OH)占比为 5.9%。c 类矿物中红磷铁矿(Strengite, FeIII(PO4)·2H2O)样本数占比最高(31.1%), 有 3 种矿物(斜磷钙铁矿(Mitridatite, Ca2FeIII3O2 (PO4)3·3H2O)、磷锰钙石(Fairfieldite, Ca2MnII(PO4)2·2H2O)和板磷铁矿(Ludlamite, FeII3(PO4)2·4H2O))样 本数占比超过 10%。d 类中矿物样本数占比超过10%的矿物为红磷锰矿(Hureaulite, MnII5(PO3OH)2 (PO4)2·4H2O)、磷铝锰矿(Eosphorite, MnIIAl(PO4) (OH)2·H2O)以及簇磷铁矿(Beraunite, FeIII6(PO4)4O (OH)4·6H2O)。上述 4 类矿物中, 样本数占比最高的矿物所含关键金属元素分别为 REE, Ca, Fe 和 Mn。
b 类矿物包含的种类数量(43 种)和样本数量(2006 个)最多。尽管 a 类和 d 类矿物的种类数量相近(分别为 22 和 21 种), 但对应的矿物样本数量差别较大(分别为 978 和 375 个)。同时, c 类矿物的种类数量(11 种)接近 d 类的 50%, 但其样本数量(286 个)是 d 类的 76%。
蓝色圆点、红色圆点和绿色圆点分别表示叶子节点、内部节点和根节点
图5 系统发育树示意图
Fig. 5 Schematic diagram of a phylogenetic tree
表6 深时含关键金属元素的含磷矿物种类和样本统计结果
Table 6 Statistics of species and samples of P-bearing minerals containing key elements through deep time
阶段矿物种类数量矿物种类总数样本总数a类b类c类d类e类 I1018470392918 II81279137676 III4130502286 总数224311211983680
核心部分为磷酸盐矿物晶体化学系统发育树; 内环示意矿物最大地质年龄; 外环为每种矿物样本数量的对数值柱状图, 空缺处对应的矿物样本数量为最小值 1。核心部分分枝和外环柱子的颜色表示磷酸盐矿物依据附加阴离子(additional anion, AA)、结晶水和铀酰离子([UO2]2+)的分类
图6 含关键金属元素深时磷酸盐矿物晶体化学分析结果
Fig. 6 Crystal chemical analysis of phosphate minerals containing key elements through deep time
阶段 I 和阶段 II 首次出现矿物种类的数量(分别为 39 和 37 种)多于阶段 III (22 种), 这些首次出现在阶段 I~III 的矿物种类对应的样本数分别为 2918, 676 和 86 个。阶段 I 新出现的磷酸盐矿物包括 a~d四类, 不含水矿物 28 种, 含水矿物 11 种。阶段 II 新出现的磷酸盐矿物包括 a~e 五类, 仍然以不含水矿物为主(20种), 含水矿物种类增加至 16 种。阶段 III新出现的磷酸盐矿物包括 a, b 和 d 三类, 以 b 类为主(13 种), 含水矿物种类增加至 5 种。
相关分析是一种统计学方法, 用于探究两个(或多个)变量或数据集之间的相关性。相关性并非因果关系, 无法就某种类型的数据对另一种数据影响的因果关系得出结论, 但是可以用相关系数度量变量之间关联的强度和方向。相关系数>0 或<0 表示关联的方向, 其数值表示关联的强度。
相关性热图是一种二维数据可视化图形技术, 用于展示数据集中多个变量间的关系。相关性热图常用矩形的形式呈现, 矩阵中每个单元格表示两两变量之间的相关性, 单元格的颜色指示相关性的强度和方向。本文以可视化磷酸盐矿物所含元素间的相关性为例, 绘制矿物组成元素的相关性热图(图7), 依据矿物所含元素之间的关系来定义相关性系数。首先根据数据集 3, 构建一个 X轴和 Y 轴为相同化学元素排列的二维矩阵, 然后沿X轴和Y轴列出所有元素(46 种), 构成 46×46=2116 个单元格。定义单元格的数值 p 为含 X 轴元素的矿物中含 Y 轴元素的比例:
每个单元格代表含X轴元素的矿物中含Y轴元素的比例
图7 磷酸盐矿物所含元素的相关性热图
Fig. 7 Correlation heatmap of elements contained in phosphate minerals
其中, nX 表示含 X 轴元素的矿物数量, nXY 表示同时含 X 轴元素和 Y 轴元素的矿物数量。p 的取值范围为 0~100%。
图 7 中单元格的数值反映元素间的关联度, 当Y 轴元素为 P 或 O 时, 无论 X 轴元素为何种, 单元格的数值均为 100%, 说明这两种元素在含其他元素的矿物中都存在, 即这两种元素与其他元素完全相关。把某元素在含另一元素矿物中占比超过 60%定义为这两种元素具有高相关性, 对图 7 中数据进行统计可知, 与 P 和 O 具有高相关性的元素种类最多(46 种); 与 Na, Ca 和 Fe 具有高相关性的元素种类次之, 均为 9 种; 与 Mn, Al 和 Mg 具有相关性的元素种类分别为 6, 5 和 4 种; 与 La, Ce 和 Pb 具有相关性的元素有 3 种; 其余具相关性的元素为 1~2 种。
由于磷酸盐矿物均含 P 和 O, 且 P 和 O 对应的竖列信息相同, 那么通过 P 和 O 对应的竖列中各元素的占比, 可以获取磷酸盐矿物中各元素的比例。通过对比发现, X 轴上 P 或 O 对应颜色较深单元格(数值较大)的元素为 H, Fe, Al, Ca, Mn, Na, Mg, REE (包括 Sc, Sr, Y, La, Ce, Nd, Ho 和 Yb)和 F, 即在磷酸盐矿物中上述元素占比较高, 分别为 40.9%, 32.4%, 28.4%, 27.1%, 21.8%, 20.4%, 17.8%, 14.2%以及11.1%。
本研究利用矿物网络分析方法、矿物系统发育分析方法和矿物元素相关性分析方法, 对收集整理的含磷矿物晶体化学、成因和产地等多维特征数据进行关联分析和可视化研究, 绘制矿物成分和成因网络力导向图和二分网络图、矿物晶体特征演化系统发育树和矿物所含元素相关性热图。
本研究首次将系统发育定量分析方法应用到矿物学中, 基于不同矿物之间的化学成分、晶体结构和物理性质等特征的相似性和(或)差异性构建矿物系统发育树, 揭示不同种类矿物晶体化学特征的相关性。本研究拓展了矿物网络分析方法, 定量地研究不同矿物种类晶体化学、成因和产地等特征的关联性, 揭示矿物多样性与矿物物种之间的关系。本研究通过可视化方法, 基于矿物的时空分布、物种多样性及元素组成等多维数据信息分析矿物个体和系统发育的过程及特征, 有助于未来更好地利用矿物学记录来探究地球环境的演化过程和机制。
参考文献
[1] Hazen R M, Papineau D, Bleeker W, et al. Mineral evolution. American Mineralogist, 2008, 93(11/12): 1693–1720
[2] Hazen R M, Papineau D. Mineralogical co-evolution of the geosphere and biosphere // Knoll A H, Canfield D E, Konhauser K O. Fundamentals of Geobiology. Chi-chester: John Wiley & Sons, 2012: 333–350
[3] Golden J, McMillan M, Downs R T, et al. Rhenium variations in molybdenite (MoS2): evidence for pro-gressive subsurface oxidation. Earth and Planetary Science Letters, 2013, 366: 1–5
[4] Hazen R M. Paleomineralogy of the Hadean Eon: a preliminary species list. American Journal of Science, 2013, 313(9): 807–843
[5] Hazen R M. Data-driven abductive discovery in mi-neralogy. American Mineralogist, 2014, 99(11/12): 2165–2170
[6] Grew E S, Hazen R M. Beryllium mineral evolution. American Mineralogist, 2014, 99(5/6): 999–1021
[7] Hazen B T, Skipper J B, Ezell J D, et al. Big data and predictive analytics for supply chain sustainability: a theory-driven research agenda. Computers & Industrial Engineering, 2016, 101: 592–598
[8] Hazen B T, Mollenkopf D A, Wang Y. Remanufac-turing for the circular economy: an examination of consumer switching behavior. Business Strategy and the Environment, 2017, 26(4): 451–464
[9] Grew E S, Hystad G, Toapanta M P. Lithium mineral evolution and ecology: comparison with boron and beryllium. European Journal of Mineralogy, 2019, 31(4): 755–774
[10] Morrison S M, Prabhu A, Eleish A, et al. Predicting new mineral occurrences and planetary analog envi-ronments via mineral association analysis. PNAS Nexus, 2023, 2(5): pgad110
[11] Hummer D R, Golden J J, Hystad G, et al. Evidence for the oxidation of Earth’s crust from the evolution of manganese minerals. Nature Communications, 2022, 13(1): 1–7
[12] Otte E, Rousseau R. Social network analysis: a power-ful strategy, also for the information sciences. Journal of Information Science, 2002, 28(6): 441–453
[13] Dryflor, Banda-R K, Delgado-Salinas A, et al. Plant diversity patterns in neotropical dry forests and their conservation implications. Science, 2016, 353: 1383–1387
[14] Hazen R M, Morrison S M. On the paragenetic modes of minerals: a mineral evolution perspective. American Mineralogist, 2022, 107(7): 1262–1287
[15] Newman M E. The structure and function of complex networks. SIAM Review, 2003, 45(2): 167–256
[16] Freeman L C, Roeder D, Mulholland R R. Centrality in social networks: ii. experimental results. Social Net-works, 1979, 2(2): 119–141
[17] Newman M E. Assortative mixing in networks. Phy-sical Review Letters, 2002, 89(20): 208701
[18] 张丽娜, 荣昌鹤, 何远, 等. 常用系统发育树构建算法和软件鸟瞰. 动物学研究, 2013, 34(6): 640–650
[19] 董路, 张雁云. 鸟类分子系统地理学研究进展. 生态学报, 2011, 31(14): 4082–4093
[20] 王璐琦, 熊海燕, 王炜炳. 系统发育研究在传染病分子流行病学中的应用. 中华流行病学杂志, 2022, 43(2): 282–285
[21] 何德奎, 陈毅峰. 高度特化等级裂腹鱼类分子系统发育与生物地理学. 科学通报, 2007, 52(3): 303–312
[22] DeSalle R. What’s in a character?. Journal of Biome-dical Informatics, 2006, 39(1): 6–17
[23] Wheeler W C. Systematics: a course of lectures. Chi-chester: John Wiley & Sons, 2012
[24] Zhuang Ziyi, Zhang Yanan, Li Yan, et al. Evolutiona-ry dynamics of redox-sensitive minerals reveal details and possible regulatory mechanisms of Earth’s oxy-genation events. Earth and Planetary Science Letters, 2024, 626: 118528
[25] Taylor S R, McLennan S M. The continental crust: its composition and evolution. The Journal of Geology, 1985, 94(4): 57–72
[26] Wedepohl K H. The composition of the continental crust. Geochimica et Cosmochimica Acta, 1995, 59(7): 1217–1232
[27] Rudnick R L, Gao S. Treatise on Geochemistry. Am-sterdam: Elsevier, 2003
Investigation into Visualization of P-bearing Minerals Informatics
Abstract Network analysis, element correlation analysis and phylogenetic analysis are applied in the visualization methods study of mineral crystal chemistry data. Taking P-bearing minerals as an example, force-directed network and bipartite network diagram of mineral composition and genesis, phylogenetic tree of mineral crystal characteristics and correlation heat maps of mineral component elements are drawn. These methods also take into account the spatial and temporal distribution, evolutionary diversity and physical and chemical properties of minerals. The use of these visual analysis methods is helpful to explore the evolution of the Earth’s environment using mineralogical records through deep time and understand its evolutionary process and driving mechanism.
Key words mineral informatics; P-bearing minerals; visualization method; network analysis; phylogenetic analysis; element correlation analysis