440 likes | 592 Views
第五讲. 地质 变量研究. 陈志军. zjchencs@gmail.com. 应用数学地质的理论和方法进行各种地质问题研究,首先遇到的问题是对地质数据和变量的研究。. 在各类预测研究中,预测效果的优劣,在很大程度上取决于所选择和构置的地质变量在其取值和变换后所得数据与预测对象的直接和间接关联程度。. 地质数据的预处理 地质变量的类型 地质变量的选择 地质变量的取值和综合变量的构置 地质变量的变换. 地质数据的预处理. 地质数据的概念. 地质数据是表示地质信息的数、字母和符号的集合。 地质数据可以是定量的、定性的数据,也可以是文字的说明,甚至是图形的显示。.
E N D
第五讲 地质变量研究 陈志军 zjchencs@gmail.com
应用数学地质的理论和方法进行各种地质问题研究,首先遇到的问题是对地质数据和变量的研究。应用数学地质的理论和方法进行各种地质问题研究,首先遇到的问题是对地质数据和变量的研究。 在各类预测研究中,预测效果的优劣,在很大程度上取决于所选择和构置的地质变量在其取值和变换后所得数据与预测对象的直接和间接关联程度。
地质数据的预处理 • 地质变量的类型 • 地质变量的选择 • 地质变量的取值和综合变量的构置 • 地质变量的变换
地质数据的概念 地质数据是表示地质信息的数、字母和符号的集合。 地质数据可以是定量的、定性的数据,也可以是文字的说明,甚至是图形的显示。 数据 V.S. 信息 V.S. 知识 使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示 有一定含义的,有逻辑的、经过加工处理的、对决策有价值的数据流 有价值的信息
地质数据分类 从数据的意义和数量概念的完整程度分 从地球科学各专业学科又分 从统计学观点分 定性数据 定量数据 名义型数据 有序型数据 间隔型数据 比例型数据 地质数据 地球化学数据 地球物理数据 遥感影像数据 无自然零值, 但有负值 具有绝对零值, 但没有负值的间隔型数据
我们对地质数据的分类,主要考虑两方面:一方面考虑地质数据的特点;另一方面考虑地球科学研究中便于计算机对数据的存储、信息提取和数据加工处理,采用下列分类我们对地质数据的分类,主要考虑两方面:一方面考虑地质数据的特点;另一方面考虑地球科学研究中便于计算机对数据的存储、信息提取和数据加工处理,采用下列分类
地质数据的误差 • 随机误差或偶然误差 • 系统误差 • 过失误差 服从正态分布 误差常表现为常数 非地质因素影响而失去数据的真实性和代表性 地质数据是构置地质变量的基础 有的地质数据可直接作为地质变量的取值,但多数地质数据需要经过加工处理后才能用来构置地质变量。 故将地质数据构置为地质变量时,首先要对地质数据进行预处理。
地质数据的预处理 是指用地质数据构置地质变量前对地质数据进行处理。 目的 排除或压低数据中所包括的随机干扰(噪音), 突出有用信息, 提高数据的可利用程度, 增强构置地质变量的可靠性。
包括对数据的 • 数据的校正:环境、地形校正等 • 统计分布研究、混合总体筛分 • 可疑观测值的剔除、奇异值的稳健处理 • 数据分布均匀化:缺失数据的补齐、过密数据的抽稀 • 不同时间、技术条件下所获得不同水平的资料的分析处理等。
地质变量的概念 随着空间位置(或时间)不同,表示某一地质现象可取不同数值的变量。 在统计研究中,地质变量大多是作为随机变量来处理分析的,因此对于地质变量既要了解其变化范围,又要了解其不同区间值的概率。 & 取值区间 分布特征
地质变量分类 按其应用时取值方法分 按性质分 定性型:二态、三态 定量型:连续型、离散型 方向型 观测变量 乘积变量 综合变量 伪变量
观测变量 对各种地质体、地质现象或地质过程可进行直接观察、测量、分析所获得的各种原始观测值的变量。 如品位、元素丰度、矿体走向、倾角、岩体顶面标高等。 连续型 vs.离散型 定量、半定量 & 定性变量
地质数据的整理与观测变量的矩阵表示 变量1,变量2,……,变量p 样品1 样品2 … 样品n 原始数据矩阵 (i=1,2,…,n; j=1,2,…,p)
乘积变量 由若干个观测变量的乘积(包括比值)构成的新变量。 乘积变量往往可以提供更为重要的隐蔽信息。 如品位×厚度、K2O/Na2O、Co/Ni、Rb/Sr等。 Co/Ni比值可反映成矿物质以壳源或幔源为主; Fe/Mn比值反映红土型风化壳的成熟度及有关次生氧化矿床的品质。
综合变量 将几个地质因素或标志的原始观测值加以综合,构成一个具有特定地质意义的新变量。 利用综合变量还可起到减少变量,简化数学模型的作用。 如:某金矿体的前缘晕指示元素为Hg、Sb、As和Tl,而尾晕的指示元素为Cu、Pb、Zn。用多个元素的组合V1=Hg+Sb+As+Tl,V2=Cu+Pb+Zn,或比值V1/V2则能较有效地指示矿体可能存在的空间位置。 因子分析中的因子实际上也是综合变量,如 F1=c11Au+c12Ag+c13Bi+c14Te F2=c21Au+c22Ag+c23Zn+c24Pb 代表两个成矿阶段。
伪变量 为了计算方便而人为附加的一个变量,又称虚拟变量。 引进伪变量的目的纯属计算技巧上的要求,而不影响计算的结果。 例如在多元回归中求回归系数时,常在原始数据矩阵中加上一行或一列取值为1的伪变量,会给计算带来很大方便。
地质变量的特征 地质资料中包含有大量的地质信息,但对于特定的研究对象来说,不是所有的地质信息都可成为有效的数学变量,地质变量必须具备一定的特点 • 具有明确的地质意义 • 统计特征明显 • 地质变量与研究对象直接存在着密切的或定量的关系
选择地质变量的目的 经过地质研究和成矿条件分析,一般可以获得与研究对象和目的有关的多种地质变量。它们之间的密切程度互不相同,有的甚至还起干扰作用。因此,并不是所有这些变量都能直接用于统计分析和计算,而是需要从中筛选出最重要的那些变量,得到最优化的变量组合。 地质变量的选择——从数量众多的地质变量中筛选重要变量的过程。
要获得一批地质意义明确、统计特征明显且与研究对象和目的有密切关系的变量。要获得一批地质意义明确、统计特征明显且与研究对象和目的有密切关系的变量。 • 是要达到“变量结构最优化”,也就是说要具有最佳变量组合。 • 减少空间维数简化系统(即使变量个数达到尽可能地少使变量间相互独立), • 同时又不损失与研究对象有直接和间接联系的主要信息。
选择地质变量的基本原则和方法 选择变量应以地质研究为基础, 地质方法和数学方法相结合。 先多后少 尺度对等 深浅结合
选择地质变量的统计方法 1几何作图法,如点图法; 2计算简单相关系数、偏相关系数、秩相关系数; 3信息量计算法; 4秩和检验法; 5用于二态变量选择的地质向量长度分析法、相关系数比值法、变异序列法; 6各种多元统计方法,如主成分分析法、各种序贯分析法、包括全部可能回归法、逐步回归、逐步判别、序贯判别 等等。
信息量计算法 信息量用以表征某种地质因素或标志与研究对象(矿床)的相关性,可以通过条件概率来计算。 IAj→B=A标志(如断裂)j状态(如NE向,张性)存在时B事件发生的信息量,实际工作中,由于P (B)一般不容易确定,但根据概率乘法原理,上式可变换为:
具体运算时,总体概率用样本频率来估计 以矿床预测为例,IAj→B为NE向张性断裂(Aj)指示有矿(B)的信息量; Nj=具有NE向张性断裂Aj的含矿单元数,N=含矿单元总数, Sj=所有单元中具有NE向张性断裂的单元数,S=研究区或预测区的单元总数。
IAj→B=0,NE向张性断裂不提供任何找矿信息,与成矿无关。IAj→B=0,NE向张性断裂不提供任何找矿信息,与成矿无关。 IAj→B<0,NE向张性断裂存在时对找矿反而不利。 IAj→B>0,NE向张性断裂存在时能提供找矿信息;IAj→B越大,Aj提供的找矿信息量越大。
计算出各标志状态的信息量后,将所有标志状态的IAj→B按大小顺序排列,计算正信息量的总和 。给定有用信息水平k(一般0.75),计算有用信息△I += (n为具正信息量的标志状态数),将各标志状态的信息量由大到小进行累积,累积到△I +时的前p个地质标志状态就是我们所要选取的有利地质因素(变量)。
地质变量的取值 和综合变量的构置
地质变量的取值 指获取某个地质特征的具体数值。 在矿床统计预测中,主要是对预测矿床不同层次的控矿成矿地质因素和找矿标志进行室内和野外取值。 图件类; 异常图类,主要为各种物化探异常图; 遥感解释图类; 各种主要控矿地质因素研究的专题图件类等。 室内取值 是在充分研究控矿地质条件和找矿标志基础上,设计制定“预测找矿信息卡片”按网格单元或矿化异常单元逐个进行野外填写。 野外取值
获得地质变量的原始观测值 直接观测、化验、分析测试、计数等。 定量变量的取值 在进行数学处理和统计分析之前,必须对定性变量以某种方式进行赋值。 定性变量的取值 二态变量 三态变量
某类矿床一般分布在距花岗岩体150-400m范围内,这时,“距花岗岩体距离”这一变量取值可有两种状态,某类矿床一般分布在距花岗岩体150-400m范围内,这时,“距花岗岩体距离”这一变量取值可有两种状态,
地质变量取值遵循基本原则 • 应当保证抽样的随机性 • 需要保持抽样方式或条件的一致性 如:网格取样方式 如:取样介质、深度、质量、包装、样品处理等同一规定 统一观测和取值的方法和标准
综合变量的构置 在实际工作中,建立综合变量是一个需要结合具体任务,在研究变量组合控矿基础上的创造性研究过程,必须搞清综合变量的物理意义并与地质分析紧密结合,对于参加综合的单个地质因素,必须经过认真选择。 那种简单罗列各种地质标志,堆切各类原始测试数据的作法是十分不利的。
组合特征值 相对熵或组合熵 分子为单元不确定性 分母为最大不确定性 度量相对不确定性 pi——N元系统中第i成分所占比例(i=1,2,…,N) Hm = LnN Hr值大表示单元内出现多组分且分布均匀; Hr值小表示单元内出现少组分且分布不均匀。 该公式是将参加计算的组分同等看待,而不分重要成分和次要成分
赋权枝状综合变量 在研究多因素组合控矿后,将有关因素列出枝状图,然后对每个因素的不同状态根据其控矿有利程度赋以一定权值。
逻辑组合变量 对于二态或三态变量可组合成综合变量 逻辑操作:和(∩ )、或(∪)、非。 在化探异常分析中,有时可提取重要的找矿信息,如Pb、Zn异常,为了区分是随Fe、Mn由于海盆中Eh、pH变化而一起沉淀,还是由Pb、Zn硫化物矿化引起,可构置逻辑组合变量:Cu/Mn∩Cu,Pb∕Mn∩Pb,Zn∕Mn∩Zn等。 这种变量在排除与硫化物矿化无关的地球化学异常有重要作用。
对地质变量进行变换的目的 ①使地质变量尽可能呈正态分布; ②统一地质变量的数据水平; ③使两变量间的非线性关系变换为线性关系; ④用一组新的为数更少的相互独立变量代替一组有相关联系的原始地质变量。
标准化变换 极差化变换 均匀化变换 统一量纲/统一数据水平 对数变换 平方根变换 反余弦或反正弦变换 偏态分布→正态分布 化直变换 (双曲线、幂函数、 、指数函数、对数函数等) 非线性→线性 使原始变量的个数减少且互相独立 R型主成分分析
矿床值 闪长玢岩出露面积 马鞍山地区矿床值与闪长玢岩出露面积散点图及变换
原始数据的变换是一项十分重要的工作,变换不当则效果适得其反,所以应在认真分析研究的基础上谨慎的进行,有时需要通过很多试验方能找出最合适的变换。原始数据的变换是一项十分重要的工作,变换不当则效果适得其反,所以应在认真分析研究的基础上谨慎的进行,有时需要通过很多试验方能找出最合适的变换。 例如对于对数正态分布,不一定都要进行对数变换,因对数正态分布可以是单一分布也可以是混合分布。 当分布属后者时,应先经筛分处理后再对不同成分总体考查是否应该变换。