-原始数据的处理方法..docx
《-原始数据的处理方法..docx》由会员分享,可在线阅读,更多相关《-原始数据的处理方法..docx(16页珍藏版)》请在第壹文秘上搜索。
1、其次章原始数据的处理方法原始数据的处理是数据分析中极为重要的内容。在本节中,我们将介绍原始数据的来源及其特点,着重阐述原始数据初始变换的几种方法,并利用例子进展演示。第一节原始数据的来源及其特点原始数据一般包括反映自然资源区域特征,如海况、气象、水文、地形、地貌、动植物等:反映区域社会经济条件和生产力水平,如人口及其人口密度、捕捞劳力、海疆而积、渔船数量、渔船功率以及渔业总产值、捕捞产值、养殖产值等。原始数据按其性质大体可分为(1)科学试验和观测数据:(2)社会经济统计三;(3)生产阅历数据;(4)有关部门的决策和目标数据:(5)定性资料的量化数据等。不同的数据有不同的来源。但归纳起来,主要的
2、来源有:(1)国家统计部门和行业部门的历年统计资料,这些多为社会经济指标(2)有关业务部门的历年观测数据及其科学试验报告,这些多数为自然因素指标,如东海区渔业资源和环境观测数据;(3选择有代表性的单位或年度,进展实地典型调查所得的数据;(4)区域规划部门通过收集、调查、观看和计算积存的数据;(5)调查访问有实践阅历的劳动者、生产技术人员、科研人员以及治理人员所得的数据;(6)国家有关部门制定的进展规划、建设方案等决策数据;(7)其它方面的数据。我们将以上所获得的各种资料和数据成为原始数据。这些数据来源不同,其类型也不同。从利用分析的角度来看,这些数据有以卜几个主要特点:(I)不同的量纲。如渔业
3、产值为元,渔业产量为公斤,水温为摄氏度,作业时间为天,航程为海里,捕捞努力气为吨、千瓦、艘、人数,CPUE为吨/天、吨/小时、吨/千瓦等。(2)数量级大小相差悬殊,有的数字仅是小数级,有的数字大到亿万。如渔业产值以亿万元或万元计算,而劳动生产率只有几十元到几百元:渔业资源量上千万吨或几万吨等。(3)大局部数据有肯定的随机性,特别是统计或观测的时间序列或偶测值,不管是自然指标还是经济数据,都有随机变化,均有明显的摇摆。(4)大量数据具有肯定的灰色度,运用上述方法收集来的数据绝大多数是区域内各样点的平均值或统计值,在时间上或空间上并不是一个精准的白色参数,而是一个有上限、下限的灰色数。如某调查船进
4、展的渔业资源和环境调查,其所得的数据只能是某一点某一时刻的数据值,但由于条件和仪器设备的限制会使数值产生误差,这一误差值的多少无法知道,因而产生了灰区。如某年某区的降水量,是该区内各次实际观测纪录的平均数,由于测量方法不同和在时间计算上引起的误差等,是无法知道的。同样的问题在一些经济统计数字中也存在。因此,严格地说,收集来的数据绝大多数是灰色参数,都具有不同程度的灰色度。其次节原始数据白化和初始变换的几种方法一、原始数据的取值和白化对于绝大多数灰色参数来说,需要进展白化或淡化处理,以提高白色度,削减灰色度。也就是说通过信息的不断补充,使灰色参数渐渐成为一个比较接近实际的数值。数据白化处理的方法
5、主要有:(1)直接承受距样点最近观测站的多年平均值。例如海水温度和盐度等,可承受多年来的观测平均值或近几天的平均值。依据各个因素指标的等值线图,利用插入法计算其数值。如表层水温、盐度、海底地形等指标,各代表样点不完全有现成的准确观测值,可在“等水温线图”、“等盐度图”、“地饰线图”上,利用插值法计算出其白化值。结合实际状况和数据特征,确定合理的数据。如反映海洋环境质量的指标有有机质、含氮量、含磷量等。在使用时,我们不行能把全部的因子都输入模型,为了计算上的便利,可以归结为一个综合指标。即用该区域内最资料,查出各样点的各项因素指标,然后用“极差变换”的方法求出变换后的数据,相加即可得到一个综合性
6、数字。这样,可解决各因素间量纲不同和数量级大小相差悬殊的问题。(4)对经济指标进展推测。海洋经济的分类划区应当有相对的稳定性,同时应用的综合指标又应反映海洋经济的动态特征,所以,在使用相应的指标数据时,就需要先对指标数据进展进展推测,然后依据推测值进展分类划区。推测的方法很多,常用的是灰色系统GM(1,1模型和指数递增率模型。承受具有一样权数的相对数值。依据统计学原理.,各个个体应当是等权的,但实际上各种统计对象个体不等积,不等形,也即存在着不等权问题。例如,各样点的海疆面积、人口产量、产值等指标,确定值差异很大,无疑是不等权的。假设用特定范国内海疆比重、人口密度、单位平均产量、人均产值等相对
7、数来表示,便可以解决各样点同项因素不等权的问题。二、常用的几种数据变换方法由于原始数据存在着上述特点,进展统计分析建立数学模型有肯定的困难和限制,因此需要依据所建数学模型的类别,对原始数据进展变换。变换的目的主要是:(1)使指标数据尽可能呈正态分布:(2)统一变量指标间的量纲;(3)使两变量指标的非线性关系变换为线性关系;(4)用一组的、指标数量较少的、相互独立的变量,代替一组有相互联系的原始变量指标。不同的数学模型对指标变量的要求不同。大多数的多元统计分析,要求变量总体上听从多元正态分布,且要求量纲全都。如判别分析要求变量呈正态分布;回归分析则要求因变量呈正态分布,要求各自变量与因变量之间有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 原始数据 处理 方法