如何分析你的数据

下载PDF格式的“如何做”

概述

数据分析是从研究过程中收集的定量和/或定性信息中得出科学结论的正式过程。在渔业BOB国际体育领域,可靠的数据分析对于可靠的研究、高质量的科学出版物和基于科学的管理至关重要。学生经常在课程中接触到分析程序(例如,统计学、生物计量学、定量渔业科学、渔业人口分析),为他们的研究生研究做准备,其中统计敏锐性是必不可少的。BOB国际体育在这里,我们回顾了数据分析的过程,并提供了成功的技巧。

分析你的数据

适当的数据管理和有组织的数据库对于任何现代统计软件程序中有效地分析数据都是至关重要的。在你开始你的研究项目之前,在电子表格程序(如Microsoft Excel或Access)中可视化示例数据条目,以帮助你意识到你想测量什么,你想如何分组你的数据,以及你想如何检查错误。数据可以以长格式输入,其中每个条目在多行上分别定义。例如,在横断面抽样中,长格式数据将每个新点列为一个新行。或者,在宽格式中,每个样条将作为一行列出,相关变量将跨多个列显示。许多分析需要特定的格式,大多数数据操作软件提供简单的格式转换方法。从长远来看,了解您想要如何分析数据并适当地输入数据将节省大量工作。

项目完成后,决定使用哪个统计软件程序。每个程序都有优点和缺点。例如,SAS需要花钱,但由专业统计人员验证。JMP有一个“点击”界面,对于那些除了学习统计和生态概念之外,不愿意学习计算机编程的人来说,它可能更容易使用。R是免费的,开源的,使用基于S的编程语言。它用于广泛的分析和图形化功能(例如,线性和非线性建模,经典统计检验,时间序列分析,分类,聚类)。不幸的是,由于R的开源编程,并不是所有的R包都经过了统计学家的验证。R的学习曲线是陡峭的,特别是对于没有受过计算机编程训练的用户。幸运的是,R是常用的,许多专家在网上提供免费的帮助。搜索“R帮助”以及任何分析问题或错误,通常会得到专家的代码和解决方案,以克服您的问题。

在这里,我们概述了用于渔业数据分析的常用统计程序:BOB国际体育

  1. R程序
    1. 一个开源统计程序,具有各种各样的分析和图形化功能(例如,线性和非线性建模,经典统计测试,时间序列分析,分类,聚类)
    2. 用户编写代码来执行特定的分析(自助资源可用:http://cran.r-project.org/doc/manuals/r-release/R-intro.html;http://www.statmethods.net/index.html)
    3. 网上免费提供:http://www.r-project.org/
    4. BOB国际体育Fisheries-specific应用程序:https://fishr.wordpress.com/
  2. SAS(统计分析系统)
    1. 一个数据管理、预测分析和商业智能的软件套件,具有许多渔业科学应用程序BOB国际体育
    2. 尽管它不具备R的绘图功能,但SAS具有用户友好的指向点击界面
    3. 自助资源:http://support.sas.com/techsup/
    4. 网上购买地址:http://www.sas.com/en_us/software/how-to-buy.html
    5. BOB国际体育Fisheries-specific应用程序:分析淡水渔业数据的解释BOB国际体育(编辑克里斯托弗·s·盖伊、迈克尔·l·布朗;https://BOB国际体育www.aka-wood.com/shop/55049c)
  3. SPSS(社会科学统计包)
    1. 在社会科学中广泛应用于渔业数据分析的统计程序(如描述性统计、线性回归、双变量统计和分类方法)BOB国际体育
    2. 新的地图功能为数据分析和报告增加了地理维度
    3. 自助和购买信息可在:http://www-01.ibm.com/software/analytics/spss/
  4. PRIMER-E(多元生态学研究中的普利茅斯例程),
    1. 用于分析多变量(即多个变量)物种或样本丰度(生物量)数据的程序
    2. 多元过程包括分组、排序、主成分识别、假设检验、样本判别和趋势相关
    3. 自助和购买信息可在:http://www.primer-e.com/
  5. Excel
    1. 最适合于数据组织、汇总统计(例如,平均值、标准偏差)和简单绘图的微软电子表格程序
    2. Excel电子表格通常表示在其他程序(如R、SAS)中导入和分析的数据集。

在确定选择的软件之后,使用自己编写的代码或指向点击界面将数据读入您喜欢的软件程序。这可以通过许多文件类型完成,大多数数据库管理程序为导出数据提供多种选项。最合适的文件取决于您使用的软件。文本文件(.txt)或以逗号分隔的Excel文件(.csv)通常用于许多软件程序。了解您所使用的软件程序是如何读取数据的,这对于防止以后发生代价高昂的错误是极其重要的。

我们建议进行一些探索性分析来计算汇总统计数据(例如,均值、标准差、范围),并使用箱线图来可视化一系列类别的数据(例如,绘制10个不同横断面的动物密度图),或使用X-Y散点图来可视化连续数据中的模式(例如,绘制水温的动物密度图)。

接下来的步骤是使用正式的统计程序来实现您的项目目标。在开始之前,你应该清楚地描述这些目标;这可能需要咨询你的研究主管和合作者。常用的分析方法是用回归分析来估计变量之间的关系。线性回归、方差分析、逻辑回归和广义线性模型都是相互关联的;较大的差异在于因变量的假设分布(如二项式、正态分布、泊松分布)或预测因子协变量是否连续(如温度)、整数(如动物数量)或分类值(如X湖、Y湖)。混合效应分析经常用于渔业和生态学的前沿领域,因为它们有助于适当地解释抽样设计中的随机误差,从而对变量之间的关系得出有意义的推断。BOB国际体育如果你有一个不平衡抽样设计、非随机抽样或非随机选择研究地点的实地项目,这可能特别有用。然而,如果你的研究是一个控制良好的实验,或者确实是随机的,你可能没有太多的随机误差需要解释。

一旦进行了初始统计检验,请检查数据(或相应的残差)是否违反了这些检验的假设。通常,我们假设我们的数据是正常的,残差是同方差的(在预测器协变量上的方差相等)。正态性检验包括夏皮罗-威尔克、偏峰度、qq地块,茎叶地块。同方差可以用Levene检验和Breusch-Pagan检验等进行检验。如果数据满足这些假设,或者分析技术对违反这些假设具有鲁棒性,则可以进行参数统计分析。如果不是,您应该执行类似的非参数过程(参见参数和非参数统计程序手册大卫·j·舍斯金)。如果出现进一步的问题,请咨询研究生或教授在你的统计部门讨论你的困难。这是我们有统计部门的众多原因之一!

在正式的分析完成后,解释和可视化您的数据。数据解释的一个有价值的自助资源是淡水渔业数据的分析与解释BOB国际体育(Guy and Brown, 2007)。这样做的目的是帮助您将消息集中到您的目标受众,帮助他们理解数据中的重要模式和流程。这既可以包括数据的描述性模式(即,在抽样总体范围内,结果显示了什么),也可以包括说明性结果甚至模型预测(例如,将抽样总体范围外的关系外推到不确定的场景)。在数据解释中需要回答的重要问题是:您的研究有哪些有趣的影响?你的受众是什么需要了解你的研究?什么结果使你的研究变得重要?根据这些类型的问题解释数据将帮助您识别相关模式、可视化结果,并最终用文本、表格和图形描述结果。

您可以使用各种程序以图形方式显示数据。交流你分析的数据对于通过任何媒介(如演示文稿、海报、出版物)传达你的发现是非常重要的。这本书,图形语法(威尔金森,2nd版)为可视化统计数据以及观众如何解释它提供了有用的参考。Sigma Plot是一个点击程序,用于生成具有出版质量的图形(例如散点图、回归图、直方图、柱状图、箱形图)。自助、购买和下载信息可在http://www.sigmaplot.com/.微软Excel允许快速创建表格和简单的图形。最后,R在基础软件和许多外部包中提供了一系列图形化功能,可以实现不同的、独特的数据可视化。

由:
安德鲁·卡尔森,南达科他州立大学硕士候选人
凯尔·威尔逊,卡尔加里大学博士生
尼古拉斯·科尔,内布拉斯加大学博士生

Baidu
map