统计学-二十一世纪的挑战和机遇(doc31)-统计学(编辑修改稿)内容摘要:
计算和其它结果。 数据缩减和压缩 我们需要更多的“ 压缩原理”:费歇尔 (R. A. Fisher) 给出了许多重要的思想,例如:充分性、辅助性、条件变量,变换、枢轴法,和渐近最优性,后来又有了不变方差。 然而,在诸如模型选择、预测和分类等领域显然需要新思想来指导我们。 一种新思想是用“压缩”作为数据分析中的指导性方法。 对我们而言基本想法是一个好的理解数据的结构是我们不仅能够压缩储存它们而且能够解压缩和几乎恢复原始信息。 例如,在信号和图像数据领域,小波在表达和压缩图像中的曲线边界时实际上不是最优的。 这就要求我们需要新的表示系统以便更好地压缩。 机器学 习和神经网络 现在有很多特别的方法和计算策略来处理“工业强度”的数据。 其中大多数方法不能通过泛泛的理解推出来,而且它们也没有被溶入到主流统计中来。 这些方法是由机器学习协会等在分析庞大而复杂的数据中发展起来的,因此未来的工作应该包含把这些方法有条理地整合到核心统计中去。 这些研究大体上是建立模型和结构,这些模型和结构允许风险学科以及基于数据的风险评价。 这将包括在定向适应的建模过程中研究一些主要的工具。 对大 p 小 n 的多元分析 在许多重要的统计应用中,变量数 (p )往往要比观测单元数 (n )小。 这样的例子包括曲线数据、光谱、图像、以及 DNA微阵数据的分析。 最近在荷兰来顿 (Leiden)举行的名为“高维数据: np 在数理统计和生物医学中的应用”的研讨会突出了该课题与统计中很多领域交叉研究的重要性。 下面这个比较特殊的例子可以用来描述其它领域的新息如何能够证明本问题是有用的,因此加强了核心统计继续往外延伸的观点。 随机矩阵理论描述了这样一类模型和方法,这些模型和方法始于在数学物理中对复杂 原子核能级的研究,并在最近 40 年里发展起来的。 最近几年这些思想引起了概率论和组合数学的兴趣。 目前应用和研究在高维情况下统计和数据分析中的方法的时机似乎已经成熟。 例如,在许多领域中科学家用大的数据矩阵(许多观测值 (n )和许多变量 (p ))做研究,几乎没有统计理论来支持和理解用于维数缩减的启发性方法,如主成分,典型相关等。 早期结果显示大 n-大 p 理论有些时候提供了比经典的大 n-固定 p 的渐近理论更有用和更好的近似。 例如,关于“ 高斯正交总体”的 TracyWidom 分布提供了单一的分布,经过恰当的中心化和刻度变换,它提供了关于极值主成分和典型相关系数在零假设下分布的非常精确的描述。 贝叶斯估计和有偏估计 九十年代带来的计算技术的发展和效率使得贝叶斯方法可以在很广泛的模型类中实现。 未来几十年的挑战是充分研究和开发将贝叶斯方法和近代非参数、半参数统计方法联系在一起的纽带,包括将贝叶斯方法和频率论方法的尽可能结合的研究。 一个显然的结果是对于有许多变量的海量数据模型,无偏性和近似无偏性的概念(例如MLE)将会变得毫无用处,因 为统计方法中隐含的数据综合的概念将由于无偏方法的复杂性和变化性而失去意义。 因此需要更广的“有偏估计理论”和处理有很多变量的海量数据的新理论。 除了“蒙特卡罗”方法在建模实践中不断增长的作用外,显然也需要深入的,用于推断的“蒙特卡罗”方法的分析。 在证明和计算实验之间的中间地带 未来几十年对理论工作最后的挑战是研究证明速度(太慢)和无约束的计算实验的沼泽地(太武断且没有说服力)之间的协议中间地带。 在数学证明中存在许多问题,由于证明太难以及证明不太重要这两个原因,严格的数学验证也许要落后于方法的研 究。 例如,尽管几十年的工作,有许多重要的统计模型类,例如混合模型,其中可识别性问题根本不考虑,因为含有很难的分析和需要研究的模型结构的不断扩展。 对核心的机遇和需求 如果收集的数据和数据分析的需求呈指数增长,核心为什么要达到相应水平。 这是因为统一的思想可能减弱增长,而统计的核心领域是可以产生思想和通过科学进行沟通的地方。 也就是说,从在数据分析中能有效组织和传达的观点来看,发展核心领域统计实际上对科学而言是一个重要的基础目的。 在数据分析方法激增的领域之间,一个健康的统计核心理论(通过与应用有机的联 系)对于有效地消化,开发和传播来说是最有希望的。 由此可见,总的来说它是科学的重要基石。 适应核心外的数据分析 数据需求的增长对统计学家提出了独特的挑战,要求他们在适当的时间内为在其他领域发展出来的许多数据分析方法提供智力结构。 正如一位首席统计学家说的:“如果我们不想被机器学习者或计算机科学家取代,他们专门从事某些有意义的应用领域,而且在他们自己的势力范围内有天然的优势,则我们必须经常考虑一些好的统计思想,这些统计思想容易被使用者接受。 ” 核心研究的分裂 我们的理解是统计的超越能力是 很高的,且由于各种好的理由这种势头还在上升。 一统的观念可能减弱这种增长,而统计的核心领域是可以产生思想和通过科学进行交流的地方。 但是这种增长也会产生这样一种结果,我们认为是非故意的,即对基础研究的相对忽略,以及统计领域分裂的潜在危险。 我们再次强调核心研究的重要性: FDR 例子说明对特殊方法的方法论 /理论洞察力扩大了它们潜在的应用。 有人或许会提到一些数据来支持下面的说法:在前些年里,根据由 Stephen Stigler 提出 的“出口得分”分析,《统计年鉴》是最有影响力的统计杂志。 然而,根据最近的趋势反映,提 交该杂志的论文已经下降了大约 25%,也许是非偶然的,美国作者的比例也由 20 年前的70%降到到现在的 35%。 这个人力资源问题注定会变得更坏,因为统计的博士生通过求职市场明显发现超越技术有很高的价值。 在专业需求中的增长 统计的核心研究在工具上是多学科的:它至少借助于信息论、计算机科学、物理学以及概率论和传统数学领域。 因为统计学家变得越来越重视数据(在解决现代规模和范围的实际问题的意义上),在核心领域中需要的数学技巧已经提高。 例如,统计学家也许需要懂得复分析(鞍点)、代数学(列联表)、马尔可夫链 ( MCMC),或者泛函分析(建立复模型)。 同时需要足够多的计算机科学家去发展数据分析所需的算法和计算机软件。 需要不断增长的技术手段给予了我们第二个方面的挑战:保持核心活力作为统计思想整合的一个场所。 5.科学与工业中的统计 统计学作为一门学科,它的一个显著特征就是它与整个自然科学、社会科学和技术的相互作用。 这一章主要阐述统计学在广泛的领域内对于人类提高认识所起的作用。 生物统计 二十世纪上半叶农业和遗传统计学首先获得了发展,在其基础上发展起来的生物统计学、统计流行病学、随机化临床试验学已经成 为攻克人类疾病的一个里程碑。 这在过去的半个世纪里显著提高了人类的期望寿命。 最近在分子生物和遗传领域取得重要进展,使得人类在可以预见的将来在分子层面上对基础生命过程的理解将有飞速的进展。 该项研究的长期目标是把分子过程的知识应用到整个有机体和种群上。 这些目标包括对个人医疗方案的改善(即设计出个性化基因疗法),通过改良重要的农作物品种和家畜来缓解营养不良和饥饿问题,改进公共卫生,以及更好地防范生物恐怖袭击 (bioterrorism)。 除了对即将在下文讨论的‘新’生物学所产生的问题的新解决方法外,统计研究的成功 也依赖于对在过去半个世纪中发展起来的临床诊断、实验室试验和野外试验,以及观测研究等统计方法更好的理解和这些方法的进一步的发展。 统计和计算方法已经扮演和会继续扮演重要角色的大体上包括如下四个领域:( A)计算基因组学,特别包括生物分子序列分析和功能基因组学;( B)遗传流行病学和基因定位( gene mapping);( C)进化和种群遗传学以及生态学;( D)计算神经学。 ( A) 生物分子序列分析和功能基因组学 是一种生物研究方法,它是基于 DNA序列(基因构成片段)分析、氨基酸序列(蛋白质的构成片段)分析,以及在各种细 胞状态下的 RNA和蛋白质的全剖面( grobal profile)分析,来发现基因和蛋白质的结构和演化过程,以及它们在正常和不正常过程中的功能,例子包括 1 数据库搜索:基于蛋白质序列对齐,比较新发现蛋白质与已研究过的有关蛋白质来推断新蛋白质的机能。 2 识别基因组中的控制区域:这个基因组区域控制蛋白质的数量以及产生蛋白质的条件。 3 不同生物或动物种群的同源遗传区域的序列对比:这是推断它们种群史的第一步。 4 在正常和疾病细胞中基因表达水平的比较分析:它不仅可以为那些表现出相似临床症状的疾病提供客观和不同的诊断,而 且在了解疾病病理学中基因的过表达和欠表达规律的基础上,为该类疾病大体上提供成功治疗的途径。 在这个领域很有希望的方向包括在分子医药学、细胞和发展生物学这些领域使用计算的和功能遗传学的方法。 分子医药学 包括以下几个方面的研究:用遗传数据来识别对药品毒性有风险的人群;基于基因型、 RNA和蛋白质外形( profile)研究疾病子类型的更细的分类;根据用分子水平分析得到的预测模型来发展个性化的治疗方法。 在这个方向上研究的理由最终将依赖于传统的针对临床的生物统计学领域,如临床试验和队列研究。 对生物统计学科来说,这是一个 充满无限机遇的领域。 尽管统计学在细胞和发展生物学方面还没有完全建立起来,但随着设计越来越大的试验方案,例如,目前按 96 井或 384 井精心安排的试验分析来平行获得上千个基因 promoter活性的真实时间测量,新的统计和计算方法对将来该方向的进步是本质的。 借助于时衰显微镜( timelapsed),杂交和抗体着色中的大量图象将动态地提供在有机体发展的每个阶段上发生的关键分子事件。 特别令人兴奋的一个研究方向是研究方法的进步,它有能力把来自第一手文献( PubMed,在线文章)和数据库(如, Locus Link, OMIM,Flybase, Gene Ontology)与大型的功能功能基因组学和细胞成像数据分析信息结合起来。 ( B) 遗传流行病学 的目标是理解环境和遗传在人类疾病中的相对重要性。 基因定位 包括使用分子标记图,来确定与感兴趣的表现型有关的基因的位子。 这经常是它迈向更好理解并治疗动植物中遗传疾病的第一步。 人们也希望对导致那些在重要农作物和家畜中具有所需特性的基因定位,或对生物体模型中表现型的基因定位,如对实验鼠,这可以对类似的人类表现型的遗传提供线索。 在实验生物体中遗传定位包括生殖试验设计以获得最多的信息。 关于 不能进行生殖实验的人类基因定位则更复杂,一些方法解释了家族成员间的关联,而另外一些方法包含了对一人群内个体之间更难于推断和更复杂的关联。 ( C)进化,种群遗传学和生态学 研究发生在动植物中总群水平下的变化,这种变化是由于基因库的随机突变和环境发生引起的。 虽然最初定位于进化关系的研究(例如,支持现代人类有共同非洲祖先假设的证据),种群基因的概念逐渐用于理解细菌和病毒的进化(为了提供合适的疫苗和药品)和不同的动植物种群中蛋白质的进化(通过识别进化中保存下来的不同物种中的相关蛋白质部分来理解蛋白质的结构和功能)。 ( D)运用现代神经成像学( PET, fMRI), 计算神经学 试图在少量的交互神经水平下和整个大脑水平下来理解神经系统功能:在什么条件下,哪部分大脑被激活。 正常人和精神病人的大脑在结构和 /或功能方面有什么区别。 以及如何利用这些知识来诊断和治疗。 计算神经学涵盖了基本的分子生物学,从离子通道行为的研究、简单神经网络中的神经元脉冲建模、嗅觉视觉感受器的反应,到用于活大脑成像和冷冻切片技术的宏观测量方法,再到计算视觉中的抽象方法。 统计在分析的每个水平上发挥了至关重要的作用。 统计方法和计算方法 对于这些大量的科学问题 ,统计、概率和计算的方法已被证明是非常有用的。 一些方法适用于许多领域,而另外一些方法适用于某些特殊的领域。 随机过程,从有限马尔可夫链到点过程和高斯随机场,在所有问题中都很有用。 分类、聚类和主成分分析等统计方法广泛地应用于( A)和( D),随机过程中的似然分析和 /或贝叶斯分析在( A)、( B)和( C)中是非常重要的。 由于大量产生的数据,如个体样本中上万个基因的微阵表达水平,或来自于分布于上千个个体基因的上千个标记的数据(将来可能达到十万个),对产生于( A)、( B)和( D)中的多重比较问题提出了挑战。 在计算和最 大化( A )、( B)和( C)中的似然函数时,隐马尔科夫模型和 MCMC(马尔科夫-蒙特卡洛)提供了重要的计算算法。 一部分统计方法虽然需要作适当的修改(主成分曲线,随机过程的似然分析)来处理由现代生物实验所产生的大量数据,但是这些方法仍然是经典的(例如,主成分、似然分析);其他统计方法(隐马尔科夫模型、 MCMC)是近期与实现它们所需的现代计算技术同步发展起来的。 另外还有一些统计方法,它们对单个领域的发展是至关重要的。 一个例子是运用树(系统发育树和粘联树)来描述群体内部个体之间以及不同群体之间的进化关系。 (树在 聚类分析中也起到一个方法的作用)。 试验设计和方差分量为基因定位提供了重要工具。 许多方法在与应用密切相关的领域中已经发展起来了,人们期望将来重要的贡献来自于对特定应用有很深造诣的统计学家。 无论如何,这些方法是建立在一种理论框架上,这种理论是为了响应其他一些感知的需要而发展起来的,它们经常来自于与现代生物学无关的领域。 在数个不同领域找到应用的那些方法的共同方法论特征激励人们去获得更好的理论理解,到那时那种理解。统计学-二十一世纪的挑战和机遇(doc31)-统计学(编辑修改稿)
相关推荐
“直方图 ” 分析工具 “回归分析”分析工具 “抽样分析”分析工具 “z 检验:双样本平均差检验”分析工具 同济大学应用数学系钱志坚 9 Excel统计分析步骤 统计数据 – 统计数据 ; – 研究对象的数量性质通过一些共同属性表现出来 , 这些属性被称为统计对象的标志; – 统计数据实际上就是各个总体单位在每个标志上的取值 ; – 常常可以把它们整理成二维表形式。 同济大学应用数学系钱志坚
上流阶层的生活方式及态度 背景: 合肥是一个具有悠久历史的文化城市,经济的稳步发展,让合肥人产生普遍的社会心理 —— 追逐国际化尊贵生活 作为安徽复兴、进步思想的摇篮,合肥需要提高合肥上流阶层的居住品质 13 目标消费者分析 132上流阶层的生活方式及态度 生活方式: 合肥上流之家,对穿着、饮食的时尚潮流投入相对较多 家庭理财方面选择股票较普遍,也选择风险较小的储蓄和购买保险 13
• 方差系数、标准差系数 一 .绝对数与相对数 (一)绝对数 • 反映社会现象整体规模和水平 • 时期数 • 时点数 (二)相对数 • 结构、比较、计划等 (三)绝对数与相对数的应用 指标内涵和可比性: GNP、 工业增加值 指标的结合运用 举例 :在美国, 1985年有 19893人遭谋杀,与 1970年 16848人遭到谋杀相比,增加了 20%。 这些数字揭示了在
选择.并且统一方便面的创意吃法,对于追求时尚,讲究个性的年轻人也具有很强的吸引力. 4 .产品品牌分析 : 目前中国大陆市场上已形成康师傅,"统一",华龙面三足鼎立的局面,"统一"与其两者的竞争大战已经白热化.并且一些地方性的方便面品牌也要与之共分一杯羹.但是统一 的企业经营,把从量的竞争提升为质的竞争,将公司的内在文化延伸到外在产品。 以爱心和关怀来建构与现代人密不可分的食品王国
册 雨水计算流量 Q=ψ qF q=nbt PcA )( )lg1( Q雨水流量 ψ 径流系数 F汇水面积 q暴雨强度 P降雨重现期 t –降雨历时 A、 b、 c、 n当地降雨参数 当选定城市后,软件自动载入当地暴雨强度公式,然后选择汇水区域形式(屋面、室外),可自定义重现期、降雨历时、径流系数等,输入汇水面积,以及雨水管道数量,即可确定该区域的暴雨强度、雨水流量以及每根管道的流量,流速
决了合同是否存在的问题,并未解决合同生效的问题。 已经成立的合同如不符合法律规定的生效要件,仍不能产生法律效力。 换言之,合同的生效制度体现了国家对当事人已经达成的合意的评价问题,据此可以说,合同的成立主要表现了当事人的意志,体现了合同自由原则,而合同生效制度则体现了国家对合同关系的肯定或否定的评价,反映了国家对合同关系的干预。 〔 12〕区分合同的成立和生效的现实意义在于: 第一