面向海量数据的高效天文交叉证认的研究(编辑修改稿)内容摘要:

据集上的实验 SDSS DR6星表(约 1亿条数据)、 2MASS星表(约 ) 原始方法与改进方法的对比: 741284129412计算块分块数量 SDSS数据库查询 2MASS数据库 查询 (中心块) 2MASS数据库查询 (边界块 ) 距离计算 其他 总用时 307s 59s 335s 580s 40s 1321s 317s 40s 639s 151s 44s 1191s 427s 54s 1177s 51s 72s 1781s 74128412941210412计算块分块数量 SDSS数据库查询 2MASS数据库查询 距离计算 其他 总用时 120s 78s 2489s 48s 2735s 127s 79s 690s 58s 954s 191s 102s 199s 57s 549s 374s 239s 58s 67s 738s – 实验二:非稀疏数据集上的实验 数据集: SDSS: 47949212条记录、 2MASS: 35476377条记录 原始方法与改进方法的对比: 741284129412计算块分块数 SDSS数据库查询 2MASS数据库查询 (中心块) 2MASS数据库查询(边界块 ) 距离计算 其他 总用时 33s 17s 124s 96s 16s 286s 33s 19s 191s 24s 16s 283s 43s 28s 403s 11s 22s 507s 74128412941210412计算块分块数 SDSS数据库查询 2MASS数据库查询 距离计算 其他 总用时 32s 19s 421s 27s 499s 36s 20s 130s 27s 213s 46s 27s 39s 31s 143s 107s 60s 11s 32s 210s 面向 HTM索引的可行性分析 • 优化边界问题的解决方法 • 限制生长模型 星 表 A星 表 B两 两 距 离 计 算星 表 A两 两 距 离 计 算环 0 : 由 1 个计 算 块 组 成环 1 0环 0 : 由 4 个计 算 块 组 成环 4生 长生 长生 长生 长生 长生 长基于 MapReduce分布式模型的交叉证认 • 意义: –数据急速增长,长期考虑,多核单机环境并不现实 –突破关系数据库在处理海量数据时的瓶颈 –利用大规模集群获得更强大的计算能力,进一步提高效率,为实现在线实时交叉证认和联合查询打下基础 MapReduce模型 • 概念: – MapReduce是 Google在 2020年提出的一个编程模型,并已于 2020年年初正式申请获批该项技术的专利。 它主要用以进行大规模数据集上的并行运算,其主要概念“ Map(映射)”和“ Reduce(规约)”最初借鉴于函数式编程语言。 • 优点: – 适合处理海量数据,尤其适合于数据间存在较强独立性的应用; – 成本低廉,使原本必须借助于非常高昂的超级计算机才能获得的计算能力可以在大量廉价机器上同样实现; – 易于编程,将任务分发、任务调度、数据分布、容错处理、负载平衡等并行计算中不可避免的复杂控制细节隐藏于系统的运行时后台处理中 Step1:数据分布式存放( Map+Reduce) 输入星表数据 Map Map Map Map Map Map Reduce Reduce Shuffle/Sort Chop/replicate (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) (块号 +来源,属性) Reduce 数据块头部 星表 A记录组 星表 B记录组 数据块头部 星表 A记录组 星表 B。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。