20xx年智慧医疗大数据解决方案内容摘要:

难了。 主要有下述八大难题。 各自为政:各家医疗机构各自为政,都想要别人的的数据,都不希望自己的数据共享给他人。 到目前为止,医疗数据都存贮在各家医疗机构内部,从各家医疗机构获得数据非常难。 数据不标准:医疗行业还未建立全国统一的、标准化、规范的数据,各 11 家医院的医疗数据各不相同。 数据不标准问题是影响大数据处理的一个重大问题,在大数据时代,各行各业的数据标准化工作是大数据的一项非常重要的基础工作,这项基础工作搞不好,大数据挖掘工作不可能搞好。 医疗行业的数据标准化工作也是一项工程量巨大的系统工程,需要大量的医务人员共同参与才能完成。 国内还未做好这项基础工作。 数据不标准、不规范,会严重影响数据挖掘的结果。 【数据不一致可以有多种情况,如数据类型不一致,随意缩写造成的不一致,计量单位不一致等。 当从多个不同 的数据源整合数据时,由于定义的不同,更容易产生数据不一致问题。 在不同的数据源中,相同类型的信息可能表现为不同的格式。 例如,电话号码通常定义为字符型数据,但在有些数据源中可能将定义数值型数据,因此应将其标准化。 典型的例子是字段“性别”,一些人用数字“ 0” 、“ 1” 、“ 2” 来表示“不清”、“男”、“女”。 而在其它数据库中,可能直接用“不清”、“男”、“女”来描述。 另一种情况是字段值在不同的数据源中不一致,如“出生地”可能分别使用“上海”、“沪”、“上海市”、“沪市”、“ SHANGHAI” 、“ SH” 等表示上海市出生 的人。 解决这一问题首先应该进行标准化,然后根据标准逐步消除数据不一致的问题。 】 业务及业务流程不标准:要对全国的某个行业的大数据进行分析统一,行业内的业务及业务流程的标准化工作也是一项非常重要的工作,否则,各个机构的数据也就会百花齐放、各不相同,不利于分析统计。 数据多样性 (Variety)【 数据结构不标准、不统一】:全国有 万家医疗机构,这些机构的全部信息系统有数十万个,这些系统由不同的开发商所开发,各系统的数据结构不尽相同。 【每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都 不一样。 因此,即便是在一家医院,都会出现很多孤岛,更别说整个医疗行业了。 各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。 】 数据与数据库系统、应用系统密切不可分:关系数据库系统中的每一个数据都要先定义数据结构才能入住数据库。 信息系统的最终用户所看到的数据都需要应用程序的解读,最终用户看不懂关系数据库中的数据。 不能实现医学信息的结构化存贮:医学信息非常复杂,医务人员习惯于用自然语言编写各种医学档案,例如医生都是用自然语言编写病历。 然而,计算机很笨,不能理解自然语言,因此只有把医学信息 结构化之后进行存贮,才能用 12 计算机进行处理。 而当前的众多医学信息都未能很好地进行结构化存贮。 信息孤岛:各家医院的各个信息系统不能实现全国互联互通。 老系统升级改造难题:当前的信息系统都是小数据系统,不适应大数据时代的需求,然而要对现有的信息系统进行全面改造也是非常困难的,其代价也是非常高昂的。 【为什么要升级改造。 因为当前的各家医院的信息系统所产生的数据各不相同,数据不标准、不规范。 要对大数据进行处理,必须确保全国各家医疗机构的信息系统所产生的数据是统一的、标准的、规范的医学标准数据。 只有这样,才能高效处理大 数据。 】 从理论上而言,医疗大数据挖掘很简单,只要懂关系数据库,基本上就能对医疗大数据进行挖掘。 然而,要想对全国近百万个医疗机构、数十万个信息系统的全部数据进行高效地挖掘,所面临的挑战是非常严重的。 如何解决八大难题 ? 各自为政:这个问题必须国家卫生和计划生育委员会以行政命令的方式来解决,强制要求各医疗单位实时地把各种医疗信息上传到国家医疗大数据中心。 若没有强制的行政命令,不可能建立起合格的国家医疗大数据。 数据不标准难题:此难题涉及到的数据量太大、工程量太大。 国家卫计委及很多人士虽说早就注意到此问题 的存在,然而直到目前还未从根本上解决医疗行业的数据标准化问题。 此问题不从根本上解决,那么医疗大数据的挖掘就等于说大话。 医疗行业数据标准化工作是大数据挖掘的基础工作。 此问题应该由国家卫计委组织业内外力量来解决,解决此问题需要 3 至 5 年的时间。 有了国家医疗大数据标准之后,还需要用标准的医疗数据去代替现有的不标准的医疗数据,而此项工作的工作量也是非常巨大的。 标准化工作是不赚钱的基础性工作,商业机构没有从事这项工作的动力,应该由国家卫计委来解决。 业务、业务流程不标准:目前全国各医疗机构的业务及业务流程并不标准,因此 ,各医疗机构所产生的数据也各不一样。 要建立国家医疗大数据,就必须道先对全国医疗机构的业务流程进行标准化处理,这也是一项工程量巨大的基础性系统工程。 这项工作也应该由国家卫计委来解决。 此项工作最快需要三至五 13 年的时间才能完成。  只有解决了上述三项基础性问题,才能够建立起国家医疗大数据这个大厦的坚实地基,否则医疗大数据只能是空中楼阁。 由于上述三个因素牵涉到全国各个医疗机构的方方面面,非常复杂,十年之内很难看到真正的国家医疗大数据的曙光。 下述 4 个问题属于技术问题,关系数据库理论解决不了这 4 个问题,可由发明专利技术“医学信息的结构化存贮方法”从技术上加以彻底解决: 数据多样性 (Variety)【 数据结构不标准、不统一】:目前关系数据库占据统治地位,绝大多数信息系统都是用关系数据库而建立的。 医院的各种信息系统中,多数也是用关系数据库系统而建立。 例如,目前国内医疗行业的 HIS 系统是由多个开发商所开发,各家开发商所用的数据库系统不一样,所用的数据结构结构及数据类型也不一样。 因此,如果要对全国各家医疗机构的 HIS 系统中的数据进行分析,那么首先就要把各 种数据全部转换为同一的数据结构,然后才能对数据进行分析统计。 然而要对全国近百万个医疗机构的数十万个、数百万个信息系统中的数据进行转换,也是一项工程量巨大的系统工程。 另一外很重要的问题是,所有这些信息系统中的数据要转换为哪一种统一的、标准的数据结构,也是需要国家卫计委制定相应的标准、规范。 数据与数据库系统、应用系统密不可分。 不能实现医学信息的结构化存贮:医学信息非常复杂,用关系数据库不能实现病历信息的结构化存贮。 有人用 XML 实现病历信息的结构化存贮,然而XML 只适合处于少量数据,不适合对全国的病历信息的处 理。 信息孤岛。 现有的医疗信息系统就犹如广州的城中村,广州的城中信息系统改造:村虽有一定的作用,然而城中村与广州这样的国际化大都市非常不协调。 改造广州城中村的最佳方案就是推倒重建,局部的修补是没用的。 然而要全部推倒重建,所花费的资金是非常巨大的。 14 国家大数据标准工程堪比“两弹一星” 大数据工程,标准先行。 国家大数据标准的工程的工程量要比“两弹一星”的工程量大。 国家大数据标准涉及到每一个行业,也涉及到各种各样的业务。 大数据标准涉及数据的标准化、数据结构的标准化、业务的标准化、业务流程的标准化。 大数据标准化工作完成之后还要对现有的信息系统进行改造,这种改造的工程量及代价也是非常高昂的。 目前的信息系统所产生的数据不适应大数据的需求。 历史对秦始皇统一文字、统一度量衡、统一货币的评价非常高:功惠千秋。 大数据所面临的问题也犹如秦始皇时代所面临的“文字不统一、度量衡不统一、货币不统一”问题。 因此,要解决大数据所面临的问题,也需要由秦国、秦始皇那样强大的机构、领袖人物以行政命令的形式强制推行,才能从根本上解决问题。 大数据八大难题中的五大难题(各自为政、数据不标准、业务流程不标准、数据多样性 (Variety)【数据结构不标准、不统一】、信息孤岛)与秦始皇曾经遇到的问题有些类似。 为解决千年虫问题,全球花费了超千亿美元的资金。 彻底砸烂小数据而建立大数据新环境的代价远远超过千年虫问题。 千年虫只是解决一个时间数据的问题,而彻底砸烂小数据建立大数据新环境则涉及到几乎所有信息系统的所有数据。 小数据:只要能满足自己需求,能解决自己的问题即可。 大数据:不只是满足自己的需求、解决自己的问题,还要考虑他人的需求。 重点是如何让他人能够找到所需要的数据。 要让他人、大家找到所需要的数据,最重要的是大家都要遵循相 同的标准,大家都讲普通话,而不是方言,这犹如泰始皇统一六国后的“书同文”的标准化改革。 当前在处理大数据时的首要工作就是数据抽取( ETL: “ Extract”、“ Transform” 、“ Load”,“抽取”、“转换”、“装载”),其实数据抽取工作也类似“秦始皇的书同文”,只是数据抽取并未能真正象秦始那样从根本上解决书同文问题。 要使大数据真正做到“书同文”,需要象秦始皇那样从根本上解决问题。 而真正实现大数据“书同文”时,就不再需要数据抽取。 与当前人们所提到的大数据相比,关系数据库所处理的数据则是小数据。 大数据中的数据是数万家、数十万家以上的各中机构中各种数据的总和。 而关系数 15 据库所处理的小数据则是一家机构或几家机构中的部分数据。 当我们面对数十万个、数百万个以上的信息系统中的数据(大数据)时,就会发现,我们面临很多挑战:“(维基百科对大数据的定义)无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”。 也就说明用关系数据库系统已“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”大数据。 在小数据时代,信息系统的用户是通过应用程序而查到自己所需要的数据,而信息系统对关系数据库中的数据进行处理 后而以用户能够理解的形式展现给用户。 然而,在大数据时代,这种方法行不通了。 因为在小数据时代,我们所要处理的数据是有限的、可确定的,而在大数据时代,我们所要处理的数据是无限的,不确定的数据。 秦始皇之所以能使“书同文”成为现实,是因为他拥有至高无上的权威;“两弹一星”之所以能成功,关键在于“两弹一星”关系到国家的生死存亡,国家大力支持。 大数据的成败与国家的支持是分不开的。 医疗行业的信息系统顶层设计为何难产 国家卫生和计划生育委员会几年前就注意到了医疗行业信息系统顶层设计的重要性,并希望从根本上解决此问题,但至今未能从根本上实现医疗行业信息系统的顶层设计。 为什么要进行顶层设计。 因为当前的各种医院信息系统存在严重的问题,信息孤岛问题严重,不能互联互通。 顶层设计建立在医疗数据标准化、医疗业务流程标准化的基础之上。 而如今医疗数据标准化、医疗业务流程标准化这两个基础工作还未做好,因此顶层设计就不可能有结果。 技术上的原因:关系数据库理论的先天不足。 客观原因:问题非常复杂、牵涉面太广、所需资金非常巨大。 顶层设计非 常难,比顶层设计更难的是有了顶层设计之后再对全国的医疗信息系统进行全面更新换代。 16 大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘 如果把全国 万个医疗卫生机构所产生的数据全部存贮到国家医疗大数据中心,这些数据可以称作是“国家医疗大数据”,然而这样的数据并不能称作是真正合格的“国家医疗大数据”,因为,对这样的数据的挖掘非常困难,从这些数据中挖掘出有用数据的代价非常高,犹如沙里淘金,大海捞针。 大数据不是小数据之和。 大数据的关键不在于大,而在于挖掘。 只有可以让大家高效挖掘、任意挖掘的大数据才是真 正合格的大数据。 我国医疗行业每年产生多少数据 国家医疗大数据的概况: 截至 2020 年 3 月底,全国医疗卫生机构数达 万个,其中:医院 万个,基层医疗卫生机构 万个,专业公共卫生机构 万个,其他机构 万个。 仅按全国拥有 万家医院、每家医院 4 个信息系统计算,全国约有 10 万个以上的医院信息系统,每个信息系统按 20 张表估算,全国共拥有 200 百万张表。 除了存贮在关系数据库系统中的数据外,还有其它类型的数据: XML、音像、文本等。 国家医疗大数据的数据量估算:南京军区南京总医院目前拥有 5 台存储设备,2 台专用于 PACS,其中 HIS、 LIS、 EMR 等数据 3T,病案缩微数据 12T, PACS数据 120T 左右,每个月的数据增长为 2T 左右,每年产生的数据量: 24T/年。 国家医疗大数据的数据量估算 = 万家(未计小医疗机构的数据) *24T/年 =60 万T/年。 国家医疗大数据的数据量估算: 6 万 T/年至 100 万 T/年。 挖掘关系数据库系统所产生的医疗数据非常困难 如果全国 万家医疗机构以镜像的方式把所有数据都上传到国家医疗大数据中心,那么该如何对这些数据进行挖掘。 17 全国共有 万家医疗机构,这些医疗机构所拥有的信息系统有 10 万个以上,这些医疗机构所拥有的数据库有 10 万个以上,这些数据库中的表有 200 万张以上。 这些医疗机构的数据存贮在数十万个以上的文件夹中(存贮 XML、音像、文本等数据)。 患者病史可能是患者自出生以来的所有情况,病史数据可能存贮在几十年的数据中,并不仅是一年的数据中。 当前的大多数医疗数据都是存贮在关系数据库中,关系数据库中的数据 与数据库系统密切相关、与数据结构密切相关、与应用程序密切相关、数据不标准。 如果只是以镜像的方式把全国 万家医疗机构的 数据全部上传到国家医疗大数据中心,要从这些数据中挖掘数据,也是。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。