行业动态 火狐体育app:大数据时代最全的医学公共数据库合集整理 来源:火狐体育最新官网登录入口 作者:火狐体育app 发表时间: 2022-12-06 12:22:15

  在信息大爆炸时代,信息产生的速度日益加快。在过去几年里,大数据已经成为工业、金融和医疗领域使用最多的词汇之一。

  医疗领域是大数据应用的重要领域,每天都产生大量的医疗数据,为了给患者提供更好的治疗和护理,许多国家的医疗机构已经提出了医疗信息系统的多种模式。因此,如何更好地利用庞大的医疗数据已经成为人们关注的焦点,推动医疗大数据的研究和应用成为现代医学研究的关键因素。

  海量是huge in volume,随着数据的产生和收集,数据规模越来越大,已经超越了传统存储和分析技术;

  广泛性是a wide range of data types,包括音频、视频、网页、文本等半结构化和非结构化数据,以及传统结构化数据;

  使用大数据的关键是如何从海量、多样化的数据集中发现价值,整合数据库的计算分析已成为医学和分子生物学的基本方法。

  医疗大数据有多种来源,如行政索赔记录、临床登记、电子健康记录、生物特征数据、患者报告数据等。

  为了减轻癌症负担,美国国家癌症研究所于1973年建立了癌症患者的SEER数据库,这是北美最具代表性的大型肿瘤数据库之一,覆盖了美国约28%的人口。

  虽然SEER数据库存在一些缺点,但SEER数据库仍不失为一个很好的数据来源,为临床研究人员提供了高质量的数据。

  重症医学的重点是对危重病人进行监测、对功能减退器官实施支持,让患者在保证供氧、维持器官功能的情况下争取时间寻找和去除病因。

  /about/releasenotes/)。该数据库的患者信息来自两个不同的重症监护信息系统:

  当发现bug或需要改进时,可以自己修改拉取请求,当平台合并时,您可以将修改后的代码包分享给全世界,其他用户也可以免费使用。

  中国居民健康与营养调查项目是北卡罗来纳大学与中国疾病预防控制中心营养与健康中心联合开展的国际合作项目。该研究旨在探索中国社会经济转型和计划生育政策在过去30年里如何影响国家的健康和营养状况。研究内容包括社区组织、家庭和个人经济、人口和社会因素的现状和变化。

  人口老龄化作为衡量国际经济社会发展水平的重要指标,老龄化不仅意味着老年人口的增加,而且也会对经济和社会构成严峻挑战,这已成为一个不容忽视的重大社会问题。

  HRS数据库是美国关于健康和经济环境变化的老龄化相关数据库。数据库中的大多数数据可以通过用户注册免费获得。HRS数据库的多学科数据侧重于对收入和财富、健康、意识和医疗服务使用、工作和退休以及与家人联系的调查。自2006年以来,数据收集已扩大到包括生物标志物和遗传学、以及更深入的心理学和社会背景。

  随着大数据时代的到来,数据可重用性和数据共享政策正引起全球关注。在过去的十年中,数据管理和数据共享的基础设施和相关法规发展迅速。

  Dryad数据库由国家科学基金会资助,于2008年9月成立的一个非营利性组织。Dryad数据库存储了医学、生物学和生态学领域的研究数据,面向世界开放,可以免费下载并重复使用。

  /)。越来越多的期刊鼓励研究人员提交研究数据。一方面鼓励科研数据再利用,产生更多科学新发现。另一方面促进医学研究的透明化、公开化。

  与其他公共数据库相比,Dryad数据库与许多主流期刊合作,在数据共享方面更加高效。通过为研究数据分配DOI,可以引用数据,在提高科研人员和出版商学术声誉的同时,提高了科学数据的利用率,Dryad有详细的数据维护和数据缺失-恢复的管理策略,数据零门槛的使用和友好的界面也使得Dryad数据库越来越受到研究人员的欢迎。

  在2006至2010年间,UK生物库从英国各地招募了50万名年龄在40-69岁的志愿者,收集了大约1500万份血液、尿液和唾液的生物样本,并对所有参与者进行了基因分型和血液生化分析,并长期跟踪他们的健康和医疗状况信息。同时该数据库收集所有研究成果,并将其提供给其他研究人员。

  UK生物库于2014年启动了一项新的医疗成像数据收集计划,使用磁共振成像(MRI)和X射线万名志愿者的大脑、心脏和骨骼进行了分析。成像分析是为了建立一个内部器官扫描图像的数据库,这也将是迄今为止世界上最重要的健康成像研究。这些海量的数据将帮助研究人员分析人群差异及其原因,如癌症、心脏病、糖尿病、关节炎、阿尔茨海默氏症,甚至改变科学家对这些慢性病和流行性疾病的看法。

  BioLINCC由美国国家心肺血液研究所(NHLBI)于2008年成立。该研究所在心、肺和血液疾病的预防和治疗中处于全球领先地位,并支持这些领域的基础研究、转化性研究和临床研究。通过建立BioLINCC,NHLBI为医学研究人员提供了获取科学数据和生物样本的途径,最大限度地利用了NHLBI开发和维护的研究资源。这些资源是1975年以来由血液疾病资源部管理的全国生命周期生物样本库和2000年以来由心血管科学研究中心管理的全国生命周期生物样本库。

  存储在BioLINCC数据库中的数据和生物样本是免费提供的,但生物样本的运输费用由调查人员承担。研究人员必须向BioLINCC提交申请,以审查和获取他们正在申请的数据或生物样本。在研究人员申请数据或生物样本后,NHLBI工作人员将对申请材料进行审查。

  BioLINCC的缺点是需要单独申请BioLINCC共享的各个资源。对于想要申请多个研究资源的申请者,申请流程复杂;在搜索生物样本时,BioLINCC需要提供生物样本的名称用于研究目的。这种搜索方法对身份不明的研究人员来说效率不够高。未来,BioLINCC还将拓展数据共享领域,提供更加便捷的资源申请流程,以高效率-低成本的方式采集和维护数据和标本,最大限度地利用现有资源。

  大数据分析的使用促进了癌症基因组学研究的发展。从本质上说,癌症的原因是一种由细胞内基因表达差异引起的遗传性疾病。随着众多公共数据库的建立和开放,越来越多的研究人员可以访问测序数据。GEPIA是一种对基因表达谱数据进行动态分析的网络服务器,用于癌症和正常基因的表达谱分析和交互分析,填补了癌症基因组大数据信息的空白,帮助临床研究人员更有效地利用公共数据资源。

  )。该项目采用标准管道计算,并分析了来自TCGA和GTEx项目的9736个肿瘤和8587个正常样本的RNA测序表达数据。TCGA生产了33种癌症的9736个肿瘤样本,而这个项目只提供了726个标准样本。肿瘤和标准数据之间的不平衡可能导致各种鉴定分析的效率低下,因此GEPIA还整合了来自GTEx的数据。GTEx项目产生了8000个标准样本的RNA测序数据。同时,UCSC Xena项目使用标准管道重新计算了TCGA和GTEx原始RNA-Seq数据,从而使两个数据集兼容。因此,TCGA和GTEx数据可以集成起来进行非常全面的表达分析。

  GEPIA是一个由中国人开发的公共数据库。使用GEPIA数据库,实验室生物学家可以很容易地探索TCGA和GTEx数据集,找到问题的答案,并检验他们的假设。在差异分析和表达谱分析中,用户可以很容易地发现差异表达的基因。随着基因检测技术的应用,以免疫组织化学为基础的肿瘤预后评估和治疗选择的模式逐渐改变,更加准确的肿瘤分类对预后评估和治疗具有更加重要的指导意义。

  长期以来,肿瘤预防、早期筛查、个体化治疗、预后评估一直是医学界致力于的重点问题。研究发现,基因变异是所有肿瘤细胞的重要微观分子原因。因此,越来越多的肿瘤学研究人员开始从分子遗传学的角度进行相关研究。通过测量特定基因表达的生物学特性,可以预测肿瘤的生长、扩散和患者生存,并基于基因表达制定有针对性的诊断和治疗计划。全基因组测序和生物信息学的发展为癌症基因组研究提供了新的线索。

  TCGA是由NCI于2006年牵头的公共资助项目。自2008年以来,它已经公布了阶段性成果。2009年,它继续投资2.75亿美元,增加了各种类型的癌症数据。到2014年,这项分析扩展到了33种其他类型。肿瘤数据(包括10种罕见肿瘤),来自11000多个肿瘤样本,数据量高达255T,包括临床数据、DNA、RNA、蛋白质等多层次数据。在数据生成方面,该项目取得了无可争议的成功。

  TCGA的目标是通过大规模、高通量的基因组测序和基因芯片技术集成多维基因组数据,研究、定义、发现和分析人类所有肿瘤基因组的变化,最终绘制出全基因组的多维肿瘤基因组图。TCGA为肿瘤学研究人员提供了大量的基因组数据和相关的临床数据,为发现癌症相关基因的微小突变和研究肿瘤的生物学机制提供了巨大的数据库,从而提高了人们从分子水平上对癌症的科学认识和预防、诊断和治疗的能力。

  TCGA开启了肿瘤分子生物学和精准医学的时代,给研究人员提供了研究癌症发展的新机会,让我们以前所未有的微观视角看待癌症,从而一步步接近它的全貌。目前,TCGA数据已经被用来发现新的突变,识别固有的肿瘤类型,并确定泛癌的相似和不同之处。同时收集肿瘤演化的证据。越来越多的生物信息学工具被开发用于TCGA数据库。

  近年来,随着医学水平的不断提高,儿童癌症的整体预后有了很大改善,但儿童恶性肿瘤仍是儿童死亡的主要原因。

  TARGET通过测序和芯片技术检测特定儿童癌症的基因组、转录组和表观遗传学。使用多组学方法为每种类型的癌症生成一个全面的分子改变图(改变是指DNA或RNA的改变,如染色体结构的重排或基因表达的改变)。通过计算和验证生物学功能来确定哪些改变破坏了基因的功能通路,促进了癌症的生长、进展和生存,从而从癌症相关的改变中识别出候选的治疗靶点和预后标记物。

  危重病学涉及无创通气的应用和管理、抗生素的合理使用、营养评估和支持的实施、镇痛和镇静药物的适应症、ICU风险评估模式的适用范围等诸多难题。

  随着卫生信息网络的出现,人类需要开发具有成本效益的系统,以减少记录卫生保健数据所花费的时间和精力。在整个住院期间,ICU的患者都受到密切监测,以检测病情的变化。患者病情的变化要求医务人员及时修改治疗方案。eICU-CRD数据库解决了医务人员难以有大量时间和精力收集大量完整信息的问题。

  GEO数据库是NCBI创建的国际公共功能基因表达库。数据具有强大的存储功能,允许用户或研究人员提交、保存和检索多种不同类型的数据。GEO提供了一种简单的提交流程和格式,其数据来源依赖于研究人员提交的数据。

  GEO数据库不仅为研究人员提供了丰富的疾病相关基因表达图谱,还提供了查询和下载实验和基因表达数据的工具,允许用户查询和下载有趣的研究和基因表达图谱。GEO数据库包含原始数据和从原始数据生成的数据集或地图。GEO的原始数据放在三个不同的实体数据库中:platform、sample和series。

  GEO数据集的搜索结果包括名称、描述、物种、平台、提交者联系人、系列、发布时间、数字类型和样本数。GEO表达图的搜索结果以图片的形式显示所有样本的基因表达水平。搜索结果中的实验条件便于我们观察不同条件下基因表达水平的差异。每个数据集概述其研究数据报告和目的,显示与其关联的平台、样本和系列的数量,研究人员可以从中选择感兴趣的研究内容来下载数据。

  GEO还提供GEO2R在线R是一个交互式网络工具,它使用GEO2R筛选差异表达的基因,允许用户比较两组或更多组GEO系列,以识别在不同实验条件下差异表达的基因,结果显示有意义(基因排序表)。GEO2R使用来自BioConductor项目的GEOquery和LIMMA软件包对提交者提供的原始处理数据表进行比较。与GEO的其他数据集分析工具不同,GEO2R不依赖于整理的数据集,而是查询原始的矩阵数据文件系列。

  研究人员通过对基因芯片提供的基因表达数据信息进行深入挖掘和分析,发掘其潜在的生物学价值,并将其应用于基因分析、基因表达调控、疾病诊断、药物筛选等研究。对基因表达谱数据的挖掘和分析有助于了解基因的功能和基因间的相互作用,分析基因的遗传特征和功能。GEO顺应了芯片数据库的发展趋势,降低了芯片检测成本,缩短了数据读取时间,高效合理地利用了资源,整合了更多研究人员的数据。

  准确掌握世界范围内各种疾病的负担,对于了解疾病的危害程度和发展,提高卫生服务效率,促进居民健康和社会经济发展具有重要意义。1988年,在世卫组织和世界银行的支持下,哈佛大学公共卫生学院开始了对GBD的研究,随后华盛顿大学健康测量与评估研究所成立了GBD研究小组,对GBD进行研究。

上一篇:程序员常用数据库老少皆宜!这5种你一定得收藏! 下一篇:YPE htmlhtmlheadtitle data-vue-meta=true
关注我们
©2022 火狐体育最新登录网址_官网app入口 京公网安备110177777720125 火狐体育最新登录网址|火狐体育app