近日,《自然》子刊报告了一种药物开发的新技术,利用“达尔文进化论”的加速版,通过随机程序化组装快速生成数百万个小分子组合,迅速找到了新的肿瘤精准治疗的候选药物。
利用不同的解决方案或研究思路,通过收集、汇总大量数据,实施数据挖掘、分析,高效地开发药物或者制定有针对性的治疗方案,越来越成为目前医药研发公司、医疗服务机构、医院、诊断中心等开展精准治疗的有效路径。
在百万乃至千万级别的海量数据中发现有效目标,算法和算力正成为医药研发领域不可或缺的核心技术。医疗大数据云端化,将较好地弥补医疗行业在算法、算力方面的“短板”,助推精准治疗时代到来。
云端化数倍增加数据挖掘量
新冠疫情到来,医疗行业更加意识到,需要通过数据的云端化,更好地驾驭更大量的数据,助推精准治疗时代到来。
以阿斯利康为例,作为在研发新冠疫苗和药物方面进展快速的跨国型药企,据统计,它在24小时之内约需要进行510亿个数据的统计分析,这些数据包括基因类型的数据和病患的数据。对这些数据的分析,可以支撑他们在2020年同时进行40多种新药开发的项目。
但并不是所有的数据都是能直接用的,在数据挖掘之前,必须进行大量的“结构化”工作。但事实上,一些医疗机构在收集患者数据时,经常难以结构化,例如对“浸润”的描述,在不同科室学术术语不同,这使得在算法挖掘时数据不大好用。
为了让非结构化数据也能实现分析功能,很多医疗领域的科技公司都在努力地创新、尝试。亚马逊云科技通过降低门槛、准备数据和标注数据,扩大机器学习在医疗领域的数据发掘范畴。
“我们发布的应用中,之前对专业的标注有专门的设计,在新冠疫情期间,肺炎的数据通过专业团队标注进行了及时跟进。” 亚马逊云科技机器学习相关负责人介绍,专业团队拥有特定领域和专业的知识,并且符合客户对于数据安全和隐私、合规等要求。
云端化降低了数据挖掘的门槛,让医疗行业更好地驾驭患者数据,提供精准化的诊断、治疗的方案,提高整个医疗服务运营的效率。
云端化实现随叫随到的“存储”
医疗大数据里最常见的是影像数据,由于影像数据格式标准,因而容易获取和使用。中科院分子影像重点实验室主任田捷曾表示,未来的影像中心就像飞机驾驶舱一样,是各种各样信息的综合体;而未来的医生则相当于飞行员,要处理各种各样的信息。
医疗影像信息有归档要求高、数据量大、存储量大的特点,对于云端读取的实时性提出更高的要求。医疗影像的数据长年不能删除,需要归档很多年。在实际的应用中,这些影像数据可能一年都用不到一回,但也可能突然就会要求马上调用这个数据。
医疗数据的存储特殊性需要云存储既满足低成本的长期存储,又要满足即时快速调用的要求。通过智能分层的技术,亚马逊云科技构建了及时索引的分层,可以帮助客户在归档的数据里面产生索引,在需要取用的时候,仍然能够像热数据一样马上就能索引到。而在不需要索引的时候,这些数据像归档存储一样,长期保存在非常低的成本存储层中。据介绍,这一技术可以使归档数据在毫秒级完成访问,并将节省近70%的存储成本。
云端化实现低门槛的机器学习
无论是医学领域还是数据科学领域都是注重实践的研究领域。相关专家表示:人工智能技术在医学上的研究、应用,不是写文章、谈概念,也不是纸上谈兵,更不仅仅是做筛查,而是要将技术与临床紧密结合,解决实际临床问题。
然而,缺乏跨学科的高水平人才,仍旧是让医疗行业与数据挖掘融合起来的难点之一。如何让对数据和编程一窍不通的医疗学者快速上手机器学习呢?
“他们无需任何技术背景,完全不需要具备机器学习或者其他的一些技术能力,就能够用到我们的人工智能或机器学习服务。” 亚马逊云科技机器学习和医疗人工智能总监Taha Kass-Hout博士表示,只需要用自然语言去请求服务,通过聊天框搜索就能够使用机器学习服务。
人工智能可以帮助客户更好地去编撰数据,并对数据进行结构化处理、打标签等工作,实现机器学习的托管型云服务。
云端化通过降低机器学习的使用门槛,大大加速了临床治疗的精准性。例如在慕尼黑白血病实验室建立了世界上最大的白血病数据,通过把患者的基因数据和患者的电子病历数据整合在一起,用于精准化的临床治疗。
责任编辑:Rex_08