不管是定向广告还是Netflix,假如大数据可以告诉我们一样东西的话,那这样东西就是创造性地挖掘信息可以提供一些洞察,进而提高效率和改善结果。医疗保健行业的大数据可以提供这样的大机会,医疗保健行业的大数据预计到2020年每年将产生约2,314 exabytes(一个exabyte等于十亿千兆字节[gigabytes])的健康数据(https://med.stanford.edu/content/dam/sm/sm-news/documents/StanfordMedicineHealthTrendsWhitePaper2017.pdf)。这样的天文数字信息毫无疑问可以提供有价值的洞察,可以大大改善患者的护理。

医疗保健现在变得日益紧密地联系在一起,那么大数据会如何改变患者诊断、疫苗开发机流行病的预防呢?我们不妨通过一个非常清楚的镜头来看看医疗保健领域的大数据:我们都颇为熟悉的流感季节。
为流感季节预测把脉
每年大致从现在这个时候开始,不同的流感病毒就会在全国各地蔓延,最终将影响到15%至40%的人。为了应对流感,美国疾病控制和预防中心(CDC)每周会发布一份“流感一览”(FluView)的报告(https://www.cdc.gov/flu/weekly/fluactivitysurv.htm)详细介绍流感病毒。这些流感模型用于确定在即将到来的流感季节中哪种病毒株最常流行、是否需要新疫苗以及流感疫苗的效果如何。
我们从患者的角度来看看流感。患者甲为了预防流感在当地的小诊所(Minute Clinic)接受了流感疫苗注射。她得到的疫苗是根据去年的预测模型选的,可以预防两种A型流感病毒(H1N1和H3N2)以及B型流感株(B/Victoria)。患者在接受注射后乐观地认为她染上流感的机会很小。
然而,流感疫苗的有效性只有40%到60%(https://www.cdc.gov/flu/about/qa/vaccineeffect.htm)。而且,FluView报告只是从有限数量的数据源中提取数据,得到的预测比合理猜测只是好一点点而已。例如,CDC在2018年1月的第二周里认为流感已经达到高峰并且正在下降。但他们错得离谱:高峰直到2月才出现,而且该流感季节最后成了有史以来最糟糕的流感季节之一。
大数据可以防止这种情况的出现,可以帮助社区更好地应对流感及挽救生命。挖掘电子健康记录(EHR)加上非传统数据源(如社交媒体和Google搜索模式)可以为医疗服务提供商提供更准确和内容更丰富的洞察。事实上,已经有研究证明,一些Twitter之类的非常规数据源可以在流感发生爆发之前的六周内准确预测流感的爆发,远远超过我们目前所依赖的模型。
美国东北大学的研究人员分析了超过5000万条含与流感有关词汇的推文(https://news.northeastern.edu/2017/05/05/researchers-use-twitter-to-track- the flu-in-real-time/),对病毒的传播和受影响的人数进行预测。推文数据可以更好地了解不同病毒株的传染性以及每种病毒最常出现的区域。这样的数据能更好地为流感疫苗的研发和分布提供信息,可以提前发现哪些地区会出现哪种流感病毒以及哪些区域可能已经存在抗病毒药物现象。这些数据最终可以令疫苗更加有效以及推动区域特异性流感疫苗的研发。
这些预测模型的重要性怎么强调都不为过:去年由于不正确流感预测导致了许多诊所抗流感抗病毒药物的短缺(https://www.newsweek.com/2018-influenza-turned-deadly-supplies-flu- fighting-supplies-critical-medication -779740)以及各医院都没有准备好应对大量涌入的患者。要确保开发流感疫苗时机的准确及及时推出预防措施,就必须开展创造性的和批判性的思考,想想从哪里可以获取额外的最佳数据来源,例如非处方药购买的资料、可穿戴技术甚至物联网使能的智能温度计。
聚焦流感的大数据揭示了不断增长的抗药性
我们再来看看患者甲的情况。到了十二月,她因为喉咙痛、咳嗽和发烧去看保健医生。她的医生做了有关链球菌喉炎(Strep Throat)、细菌性肺炎和肺结核的化验,但实验室的化验结果要等几天后才能出来。患者的症状可能是因为细菌感染、流感或肺炎。保健医生应该开普通抗生素吗?这样做是希望可以在24到48小时内化验结果出来前缓解患者的病情。问题来了:患者尽管打了流感疫苗针,她还是染上了流感,抗生素帮不了她的忙。
“按需护理”现在日益普及,上述的情况并不罕见。事实上,最近的一项研究发现,近一半的抗生素门诊处方是没有必要的。大家都知道过量使用抗生素会有助于超级细菌的产生,如果读者想了解细菌如何迅速产生突变及产生对抗生素的抵抗性,可以看看这个短视频(https://www.youtube.com/watch?v=yybsSqcB7mE),视频做了强有力的演示。美国每年因为超级细菌要支付数十亿美元的高额医疗费用,据估计,如果我们不控制误诊和抗生素过量处方的问题,我们可能要面临一个200亿美元的超级细菌问题(https://www.dotmed.com/news/story/44934)。
再回头看看患者甲。她的医生在获取了有关她最近旅行、工作地点以及她所在地区目前使用的药物的信息后,就可以推行一个理想的数据驱动治疗计划。例如,了解患者经常出入某个爆发某种疾病的地区有助于她的医生更快地开出正确的抗生素。这样的数据还可以减少误诊的次数,因为数据可以帮助确定不常见疾病是罪魁祸首,不常见疾病的诊断是常见误诊出现的另一个领域。
像这种情况的也可利用实时数据,实时数据可能显示患者的居住地正在爆发某种对她接种的流感疫苗有抵抗力的流感病毒,如此可以帮助医生知道开抗生素在这种情况下是无效的。
靠大数据办大事
我们正在踏入数据驱动护理的新阶段,流感季节是一个具有特别丰富数据的时间段,我们可以从中解析出强大的洞察。然而,改善流感季节里的诊断和治疗的策略远远超出某单一疾病。医生在诊断疾病流程中加入大数据元素有助于更准确的诊断,从而加快治疗速度、改善资源分配及减少误诊。
当然,最终目标是通过更明智的健康决策改善患者结果和整体人口的健康及减少浪费和由于误诊想当然的物治疗导致的意外后果。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。