公告:如需购买GPT帐号或代充值GPT4(plus)会员,请添加站长微信:gptchongzhi
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
ChatGPT是什么?
ChatGPT是一个交互式人工智能模型,在医学中被广泛应用。ChatGPT是由Open AI在2022年11月30日发布的一种基于GPT-3.5架构的大型自然语言处理模型,其参数量高达1.75万亿,被广泛应用于对话生成、文本摘要、机器翻译、问答系统等自然语言处理任务中。
在医学领域,ChatGPT可以用于辅助医生进行疾病诊断、医疗保健管理等方面。例如,可以利用ChatGPT 生成自然语言文本,从而帮助医生快速生成医学报告和病历记录。此外,ChatGPT还可以用于自然语言问答系统,帮助医生和患者解答医疗相关问题。
1.1
ChatGPT具备合格的医学水平
GPT-4医学能力卓越,USMLE准确率78.63%优于 GPT-3.5。根据微软和Open AI于2023年3月20日共同发布的《Capabilities of GPT-4 on Medical Challenge Problems》一文展示,GPT-4在医学领域表现出卓越的能力。该项测试中,GPT-4针对 MedQA题库中的美国医师执业资格考试(United States Medical Licensing Examination,USMLE)试题,准确率高达78.63%,明显优于 GPT-3.5的47.05%准确率。这意味着GPT-4在医学性能上有显著提升,并且GPT-4优于平均水平(60%)。这进一步证明了ChatGPT在医学领域的卓越表现。
针对中国地区的医学问题,目前人工智能交互软件的表现尚未达到最佳水平,还存在提升空间。微软和Open AI针对MedQA数据集中的3426道中国大陆试题、1413道中国台湾试题和1273道美国试题进行了测试。测试结果显示,针对中国大陆试题,GPT-4的准确率为75.31%,GPT-3.5的准确率为40.31%。根据2022年执业医师考试的分数线360分,60%的正确率即可通过该考试。因此,GPT-4已经具备合格的医学水平,但GPT-3.5仍需改进。需要注意的是,GPT-4和GPT-3.5在中国大陆的表现仍未达到最佳水平,相较于美国和中国台湾的测试,准确率仍有5%-10%的提升空间。因此,未来这类人工智能技术的交互软件还需针对中国地区的医疗进一步开发,以更好地服务于中国的医学领域。
图表1 ChatGPT回答不同国家和地区执业医师考试
试题情况
* Zero-shot测试是在没有任何相关样本的情况下评估模型处理新任务的能力;5-shot测试是通过提供5个相关样本来评估模型在有限样本下处理新任务的性能。
** MedQA题库包含英文,简体中文和繁体中文的多项选择题,分别来自美国,中国大陆和中国台湾的临床执业医师考试。
*** 4个选项的USMLE试题是在5个选项的试题中去除一个错误选项。
资料来源:Microsoft,Open AI,华安证券研究所
1.2
ChatGPT可以解决综合学科医学问题,但在针对单学科问题时的表现更出色
ChatGPT聚焦单学科专业问题表现更佳。针对USMLE这一综合性医学考试,GPT-3.5和GPT-4的正确率分别为47.05%和78.63%。然而,当ChatGPT的测试聚焦到某个具体医学学科,例如医学遗传学或解剖学时,GPT-4的正确率平均比GPT-3.5提高了5%-10%。这表明GPT-4的医学基础更加扎实,针对综合性医学问题的处理能力更强。相较于医生,ChatGPT在医学领域的知识掌握没有科室壁垒。
例如,当患者提及他们最近使用的药物或保健品时,医生可能无法立即了解该药物的具体情况。但是,ChatGPT不会受到这种限制。这也是ChatGPT与医生相比的主要优势之一。
图表2 ChatGPT回答不同领域的医学领域试题情况
* Zero-shot测试是在没有任何相关样本的情况下评估模型处理新任务的能力;5-shot测试是通过提供5个相关样本来评估模型在有限样本下处理新任务的性能。
资料来源:Microsoft,Open AI,华安证券研究所
结果表明,GPT-3.5对心血管疾病相关问题回答的正确率出乎意料达到了84%(21/25),但是文中也针对部分可能会对患者有害的回答表示了担忧,例如人工智能模型在回答有关运动的问题时,坚定地推荐了锻炼心血管的运动,包括举重。
图表3 GPT-3.5针对心血管疾病的25个问题的回答
资料来源:JAMA,华安证券研究所
1.3
AI影像/检验数据分析或推动ChatGPT
医学性能再提升
ChatGPT咨询医疗问题时,由于缺乏医学影像资料可能会影响ChatGPT回复的准确性。微软和Open AI的测试表明,在仅有文字的试题中,GPT-4的准确度高达89.51%,相较于图文试题(未提供图片)提高了近20%的准确度。因此,可以预见未来随着人工智能技术的不断发展,将有可能融入AI识别并分析影像、检验信息等技术,从而推动AI医疗咨询领域的发展。
图表4 ChatGPT针对文字试题和图文试题的回答情况
Zero-shot测试是在没有任何相关样本的情况下评估模型处理新任务的能力;5-shot测试是通过提供5个相关样本来评估模型在有限样本下处理新任务的性能。
**USMLE自我评估的2173道题中有314道题是图文题(占数据集的14.4%),USMLE样卷的376道题中有49道题是图文题(占数据集的13.0%)
资料来源:Microsoft,Open AI,华安证券研究所
1.4
小结: ChatGPT 初步具有医疗专业性,优化空间
ChatGPT在医疗行业中的应用具有明显的优势。首先,ChatGPT具备合格的医学素养,能够对患者的医疗咨询问题提供准确的回复。其次,ChatGPT能够处理多科室的复杂病例,克服了不同科室之间的专业壁垒。此外,ChatGPT在使用上没有时间和空间的限制,回复速度快,内容丰富,患者满意度较高。
诚然,我们也应该注意到相关的劣势,仍存在可提升的空间。目前ChatGPT在针对中国地区的医疗问题时,回复准确性还未达到最佳性能,存在继续开发空间。此外,ChatGPT存在提供误导性错误答案的可能性。最后,由于ChatGPT无法获取医学影像信息,其提出的建议可能存在局限性。
图表5 ChatGPT在互联网医疗中应用的优劣势
资料来源:华安证券研究所整理
目前已进入市场的三种不同的主流AI交互软件是 ChatGPT(Open AI),NewBing(Microsoft),文心一言(百度)。其中ChatGPT包含GPT-3.5和GPT-4两种模式,New Bing则拥有精准,平衡和创造三种模式。
图表6 主流AI交互软件
资料来源:Open AI官网,New bing官网,
文心一言官网,华安证券研究所
作为测试,我们选取的试领域为常见的高血压,主要因为其广泛性并且官方治疗方案清晰。
高血压作为心脑血管疾病的主要危险因素日常的诊断需要被重视。根据2012至2015年的中国高血压调查(CHS)研究数据显示,中国18岁以上的居民高血压患病率较高,粗率为27.9%(加权率为23.2%),其中75岁及以上人群患病率最高,为59.8%,而18至 34岁的青年人群患病率为5.1%。据估算,中国18岁以上成年人高血压患病人数约为2.45亿人。
如果重视日常对高血压的监测和控制,可以有效降低心脑血管疾病的致死率。2017年,中国有254万人死于高收缩压,其中95.7%死于心血管病。如果对I期和
Ⅱ期高血压患者进行治疗,每年将减少80.3万例心血管事件(脑卒中减少69.0万例,心肌梗死减少11.3 万例)
根据中国高血压临床实践指南建议:
诊断:当收缩压(收缩期血压)大于等于140 mmHg(1mmHg=0.133kPa)和/或舒张压(舒张期血压)大于等于90mmHg 时,可做出高血压的诊断。
监测:建议每天早、晚各测量1次血压。
非药物干预:建议对于高血压患者,应该进行生活方式干预,包括饮食干预、运动干预、减压干预、减重干预、戒烟限酒等措施。
治疗:高危人群建议使用降压药物治疗。
图表7 高血压患者的非药物干预措施
资料来源:中国高血压临床实践指南,
华安证券研究所
图表8 高血压患者的治疗方案
资料来源:中国高血压临床实践指南,
华安证券研究所
我们选取一个网上的病例作为样本,分别将病例输入到各模型,并结合指南和医生意见做对比分析。测试时间为2023年4月13日。
患者是血压处于高血压诊断的典型性案例:患者36 岁,血压为142/92,刚刚超过140/90的诊断标准,尿酸500+,希望询问是否需要服用氯沙坦钾片来治疗。
图表9 病例情况
疾病描述:
今天去医院检查发现有高血压,达到了142/92左右,(2023-01-19填写)
身高体重:
180cm,75kg(2022-06-30测量)
疾病:
心律失常(2022-08-30填写)
高血压(2023-01-19填写)
过敏史:
无(2022-06-30填写)
希望获得的帮助:
医生给我配了氯沙坦钾片,我尿酸500多,我才36岁,中青年高血压这药可以吃吗?需要吃药吗
资料来源:好大夫在线,华安证券研究所
首先是医生建议:患者反复监测血压,如果血压有波动可以先通过调整饮食习惯来改善血压,如无好转,再前往医院进一步检查。
图表10 医生处置建议
1.建议密切关注血压情况,如多日测量血压都高于140/90mmHg,可以诊断高血压。
2.如果只是单独测了一次发现血压稍偏高,可以先通过日常生活方式调整来观察血压变化。首先就是饮食低盐低脂,高尿酸患者也要避免高嘌呤饮食。适当锻炼,肥胖的患者需要减肥。戒烟酒。保持良好的生活作息,不要熬夜,劳逸结合。
3.如果发现血压忽高忽低,波动较大,建议门诊进一步检查。
资料来源:好大夫在线,华安证券研究所
ChatGPT 4.0
GPT-4首先为患者分析了医生提供的药物,随后GPT-4给出了长期监测血压和尿酸水平,并建议患者在医生的诊断外,再通过生活方式干预来调节,这与医生所给出的建议类似;此外,GPT-4提供了具体的生活方式干预方法,内容与指导中的建议基本一致。
图表11 GPT-4处置建议
资料来源:ChatGPT,华安证券研究所
ChatGPT 3.5
GPT-3.5为患者分析了医生所开具的药物,并给出了患者针对中青年高血压的常见治疗方案,最后提醒患者注意对血压和尿酸的监控,整体回复内容较完善,但是与GPT-4相比缺乏对患者情况的具体建议。
图表12 GPT-3.5处置建议
资料来源:ChatGPT,华安证券研究所
New Bing
精准模式和平衡模式针对医学问题的建议较为谨慎,仅提供了基本的药物信息和中青年高血压信息。
图表13 New Bing精准模式处置建议
资料来源:New Bing,华安证券研究所
图表14 New Bing平衡模式处置建议
资料来源:New Bing,华安证券研究所
New Bing
更多创造模式中建议患者使用药物治疗,同时也给出了血压监控和生活方式干预的信息,此外New Bing提供了信息的来源网站,可供咨询者进一步了解。
图表15 New Bing更多创造模式处置建议
资料来源:New Bing,华安证券研究所
文心一言
为患者提供诊断标准和建议,同时建议患者采取药物治疗,并为患者提供了更多的药物信息。
资料来源:文心一言,华安证券研究所
综合测试结果,各模型都有优劣,其中ChatGPT4.0 表现亮眼。
ChatGPT4.0:
GPT-4建议跟随原医生诊断用药,同时向患者建议要长期监测血压和尿酸,并通过改变生活模式的方式来降低血压。
此外GPT-4提供的建议更具可读性,建议内容与医生基本一致,且建议内容更多,对患者的安抚性会更强,基本达到医生水平。
GPT-3.5和文心一言:
均建议患者通过药物控制高血压,在此之外GPT-3.5也在生活习惯方面给到来患者建议。
相较于其它的AI交互软件,New Bing并没有直接给出诊断建议,而是通过搜索根据互联网已有信息对患者的情况进行分析,并且提供了相关信息来源。
图表17 三款AI交互软件(六种模式)针对高血压案例回复总结
资料来源:好大夫在线,New Bing, ChatGPT,
文心一言,华安证券研究所整理
从以上两章可以得出结论,ChatGPT类聊天AI在医疗端是兼具专业性与实用性的。
专业性上,ChatGPT4.0的论文测试显示其在各地区考试中都能获得良好的成绩,并且综合性和专科性医学问题都有良好表现。可以说是初步具备合格的医疗水平,并且随着影像/检验数据分析的迭代升级,提升空间巨大。
实用性上,从我们测试的高血压患者病例中可以看到,主流的几款聊天AI,无论是ChatGPT、Newbing还是文心一言,都能够对患者做出相应的指导,并提示最终需要临床医生指导。但对于一般患者而言,医疗的可及性大大增加,因为其操作的方便性,使用体验也大幅升级。
诚然,目前ChatGPT类聊天AI在医疗应用端仍在探索阶段,并不能替代医生的诊断,但前景值得期待的。
✦
我们认为,随着人工智能技术的不断发展,AI技术在帮助提高医疗服务的可及性和质量上是明显的,为患者提供更加便捷、高效、精准的医疗服务。可以预见的,互联网医疗和基层(包括药店服务)医疗服务质量在AI辅助下将得到显著提升。
✦
✦
资料来源:华安证券研究所整理
图表19 ChatGPT在互联网医疗中的应用场景
资料来源:华安证券研究所整理
从公司角度,我们认为相关互联网医疗公司在AI加持下医疗效率将会提升、获客成本将会降低,达到降本增效的目的。目前各互联网巨头都开始牵头布局,推动智慧医疗高质量发展。
图表20 2022年中国互联网医疗TOP6公司情况
资料来源:ifind、公司公告、MedTrend、
华安证券研究所
资料来源:2021中国卫生统计年鉴,
华安证券研究所整理
图表22 2017年世界医护资源情况对比
资料来源:World Bank,华安证券研究所整理
点击文末左下“阅读原文”
可获取文中Excel文档
哔哩哔哩
聚龙智库
抖音号
聚龙ZK