摘要:文献是研究和论文工作的第一道关。在论文和科研场景中,不断看文献有助于我们获取知识、了解研究现状、寻找灵感、学习研究方法、培养批判性思维和提高写作能力等多方面的帮助,同时也是确保我们研究的科学性和可靠性的重要步骤。大模型在赋能医院、药企、高校等单位文献抽取,如何起到“智能超级助手”的作用?
文献检索/文献信息抽取是科研和论文的基础。众所周知,“文献检索”是学校在硕博课程中的有必修课,很多同学会觉得课程非常枯燥,什么逻辑词、截词、上下位词等等。对于医疗产业中的药企、医院、高校老师&学生、机构以及医药知识服务商等,寻找高质量的临床研究证据、提供好的知识服务以及生产高质量的内容等,文献检索都是一项艰巨又必要的任务
权威的、经过独立审查的出版物是科研和论文最有效、最直接、最新的信息来源。然而,科学文献存在多语言性、内容专业、有效阅读存在难度等技术壁垒。先不论文献的多语言性对知识获取的难度提升,即使是母语系的临床文献,也比其他种类的文字产物更加晦涩难懂,而且信息量更大。但科学文献的优势也很明显,主要有结构相对固定、基本要素全面完整。利用文献特性,如果读者可以快速定位并且直接提取自己所感兴趣的信息,那么这样读取信息的效率是很高的。为了将问题分解得更加清晰明确, 也为了更精准地找到合适可用的证据,研究者们总结出了很多种的思维模型, 而其中最具代表性和实用性的就是 PICO(s)。
什么是PICOs?
PICOs主要针对的是关于人类的临床研究实验。PICOs是Patient/ Population/ Problem, Intervention, Comparison, Outcome,Study Design的缩写,是一种在临床研究中常用的思维模型,旨在帮助研究者明确研究的问题、对象、干预措施、对照方法和结果指标。另外,在一些涉及人类受试者的基础科研中,如探讨人类生理反应或疾病机制的研究,PICOs也可以被用来描述研究的问题和受试者的人口学特征等信息。
一句话描述:在某类人群或疾病(P)中,评价某种干预措施(I)与某种比较措施(C)治疗的效果(O),研究类型(S)。通过 PICO(s)的问题刻画和要素分解, 往往复杂且晦涩的临床研究问题都可以迎刃而解。
示例:治疗阿尔茨海默病的药物研发是比较热门的研究领域,以下图论文『联合使用胞磷胆碱(Citicoline )和美金刚胺(memantine)在阿尔茨海默病(AD)和混合性痴呆(MD)老年患者中的疗效』为例,如果希望通过AIGC助手帮助我们快速获取该论文中全部的关键信息,该如何体系性的向大模型提问呢?
论文公开摘要 link:https://www.ingentaconnect.com/content/ben/rrct/2021/00000016/00000002/art00004
经分析,该论文的研究对象(P) 具备两个特征:其一是患有AD或MD的患者, 其二是年龄大于65岁的老人的患者;干预手段(I)为联合使用胞磷胆碱(Citicoline )和美金刚胺(memantine);对照对比(C)为单一药物使用;研究终点(O)采用生存率指标和疾病缓解指标来定义阿尔兹海默症治疗领域的药物疗效。
以上关键信息,在大模型的帮助下,通过五个简单的问题即可在2~3分内准确获取。接下来让我们跟着教练实操一番。
*本文以PICOs模型为例,深度分享大模型如何做信息抽取,相关企业单位在实施过程中可自定义所需的关键抽取字段。
01 大模型加持下的PICOs,让文献价值最大化
方向1: 快速、准确、完善的定位是否是目标文献
查文献动不动就查出良莠不齐的几千篇文献,看也看不完。我们常常只是浏览摘要,以决定是否要花几分钟甚至几个小时阅读一篇论文。有时,几分钟后我们会发现自己在一篇论文上白白耗费了时间(一般读懂 1 篇 3000 字文章至少需要20~30 mins);而有时,亦会意识到自己错过了一些重要的论文。
一般来讲,有目的性的数据读取只需要3~5 mins就可以完成。如果我们借助大模型助手实现PICOs模型的快速问答,在日常学习与科研活动中的整体效率将近一步提升,1~3 mins足够人工智能去筛选并提取关键文献中的重要结构信息和结果数据。我们只需要快速浏览大模型生成的论文结构化信息是否符合研究预期的,即可快速判断是否是要展开整片论文的详细阅读,必将大大提高我们判断相关文献是否符合研究方向的效率。
方向2: 深度论文骨架信息抽取,加快选题、检索、数据获取与整合的速度
相对的,在做科研和写文献的过程中,PICO(s)可以作为大纲来指导作者的构思和选题,帮助其高效获取并有效整理素材。例如,通过传统的人工方式,好的回归性数据分析需要4~6个月的时间周期去完成,其中选题需要约1个月,数据获取需要约2个月,数据分析和论文撰写还需要约2个月。利用PICO(s)的思维去优化这个过程可以提高效率,减少因选题不准和数据不足引发的返工率,在此基础上,结合人工智能的PICO(s)体系将可以进一步加快选题、检索、数据获取与整合的速度。大模型可以帮助快速总结任何已发表的论文,这一功能在研究领域具有巨大的潜力。它能够极大地提高研究效率,并为研究者提供更准确、更全面的文献综述。
方向3: 原文关键信息回溯,符合科研工作者严谨的日常工作流程
在科研工作中,回溯原文中的关键信息是至关重要的。这可以帮助科研工作者确保他们的工作建立在准确和可靠的信息基础之上。为此,灵医大模型在每个问题的回答中都提供了论文原文关键证据片段原文的回溯信息。一般来说,科研工作者会通过以下步骤来回溯原文关键信息:
包含文章来源、段落信息与原文片段的证据回溯
以往,晦涩难懂的论文包含很多专业术语和缩写,甚至“文献摘要”一读就是一上午,想要寻找文献中的关键信息却“众里寻她千百度,蓦然回首还在文献摘要处”。百度灵医大模型可以在以上各个阶段赋能医疗论文阅读、撰写人群的专业需求,帮助我们把时间花在刀刃上,杜绝无效内耗。大模型加持下的PICOs等研究方法和统计分析,让定制化需求的文献信息字段“又专业又快”的呈现在你面前,读文献的效率从“一杯茶、一包烟、一篇论文看一天”到多篇并行,甚至多篇对比,到找到新参考/新思路/新发现。
简易版大模型PICOs抽取“咒语”:
读者可参考以上Prompt,即可在“灵医Bot”上体验灵医大模型基于海量医疗数据预训练后的PICOs抽取服务。当然,针对具有进阶版要求的企业/高效,欢迎与小编联系获取进阶版使用方法。
让我们上手实操一下:
有灵医Bot”账号的小伙伴可自行登陆 https://01bot.baidu.com/01bot-web/home 尝试
大模型对于论文骨干信息的准确提取,降低了科学期刊的理解成本,提升了理解效率,并可定制化的为企业输出一个既符合科学方法又具备企业特需的回答风格,它不仅支持多语言呈现摘要,在规范性和适应性上也经过了严格的测评以确保符合实施交付标准。
02 在PICOs在新药上市过程中,临床试验和真实世界研究都起到了重要的作用
灵医大模型现已为提供新药上市的药品推广服务。一款新药的上市需要从数百篇国内外的文献中抽取规范的摘要以形成有影响力的背景信息。比如,研究背景(科学问题)、研究设计、干预措施、研究对象、研究方法、研究结局、研究结论、资助来源等字段(实际实施可根据客户需求精调)。
在临床试验中,PICOs可以帮助研究者明确研究目标、设计研究方案和选择评估指标。通过明确问题、干预、比较和结果,研究者可以更好地规划和执行研究,提高研究的科学性和可靠性。同时,PICOs也有助于研究者进行文献检索和证据评价,从而更好地了解当前研究进展和相关证据。通过PICOs找相似的实验经验以做借鉴,指导实验设计。
在真实世界研究中,PICOs的作用主要体现在以下几个方面:
举个例子,某世界制药50强药企,通过灵医大模型辅助PICOs抽取,灵医大模型可辅助药企基于新药领域关键论文进行高效专业的PICOS信息获取,从而赋能研发人员繁复的文献阅读与梳理与学术专员的日常工作推进。很多优秀的文献除了综述之外还提供了很多好的研究方法和相关参考,以及临床试验或者真实世界研究的纳排条件等。在大模型的交付和实施过程中可根据客户需求给予PICOs的定向调参,确保生成结果的定制和适配。
类比以上场景,比如市场同学在做新药上市前的营销文案循证溯源实际上需要数十篇医学相关文献。以往都是研发/医学协助完成对应的文献/论文的PICOs抽取,以便市场快速找到对应的要点提炼的参考文献,了解研究的主要方法和结论,临床试验结果药效的证明等。然而,检索需要花费时间,同时对于不同化合物/病症等专业的英文词汇局限,另外有时候市场在选择好的宣传要点的时候很难抓住重要关注点,以上直接影响着新药药后期推广的品牌和效果。通过参数预制的字段,可有效的帮助相应工作提效60%。
背景信息抽取效果示例
研究设计与研究结果抽取效果示例
03 数据库+大模型知识库阅读理解工具,多种产品组合/部署方案适应健康产业不同需求
工具和内容的组合,让药企的超级助手更超能。GBI知识服务,抽取结构化内容,数据库知识服务标签服务提供更优质的咨询服务。
追踪国内KOL专家观念及转变。医学专业人士(HCP)作为“患”与“药”之间递送者,重要性不言而喻。相比HCP的画像、信息追踪,HCP的“观念与偏好”让各大医药企业爱恨交织。
在与GBI Metrix全国药械HCPs数据库全栈打通后,灵医大模型基于HCP 360画像算法、公开信息、会议活动等多样信息,对HCP态度标签进行识别提取。再利用大模型的理解能力对内容进行分析判定,从而形成完备的「HCP观念标签体系」,为企业还原真实KOL画像。对企业而言,除了更精准地触达HCP外,还能够让市场/医学等团队迅速累积不同类别HCP的运营管理经验,为今后无论是下沉区域市场或打开新产品市场做好准备。
覆盖全生命周期的药品状态(临床前、临床阶段、上市申报获批、市场准入及后续商业化),了解目标产品在不同阶段的竞争格局;
部署方式选择:
更多适配的场景:
-药企
-高校
-医院
-其他机构(如政府卫生部门、非政府组织)
总的来说,大语言模型在PICOs抽取中的应用能够提高医疗和研究领域工作的效率和质量,加快知识的转化,最终促进医疗保健领域的整体发展。