手把手教您使用灵医大模型|文献信息抽取

来源:灵医智惠 | 发布时间:2023-12-08

摘要:文献是研究和论文工作的第一道关。在论文和科研场景中,不断看文献有助于我们获取知识、了解研究现状、寻找灵感、学习研究方法、培养批判性思维和提高写作能力等多方面的帮助,同时也是确保我们研究的科学性和可靠性的重要步骤。大模型在赋能医院、药企、高校等单位文献抽取,如何起到“智能超级助手”的作用?

文献检索/文献信息抽取是科研和论文的基础。众所周知,“文献检索”是学校在硕博课程中的有必修课,很多同学会觉得课程非常枯燥,什么逻辑词、截词、上下位词等等。对于医疗产业中的药企、医院、高校老师&学生、机构以及医药知识服务商等,寻找高质量的临床研究证据、提供好的知识服务以及生产高质量的内容等,文献检索都是一项艰巨又必要的任务

权威的、经过独立审查的出版物是科研和论文最有效、最直接、最新的信息来源。然而,科学文献存在多语言性、内容专业、有效阅读存在难度等技术壁垒。先不论文献的多语言性对知识获取的难度提升,即使是母语系的临床文献,也比其他种类的文字产物更加晦涩难懂,而且信息量更大。但科学文献的优势也很明显,主要有结构相对固定、基本要素全面完整。利用文献特性,如果读者可以快速定位并且直接提取自己所感兴趣的信息,那么这样读取信息的效率是很高的。为了将问题分解得更加清晰明确, 也为了更精准地找到合适可用的证据,研究者们总结出了很多种的思维模型, 而其中最具代表性和实用性的就是 PICO(s)。

什么是PICOs?

PICOs主要针对的是关于人类的临床研究实验。PICOs是Patient/ Population/ Problem, Intervention, Comparison, Outcome,Study Design的缩写,是一种在临床研究中常用的思维模型,旨在帮助研究者明确研究的问题、对象、干预措施、对照方法和结果指标。另外,在一些涉及人类受试者的基础科研中,如探讨人类生理反应或疾病机制的研究,PICOs也可以被用来描述研究的问题和受试者的人口学特征等信息。

一句话描述:在某类人群或疾病(P)中,评价某种干预措施(I)与某种比较措施(C)治疗的效果(O),研究类型(S)。通过 PICO(s)的问题刻画和要素分解, 往往复杂且晦涩的临床研究问题都可以迎刃而解。

示例:治疗阿尔茨海默病的药物研发是比较热门的研究领域,以下图论文『联合使用胞磷胆碱(Citicoline )和美金刚胺(memantine)在阿尔茨海默病(AD)和混合性痴呆(MD)老年患者中的疗效』为例,如果希望通过AIGC助手帮助我们快速获取该论文中全部的关键信息,该如何体系性的向大模型提问呢?

论文公开摘要 link:https://www.ingentaconnect.com/content/ben/rrct/2021/00000016/00000002/art00004
经分析,该论文的研究对象(P) 具备两个特征:其一是患有AD或MD的患者, 其二是年龄大于65岁的老人的患者;干预手段(I)为联合使用胞磷胆碱(Citicoline )和美金刚胺(memantine);对照对比(C)为单一药物使用;研究终点(O)采用生存率指标和疾病缓解指标来定义阿尔兹海默症治疗领域的药物疗效。

以上关键信息,在大模型的帮助下,通过五个简单的问题即可在2~3分内准确获取。接下来让我们跟着教练实操一番。

*本文以PICOs模型为例,深度分享大模型如何做信息抽取,相关企业单位在实施过程中可自定义所需的关键抽取字段。

01 大模型加持下的PICOs,让文献价值最大化

方向1: 快速、准确、完善的定位是否是目标文献

查文献动不动就查出良莠不齐的几千篇文献,看也看不完。我们常常只是浏览摘要,以决定是否要花几分钟甚至几个小时阅读一篇论文。有时,几分钟后我们会发现自己在一篇论文上白白耗费了时间(一般读懂 1 篇 3000 字文章至少需要20~30 mins);而有时,亦会意识到自己错过了一些重要的论文。
一般来讲,有目的性的数据读取只需要3~5 mins就可以完成。如果我们借助大模型助手实现PICOs模型的快速问答,在日常学习与科研活动中的整体效率将近一步提升,1~3 mins足够人工智能去筛选并提取关键文献中的重要结构信息和结果数据。我们只需要快速浏览大模型生成的论文结构化信息是否符合研究预期的,即可快速判断是否是要展开整片论文的详细阅读,必将大大提高我们判断相关文献是否符合研究方向的效率。

方向2: 深度论文骨架信息抽取,加快选题、检索、数据获取与整合的速度

相对的,在做科研和写文献的过程中,PICO(s)可以作为大纲来指导作者的构思和选题,帮助其高效获取并有效整理素材。例如,通过传统的人工方式,好的回归性数据分析需要4~6个月的时间周期去完成,其中选题需要约1个月,数据获取需要约2个月,数据分析和论文撰写还需要约2个月。利用PICO(s)的思维去优化这个过程可以提高效率,减少因选题不准和数据不足引发的返工率,在此基础上,结合人工智能的PICO(s)体系将可以进一步加快选题、检索、数据获取与整合的速度。大模型可以帮助快速总结任何已发表的论文,这一功能在研究领域具有巨大的潜力。它能够极大地提高研究效率,并为研究者提供更准确、更全面的文献综述。

  • 医疗大模型专业的翻译能力。英文论文虐我千百遍?大模型助力你摆脱苦海,针对专业的英文论文,灵医大模型提供专业的生物医药领域翻译功能,助你快速获取海内外科研人员的最新科研讯息
  • 大模型具备强大的自然语言处理能力,可以理解和分析大量的文本数据。通过大量论文作为语料进行预训练,大模型可以识别出重要的概念、主题和关系,并能够自动提取关键信息。这使得研究者能够快速浏览并理解论文的核心内容,而无需花费大量时间手动阅读和分析。
  • 大模型可以帮助研究者发现新的研究领域和趋势。通过分析大量的论文,大模型能够识别出重要的主题和趋势,并预测未来的研究方向。这为研究者提供了宝贵的启示,帮助他们制定新的研究计划和目标。
  • 大模型还可以帮助研究者评估论文的质量和可靠性。通过分析论文的语言和结构,大模型能够评估论文的学术价值和影响力。这有助于研究者筛选出高质量的论文,为他们的研究提供更有力的支持。

方向3: 原文关键信息回溯,符合科研工作者严谨的日常工作流程

在科研工作中,回溯原文中的关键信息是至关重要的。这可以帮助科研工作者确保他们的工作建立在准确和可靠的信息基础之上。为此,灵医大模型在每个问题的回答中都提供了论文原文关键证据片段原文的回溯信息。一般来说,科研工作者会通过以下步骤来回溯原文关键信息:

  • 确定研究主题和目标:在开始研究之前,科研工作者需要明确研究主题和目标,以便能够有针对性地回溯相关的原文关键信息。
  • 收集相关文献:在确定研究主题和目标后,科研工作者需要收集与该主题相关的文献。这些文献可能来自于学术期刊、会议论文、书籍、报告等各种来源。
  • 阅读和分析文献:在收集到相关文献后,科研工作者需要认真阅读和分析这些文献,以了解研究领域的前沿和进展情况。在这个过程中,他们需要关注文章中的实验设计、数据分析和结论等关键信息。
  • 筛选和整理信息:在阅读和分析文献后,科研工作者需要对获取的关键信息进行筛选和整理。他们需要区分哪些信息是可靠的、哪些信息是有争议的,并按照一定的逻辑关系将它们整理成文档或笔记。
  • 引用和注释:在论文写作过程中,科研工作者需要准确地引用和注释所使用的文献。这有助于确保他们的研究成果建立在可靠的文献基础之上,同时也有助于提高论文的可信度和质量。

包含文章来源、段落信息与原文片段的证据回溯

以往,晦涩难懂的论文包含很多专业术语和缩写,甚至“文献摘要”一读就是一上午,想要寻找文献中的关键信息却“众里寻她千百度,蓦然回首还在文献摘要处”百度灵医大模型可以在以上各个阶段赋能医疗论文阅读、撰写人群的专业需求,帮助我们把时间花在刀刃上,杜绝无效内耗。大模型加持下的PICOs等研究方法和统计分析,让定制化需求的文献信息字段“又专业又快”的呈现在你面前,读文献的效率从“一杯茶、一包烟、一篇论文看一天”到多篇并行,甚至多篇对比,到找到新参考/新思路/新发现

简易版大模型PICOs抽取“咒语”:

  • 这项研究的研究对象是谁/what’s participant in this study?
  • 这项实验讲述的了一个什么科学问题?/what’s background in this study?
  • 这项试验是干预措施是什么?/what’s intervention in this study?
  • 本篇试验的研究结果是什么?/what  research methods were employed in this study?
  • 本篇试验的研究结论是什么?/what’s the conclusion of this study?

读者可参考以上Prompt,即可在“灵医Bot”上体验灵医大模型基于海量医疗数据预训练后的PICOs抽取服务。当然,针对具有进阶版要求的企业/高效,欢迎与小编联系获取进阶版使用方法。

让我们上手实操一下:

灵医Bot”账号的小伙伴可自行登陆 https://01bot.baidu.com/01bot-web/home 尝试

大模型对于论文骨干信息的准确提取,降低了科学期刊的理解成本,提升了理解效率,并可定制化的为企业输出一个既符合科学方法又具备企业特需的回答风格,它不仅支持多语言呈现摘要,在规范性和适应性上也经过了严格的测评以确保符合实施交付标准。

02 在PICOs在新药上市过程中,临床试验和真实世界研究都起到了重要的作用

灵医大模型现已为提供新药上市的药品推广服务一款新药的上市需要从数百篇国内外的文献中抽取规范的摘要以形成有影响力的背景信息。比如,研究背景(科学问题)、研究设计、干预措施、研究对象、研究方法、研究结局、研究结论、资助来源等字段(实际实施可根据客户需求精调)

  • 新药上市前:帮助药企客户的研发和医学生成新药相关的新药疗效、不良反应、竟品等相关论文的PICOs提取;
  • 新药上市后:临床研究中心对于新药的单用和联合治疗产生的效果、不良反应等论文;

在临床试验中,PICOs可以帮助研究者明确研究目标、设计研究方案和选择评估指标。通过明确问题、干预、比较和结果,研究者可以更好地规划和执行研究,提高研究的科学性和可靠性。同时,PICOs也有助于研究者进行文献检索和证据评价,从而更好地了解当前研究进展和相关证据。通过PICOs找相似的实验经验以做借鉴,指导实验设计。

在真实世界研究中,PICOs的作用主要体现在以下几个方面:

  1. 优化研究设计:利用PICOs可以对真实世界研究的设计进行优化,包括研究对象的选择、干预措施的制定、比较方法和结果的评估等。通过明确研究问题和目标,可以更好地选择合适的研究方法和设计,提高研究的效率和效果。
  2. 提高研究质量:PICOs的应用可以帮助研究者提高真实世界研究的质量。通过明确研究对象、干预措施和比较方法,可以减少研究的误差和偏倚,提高研究的内部和外部真实性。
  3. 辅助数据分析:在真实世界研究中,数据分析是非常重要的环节。PICOs可以辅助研究者进行数据分析,包括数据的整理、统计和可视化等。通过自动化和智能化的数据处理,可以提高研究的效率和准确性。
  4. 协助决策制定:PICOs还可以为决策制定提供支持。例如,在评估新药或治疗方案的效果时,研究者可以利用PICOs收集和分析相关数据,为决策者提供可靠的信息和依据。

举个例子,某世界制药50强药企,通过灵医大模型辅助PICOs抽取,灵医大模型可辅助药企基于新药领域关键论文进行高效专业的PICOS信息获取,从而赋能研发人员繁复的文献阅读与梳理与学术专员的日常工作推进。很多优秀的文献除了综述之外还提供了很多好的研究方法和相关参考,以及临床试验或者真实世界研究的纳排条件等。在大模型的交付和实施过程中可根据客户需求给予PICOs的定向调参,确保生成结果的定制和适配。

类比以上场景,比如市场同学在做新药上市前的营销文案循证溯源实际上需要数十篇医学相关文献。以往都是研发/医学协助完成对应的文献/论文的PICOs抽取,以便市场快速找到对应的要点提炼的参考文献,了解研究的主要方法和结论,临床试验结果药效的证明等。然而,检索需要花费时间,同时对于不同化合物/病症等专业的英文词汇局限,另外有时候市场在选择好的宣传要点的时候很难抓住重要关注点,以上直接影响着新药药后期推广的品牌和效果。通过参数预制的字段,可有效的帮助相应工作提效60%

背景信息抽取效果示例

研究设计与研究结果抽取效果示例

03 数据库+大模型知识库阅读理解工具,多种产品组合/部署方案适应健康产业不同需求

工具和内容的组合,让药企的超级助手更超能。GBI知识服务,抽取结构化内容,数据库知识服务标签服务提供更优质的咨询服务。

  • GBI 「HCP 360」

追踪国内KOL专家观念及转变。医学专业人士(HCP)作为“患”与“药”之间递送者,重要性不言而喻。相比HCP的画像、信息追踪,HCP的“观念与偏好”让各大医药企业爱恨交织。

在与GBI Metrix全国药械HCPs数据库全栈打通后,灵医大模型基于HCP 360画像算法、公开信息、会议活动等多样信息,对HCP态度标签进行识别提取。再利用大模型的理解能力对内容进行分析判定,从而形成完备的「HCP观念标签体系」,为企业还原真实KOL画像。对企业而言,除了更精准地触达HCP外,还能够让市场/医学等团队迅速累积不同类别HCP的运营管理经验,为今后无论是下沉区域市场或打开新产品市场做好准备。

  • GBI 「SOURCE全球药品数据库」

覆盖全生命周期的药品状态(临床前、临床阶段、上市申报获批、市场准入及后续商业化),了解目标产品在不同阶段的竞争格局;

部署方式选择:

  • 公有云- B端:药企、临床试验中心、非营利机构等;
  • 私有化部署- G端:医院、高校、政府卫生部门等;

更多适配的场景:

-药企

  • 加速新药研发: AI-enhanced PICOs抽取可以帮助药企快速识别特定干预措施的研究空白和潜在市场,加速新药或新疗法的研发流程。
  • 市场策略优化: AI能够识别特定药物在不同人群中的效果,从而帮助制定更有效的市场定位和营销策略。

-高校

  • 强化研究能力: 在学术研究中,AI可以帮助研究者快速检索大量文献,提高研究的广度和深度。
  • 教育和培训: AI可以用于教学,帮助学生学习如何有效地使用PICOs方法进行临床研究,提高他们的临床和研究技能。

-医院

  • 提高临床决策效率: AI加速的PICOs抽取可以快速提供针对具体临床情境的最新研究和数据,帮助医生做出更快且更准确的治疗决策。
  • 个性化患者护理: AI模型可以根据患者特定的特征和条件快速筛选相关的临床研究,支持个性化治疗方案的制定。

-其他机构(如政府卫生部门、非政府组织)

  • 政策制定和公共卫生规划: AI加持的PICOs抽取可以为政府和非政府组织提供关键数据,以支持基于证据的公共卫生政策和规划。
  • 流行病学研究: 在疾病控制和预防研究中,AI可以快速识别和汇总大量流行病学数据,帮助机构迅速响应公共卫生危机。

总的来说,大语言模型在PICOs抽取中的应用能够提高医疗和研究领域工作的效率和质量,加快知识的转化,最终促进医疗保健领域的整体发展。