让chatgpt生成图片的指令模板 像医生一样的大规模AI模型

AI资讯1年前 (2023)发布 fengdao
26 0

目录 医学中的LLM指令微调

华佗:

大型语言模型(LLM),如LLaMA模型,已经证明了它们在各种通用领域自然语言处理(NLP)任务中的有效性。尽管如此,LLM在生物医学领域的任务中还没有得到最佳的执行,因为需要医学专业知识。为了应对这一挑战,作者提出华驼,一个基于LLaMA的模型,该模型已经用QA实例进行了监督和微调。实验结果表明,华佗具有更可靠的医学知识。

来自: (华驼): LLaMA Model with

以为代表的-大型语言模型(LLM),由于其在理解指令和生成类人语言方面的卓越表现,引起了人们的极大兴趣。与较小的模型相比,LLM在各种自然语言处理(NLP)任务中表现出强大的泛化能力,并在解决或其他复杂任务方面表现出独特的能力。尽管处于非开源状态,但开源社区已经提供了几种替代方案,如LLaMa(LLaMA: Open and ),其训练成本相对较低。

然而,尽管LLM有许多优点,但它们并不是专门为医疗领域而设计的。在涉及这些专业领域时,他们的领域知识往往不足,而准确和特定领域的专家知识至关重要。这会导致次优的诊断准确性,药物推荐,医疗建议,并危及到患者。很少有人努力解决这个问题,现有的方法主要集中在向LLM提供从对话中检索到的医疗信息,而在对话中,人为错误可能会更频繁地发生。此外,LLM通常接受英语训练,这限制了他们在与英语显著不同的语言中(如汉语)的理解能力,导致在汉语环境中的直接应用不理想。

因此,华驼是为生物医学领域量身定制的LLM,专注于中文。通过基于CMeKG的医学知识生成不同的指令数据,作者强调确保模型在响应中事实的正确性,这在生物医学领域至关重要。通过这个过程,收集了8000多个指令数据,用于监督微调。模型建立在开源LLaMa-7B的基础上,集成了来自中国医学知识图谱(CMeKG)的结构化和非结构化医学知识,并使用基于知识的指令数据进行微调。

相关工作

大型语言模型:LLM的最新进展已经证明了它们优于前一代范式,如预训练和微调。模型规模的显著增加导致LLM发生了质的变化。其中包括针对零样本任务的上下文学习,以及增强模型在复杂任务中的性能的思想链。对和GPT-4的开发彻底改变了人类对LLM的认知。尽管这些模型表现出了显著的性能,但尚未披露有关其训练策略或权重参数的细节。LLaMa是GPT的开源替代方案,参数大小从70亿到650亿不等。Taori等人在LLaMa的基础上通过指令调整训练了。

虽然LLaMa的性能与GPT-3.5相当,但由于其训练数据主要局限于英语语料库,因此其在中文任务上的性能较差。为了解决涉及中文的具体应用,Du等人,Zeng等人提出了GLM,这是一个1300亿参数的自回归预训练模型,具有多个训练目标。进一步结合了代码训练,并通过监督微调与人类意图保持一致,为中文上下文提供了量身定制的解决方案。

医学领域的预训练模型:尽管大语言模型(LLM)在一般领域表现出显著的性能,但它们缺乏特定领域的知识,导致在生物医学等需要专业知识的领域表现不佳。生物医学领域的固有性质要求模型拥有相关查询的全面知识库,特别是当应用于患者寻求健康和医疗建议的情况时。为了使LLM适应生物医学领域,目前已经做出了一些努力。

现有的方法主要使用进行辅助,并使用其提炼或翻译的知识来训练较小的模型。首次尝试通过使用通过合成的会话演示来微调LLaMa,从而使LLM适用于生物医学领域。利用-6B作为基础模型,并通过获得的数据集的中文翻译对其进行微调。此外,Chen等人在他们的LLM集合中开发了一个中文和医学增强语言模型。总之,这些工作说明了LLM在生物医学领域成功应用的潜力。

华佗模型

LLaMA是一个多语言基础模型的集合,参数从70亿到650亿不等,对研究界来说是开源的。在这里,作者采用了LLaMA-7B模型来进行更方便的训练。

医学知识种类繁多,通常包括:

作者使用了中文医学知识图谱CMeKG,该图谱还提供了可检索到的有关疾病、药物、症状等医学知识。表1显示了CMeKG知识库中的几个知识案例。

类型中文知识知识翻译到英语

(疾病)

{“class”: “百种常见病”, “中心词”: “肝 癌”, “药物治疗”: [“瑞格非尼”, “对乙型 或丙型肝炎有效的抗病毒药物”, “索拉 非尼”], “多发地区”: [“撒哈拉以南的非 洲”], “高危因素”: [“肥胖”, “HBV DNA过 高”, “慢性酗酒”, “男性”, “慢性乙型肝 炎感染”, “肝癌家族史”, “慢性丙型肝 炎肝硬化”, “核心启动子突变”, “肝硬 化”, “HCV重叠感染”, “老年性心瓣膜病”, “乙型肝炎e抗原”, “糖尿病”],“发病部位”: [“肝脏”], “辅助检查”: [“肝功能检查”], “病史”: [“长期慢性乙肝病史”]}

{“class”: “ ”, “Key Word”: “Liver ”, “Drug ”: [“”, “ drugs B or C”, “”], “High ”: [“Sub- ”], “High Risk ”: [“”, “High HBV DNA ”, “ ”, “Male ”, “ B ”, “ of liver ”, “ due to C”, “Core ”, “Liver ”, “HCV co-”, “ heart ”, “ B e ”, “”], “ Area”: [“Liver”], “ ”: [“Liver test”], “ ”: [“Long-term of B”]}

Drug(药物)

{ “class”: “西药”, “中心词”: “二甲双胍”, “性状”: [“糖衣或薄膜衣片,除去包衣 后显白色”], “英文名称”: [“异福片”, “格 华止”], “分类”: [“双胍类”, “抗结核病 药”], “规格”: [“0.25g”], “OTC类型”: [“乙 类OTC”, “甲类OTC”], “适应证”: [“糖尿 病”, “肥胖”], “通用名”: [“异福片”], “成 份”: [“利福平及异烟肼”, “异烟肼”, “异 烟肼0.1克”, “异烟肼150毫克”, “本品为 复方制剂”, “利福平”, “利福平300毫克”, “利福平0.15克”, “盐酸二甲双胍”, “盐 酸”]}

{ “Class”: “ ”, “Key Word”: “”, “”: [“ or film- , white after of ”], “ Names”: [“”, “”], “”: [“ class”, “Anti- drug”], “”: [“0.25g”], “OTC Types”: [“OTC Class B”, “OTC Class A”], “”: [“”, “”], “ Name”: [“”], “”: [“ and ”, “”, “0.1g ”, “150mg ”, “This is a ”, “”, “300mg ”, “0.15g ”, “ ”, “”]}

(症状)

{ “中心词”: “毛发脱落”, “检查”: [“毛发 矿物质检查”], “相关疾病”: [“斑秃”, “慢 性疲劳综合症”], “相关症状”: [“毛发色 淡而呈棕色”, “毛发干燥易断”, “皮肤变 硬”], “所属科室”: [“内科”, “皮肤性病”, “放疗、化疗科”], “发病部位”: [“头部”]}

{“Key Word”: “Hair Loss”, “”: [“Hair ”], “ ”: [“ ”, “ ”], “ ”: [“Hair color is light and brown”, “Hair is dry and ”, “Skin ”], “ ”: [“ ”, “ and ”, “ and ”], “ Area”: [“Head”]}

怎么用指令生成_自动生成指令_让chatgpt生成图片的指令模板

(指令)Input(输入)(输出)

the into .

What are the for liver ?

肝癌可能的原因有什么?

指令微调已被证明对大型语言模型的微调是有效的,这有助于模型在零样本场景下以足够的注释指令为代价取得令人满意的性能。作者基于上述医学知识生成了指令数据。如表2所示,指令微调包括对训练实例的监督微调和用自然语言描述任务的指令。然而,对于医学对话的大型语言模型,输入大多以问题的形式表示,说明都类似于“回答以下问题”。因此,作者丢弃了指令,只为华佗保留输入。生成的指令需要足够多样化,以完成看不见的任务,来自大语言模型的响应中的事实的正确性在生物医学领域更受关注。因此,作者首先从知识图中抽取知识实例,然后使用 API基于特定知识生成实例。最后,收集了8000多个指令数据,如表3,作为监督微调的训练实例。

(实例)(翻译到英文)

患者XXX因头部及眼后部疼痛并能听到连续不断的隆隆声来到医院,医生对其进行了检查后诊断为偏头痛。请问,该病有什么治疗方法?

XXX came to the due to pain in the head and the eyes, by . After an , the the with a . What are the for this ?

治疗偏头痛的方法包括药物治疗和非药物治疗。药物治疗主要包括三大类:急性发作期治疗、预防性治疗和混合治疗。非药物治疗包括改变生活方式,如减少熬夜、避免过度劳累、避免饮酒、戒烟等;此外还包括针灸、按摩、脉冲放电治疗等。在治疗中应该综合评估患者的病情、临床表现、个人情况等因素,制定个性化的治疗方案。

The for and non- . of three : acute , , and mixed . Non- such as up late, , , and ; in , they also such as , , and pulse . , a of the ’s , , , and other be taken into to a plan.

实验

为了证明华佗的性能,作者与四个基线模型进行了比较分析:

对于医疗QA任务,需要安全性、可用性和流畅性。安全性决定了是否包括任何可能误导用户进入危险的内容,例如错误的药物建议。可用性反映了特定的医学专业知识。流畅性表示作为语言模型的基本能力。

在自然语言生成领域,各种评估指标被用来评估生成模型的有效性。在一般领域中广泛使用的指标包括Bleu和Rouge,它们将生成的响应与 truth进行比较。此外,对于医学问答任务,作者引入了一个评估指标SUS。SUS度量包括三个维度:安全性、可用性和流畅性。

在这项研究中,作者构建了一个汉语对话场景的测试集,并将华佗模型与其他三个基线模型产生的回答进行了比较。为了评估模型的性能,招募了五名具有医学背景的注释者,他们使用安全性、可用性和平稳性(SUS)来评估模型。SUS等级范围从1(不可接受)到3(良好),其中2表示可接受。SUS的平均分数如表4所示。尽管LLaMA获得了最高的安全性分数,但其回答往往没有信息,并对问题进行了重新表述,导致可用性分数较低。另一方面,华佗模型在不影响安全性的情况下显著提高了知识的可用性。

作者称华佗计划主要致力于研究,并非旨在提供医疗建议。研究中使用的医学信息来源于开放获取的医学知识图谱。

的核心是在监督微调阶段利用来自的提取数据和来自医生的真实世界数据。的反应通常是详细的、呈现良好的和信息丰富的,而它在许多方面不能像医生一样表现,例如在综合诊断方面。作者认为,来自医生的真实世界数据将与提取的数据互补,因为前者可以训练语言模型,使其表现得像医生。为了更好地利用两种数据的优势,作者训练了一个奖励模型,以使语言模型与两种数据带来的优点保持一致,并遵循RLAIF(从人工智能反馈中强化学习)。

来自:, Model to Be a

在医学上已经足够吗?回答是“否”。根据最近的研究,已经观察到甚至GPT-4,在医学等垂直领域表现出相对较差的性能。造成这种现象的一个因素是注释者可能缺乏医学知识的熟练程度。因此,在这一领域存在着进一步探索和改进的重大机遇。

另一方面,在线医疗往往带来定制化和本地化的挑战。例如,中国医学与西方医学有着根本的不同,印度医学和许多其他医学也是如此。然而,作为一种通用的语言模型,缺乏定制能力。此外,将用户的医疗数据委托给私营公司会引起人们的担忧,这强调了私人部署以确保本地数据存储的必要性。开发一种完全开源且具有商业可行性的医疗将有利于个人健康。

的预期目的是医疗和健康建议、分诊、诊断、开药、解释医疗报告等。一般来说,任何医疗或健康信息都可以合并到在线聊天过程中,类似于使用。在线医疗咨询提供了许多优势,包括:

目前,在医疗领域存在下面问题:

让chatgpt生成图片的指令模板_怎么用指令生成_自动生成指令

为了克服上述问题,的核心是在监督微调(SFT)阶段利用来自医生的真实世界数据和来自的提取数据;这两个数据都包括医疗指令数据和医疗会话数据。从提取的数据被用来训练语言模型,使其遵循医学指示并流利地说话。额外的真实世界医学数据不仅将医学知识注入语言模型,而且还训练语言模型,以执行医学诊断或开药,像医生一样行事,并提供准确的信息。

的特点如下:

动机

从纯粹的真实世界对话中训练语言模型是一种常见的做法。然而,这受到低质量数据的影响。例如,现实世界对话中的回答可能是无信息的、简短的和糟糕的。更重要的是,这些数据中的值并不一致,甚至相互矛盾。与相比,向纯人类学习通常会导致不满意的基于聊天的语言模型。

最近的工作倾向于从中提取语言模型,要么模仿单回合指令中的响应,要么在与人类交互聊天时学习反应。通过提取的输出,模型可以快速获得令人印象深刻的指令跟随能力和无缝对话技能。此外,以其多样性和快速生成为特点,提取的数据可以跨越各种医学对话,包括各种疾病、症状和治疗模式。这种广度和多样性大大提高了模型的预测性能和可推广性。

然而,从中提取可能不适用于医学LLM,因为反应和医生反应之间存在根本差距,如图1和表1所示。提取的数据的质量可能会波动,表现为生成的对话中的不正确或模棱两可的信息。

解决方案

考虑到这些挑战,作者建议将提取数据(来自)和真实世界数据(来自)的优势结合起来,如表2所示。目的是训练医学LLM,使其表现得像医生。例如,它不仅要提供详细、信息丰富、呈现良好的内容,而且要像医生一样进行准确和互动的诊断(通常提出澄清的问题)。为此,首先在监督微调阶段(SFT)混合提取的数据和真实世界的数据。然后,使用人工智能反馈的RL(RLAIF)来利用这两种数据的优势,同时减轻它们的弱点。

侧重于整合医生和的特征,通过两阶段训练策略提高医疗咨询中的反应质量:混合数据的SFT和人工智能反馈的RL。首先利用精心选择的混合数据,通过监督微调来训练模型,然后通过人工智能的反馈来加强所需响应的生成,如图2所示。

混合数据的SFT

在第一阶段,采用了提取数据和真实世界数据的混合,利用这两种优势赋予模型类似医生和患者友好的特征。在每个数据类别中,收集了指令数据和会话数据,以使模型具有指令跟踪和交互式诊断的能力。

从提取指令:遵循self-的工作构建了一组医疗指导数据,旨在使模型能够遵循用户的医疗指导。不同之处在于,采用了自上而下的方式来创造更自然、更全面的应对措施。作者设计了一个分类法来收集或手动创建基于角色和用例的种子指令。根据每个角色或用例,使用自我指导分别生成指令。这可以提供广泛的说明,同时为每个角色或用例保留足够的说明。最后,将所有的种子指令混合在一起,进行自我指导;这可能有助于生成更加多样化的指令。

根据之前的工作,使用self-从生成指令,并使用手动构建的医学种子指令,提示如下:

与最初的self-不同,作者生成了角色增强指令,它将用于生成具有以下提示的输出。

从医生获取真实世界指令:真实世界的指令数据来源于医生和患者之间的问答。医生的回答是专业知识,具有高度的相关性和简洁性。因此,通过提炼真实的医患QA对,进一步提高了-turn指令数据的质量和可靠性。

在实验中,从网络上收集了真实世界的问答数据,并对一组用于训练的高质量问答对进行了采样。每一对都经过LLM的提炼。提示如下:

从获取对话:提取的对话由两个生成,每个使用精心设计的提示与一个角色(医生或患者)进行关联。首先,利用第三方医学诊断数据库作为生成合成对话数据的医学知识和专业知识的来源。基于患者的基本背景和医生的最终诊断,两个被要求逐一生成对话。在这些对话中,LLM产生的回答通常信息丰富、详细、呈现良好,并遵循一致的风格;格式和信息通常对患者友好。

作者展示了用于患者LLM和医生LLM的提示。患者LLM的提示为:

医生LLM的提示为:

从医生获得真实世界对话:真实世界的对话是从真实的场景中收集的,医生的反应通常需要不同的能力,包括长期推理和提出问题来指导患者描述自己的症状。然而,这种数据有时过于简洁和口语化。为了解决这一问题,作者利用语言模型来增强和细化基于原始内容的数据,从而生成高质量的真实对话数据集。

© 版权声明

相关文章

暂无评论

暂无评论...