最近计划构建疾病主题的知识图谱,想到使用 gpt 等大语言模型从文本中直接提取相关的实体和关系,这样的优势是不用针对特定领域进行模型的训练和优化,开箱即用。尝试的思路有:
- 专门用 LLM 来执行 NLP 任务的项目 https://github.com/promptslab/Promptify
- 创作角色和技能 https://github.com/yzfly/LangGPT
chatgpt 上自己做一些提示词的测试,gpt-4 的表现优于 gpt-3.5 ,能够得出更接近预期的答复。但是也有几个问题:
- 生成结果的一致性差,gpt 容易进行创作发挥(gpt4 与 3.5 都有类似的问题);
- gpt-4 api 目前还没有申请到,即便申请到也比较贵,很难进行大规模的文本的处理
目前的设想是基于 gpt-3.5 ,结合提示词的优化达到尽可能高的效果,结合人工矫正后的例子来更好地帮助模型理解。如果有朋友做类似的工作,希望一起交流探讨一下。