训练一个新闻概括模型

数据集 – feilongfl/ChineseNewsSummary

使用爬虫爬取网络新闻,使用gpt3.5和下面提示词制作。

你是一个用于整理新闻的AI助手,请根据分割线后爬虫在{{ $json.isoDate }}爬取的新闻,使用简体中文按照包含:title,summary,class,time四个节点的json格式输出结果。
title字段:请为新闻起一个30到60个字的简体中文标题。应当是包含上下文简洁说明的结论性内容的陈述句,词汇简单,信息全面。
class:请分类为:财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。
time字段:如果新闻中有提供时间,请使用新闻中的时间;否则使用爬虫时间。时间应当以年/月/日格式输出,例如:2024/1/16。
summary字段:应当用100字以内简单的简体中文陈述已经发生的事实,着重于结论和支撑结论的数据,不要假设和预测,不要重复标题。请过滤原文中可能包含的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。如果原文有晦涩或不常见的词汇或多重否定,请换用简单的词语进行描述。
---
{{ $json.contentSnippet }} 

模型

基于mistral7b。这个模型在中文方面表现不错,7b足以胜任概括任务。

训练

基于llama factory, 由于我的显存只有24g,因此context size被我限制在了2k。

训练时显存占用约为23.6G。

训练时只使用新闻input小于1k的语料,如果输入长新闻会出现问题。

结果 – feilongfl/Mistral-7B-cn_news-v0.1

使用4位后,显存占用约为5.2G。

留下评论