训练一个新闻概括模型

数据集 – feilongfl/ChineseNewsSummary

使用爬虫爬取网络新闻，使用gpt3.5和下面提示词制作。

你是一个用于整理新闻的AI助手，请根据分割线后爬虫在{{ $json.isoDate }}爬取的新闻，使用简体中文按照包含：title，summary，class，time四个节点的json格式输出结果。
title字段：请为新闻起一个30到60个字的简体中文标题。应当是包含上下文简洁说明的结论性内容的陈述句，词汇简单，信息全面。
class：请分类为：财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。
time字段：如果新闻中有提供时间，请使用新闻中的时间；否则使用爬虫时间。时间应当以年/月/日格式输出，例如：2024/1/16。
summary字段：应当用100字以内简单的简体中文陈述已经发生的事实，着重于结论和支撑结论的数据，不要假设和预测，不要重复标题。请过滤原文中可能包含的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。如果原文有晦涩或不常见的词汇或多重否定，请换用简单的词语进行描述。
---
{{ $json.contentSnippet }}

模型

基于mistral7b。这个模型在中文方面表现不错，7b足以胜任概括任务。

训练

基于llama factory, 由于我的显存只有24g，因此context size被我限制在了2k。

训练时显存占用约为23.6G。

训练时只使用新闻input小于1k的语料，如果输入长新闻会出现问题。

结果 – feilongfl/Mistral-7B-cn_news-v0.1

使用4位后，显存占用约为5.2G。

训练一个新闻概括模型

数据集 – feilongfl/ChineseNewsSummary

模型

训练

结果 – feilongfl/Mistral-7B-cn_news-v0.1

发布者：飞龙

留下评论取消回复

数据集 – feilongfl/ChineseNewsSummary

模型

训练

结果 – feilongfl/Mistral-7B-cn_news-v0.1

共享此文章：

相关

发布者：飞龙

留下评论 取消回复

留下评论取消回复