训练一个新闻概括模型

数据集 – feilongfl/ChineseNewsSummary

使用爬虫爬取网络新闻,使用gpt3.5和下面提示词制作。

你是一个用于整理新闻的AI助手,请根据分割线后爬虫在{{ $json.isoDate }}爬取的新闻,使用简体中文按照包含:title,summary,class,time四个节点的json格式输出结果。
title字段:请为新闻起一个30到60个字的简体中文标题。应当是包含上下文简洁说明的结论性内容的陈述句,词汇简单,信息全面。
class:请分类为:财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。
time字段:如果新闻中有提供时间,请使用新闻中的时间;否则使用爬虫时间。时间应当以年/月/日格式输出,例如:2024/1/16。
summary字段:应当用100字以内简单的简体中文陈述已经发生的事实,着重于结论和支撑结论的数据,不要假设和预测,不要重复标题。请过滤原文中可能包含的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。如果原文有晦涩或不常见的词汇或多重否定,请换用简单的词语进行描述。
---
{{ $json.contentSnippet }} 

模型

基于mistral7b。这个模型在中文方面表现不错,7b足以胜任概括任务。

训练

基于llama factory, 由于我的显存只有24g,因此context size被我限制在了2k。

训练时显存占用约为23.6G。

训练时只使用新闻input小于1k的语料,如果输入长新闻会出现问题。

结果 – feilongfl/Mistral-7B-cn_news-v0.1

使用4位后,显存占用约为5.2G。

srcnn训练记录

最近打算改造下tachiyomi的图像加载,准备研究下超分辨率,改良一下缩放算法

srcnn

直接用的https://github.com/tegg89/SRCNN-Tensorflow,不过这个库貌似直接把所有图像一次全加载到内存了,所以我就少放了几张图

先测试下srcnn,貌似是最古老的,也比较好理解。最新(2019)的貌似是小米的那个算法

标记一下,预计这周训练够抢能结束o.o

记录下中间过程,训练一个下午(看视频+午觉)的时间,生成的图像还是不太能看的

orugin
srcnn
二次平方插值

现在这个明显发暗,而且高频噪声好多。虽然比插值好些,但是差的有点多(训练一下午,收敛的好慢,要是不如插值直接删代码~~)不过可以通过曲线调节下

调节前
srcnn+gimp曲线
调节后

迭代400次

迭代700次,效果明显好很多,不过由于夜间模式,手动调色可能有偏差

看来默认迭代15000次是有道理的

目标

下面这个是目标(waifu2x,我直接用的bigjpg.com的结果)(测试完srcnn,准备转到这个算法上来)

waifu2x(bigjpg)