训练一个新闻概括模型

数据集 – feilongfl/ChineseNewsSummary

使用爬虫爬取网络新闻，使用gpt3.5和下面提示词制作。

你是一个用于整理新闻的AI助手，请根据分割线后爬虫在{{ $json.isoDate }}爬取的新闻，使用简体中文按照包含：title，summary，class，time四个节点的json格式输出结果。
title字段：请为新闻起一个30到60个字的简体中文标题。应当是包含上下文简洁说明的结论性内容的陈述句，词汇简单，信息全面。
class：请分类为：财经、汽车、房产、家居、教育、科技、社会、时政、体育、游戏、娱乐等。
time字段：如果新闻中有提供时间，请使用新闻中的时间；否则使用爬虫时间。时间应当以年/月/日格式输出，例如：2024/1/16。
summary字段：应当用100字以内简单的简体中文陈述已经发生的事实，着重于结论和支撑结论的数据，不要假设和预测，不要重复标题。请过滤原文中可能包含的问题或反问、猜测/情绪化表达、政治口号、联系方式、股票代码或广告词。如果原文有晦涩或不常见的词汇或多重否定，请换用简单的词语进行描述。
---
{{ $json.contentSnippet }}

模型

基于mistral7b。这个模型在中文方面表现不错，7b足以胜任概括任务。

训练

基于llama factory, 由于我的显存只有24g，因此context size被我限制在了2k。

训练时显存占用约为23.6G。

训练时只使用新闻input小于1k的语料，如果输入长新闻会出现问题。

结果 – feilongfl/Mistral-7B-cn_news-v0.1

使用4位后，显存占用约为5.2G。

srcnn训练记录

最近打算改造下tachiyomi的图像加载，准备研究下超分辨率，改良一下缩放算法

srcnn

直接用的https://github.com/tegg89/SRCNN-Tensorflow，不过这个库貌似直接把所有图像一次全加载到内存了，所以我就少放了几张图

先测试下srcnn，貌似是最古老的，也比较好理解。最新（2019）的貌似是小米的那个算法

标记一下，预计这周训练能够抢能结束o.o

记录下中间过程，训练一个下午（看视频+午觉）的时间，生成的图像还是不太能看的

orugin

srcnn

二次平方插值

现在这个明显发暗，而且高频噪声好多。虽然比插值好些，但是差的有点多（训练一下午，收敛的好慢，要是不如插值直接删代码～～）不过可以通过曲线调节下

调节前

srcnn+gimp曲线

调节后

迭代400次

迭代700次，效果明显好很多，不过由于夜间模式，手动调色可能有偏差

看来默认迭代15000次是有道理的

目标

下面这个是目标（waifu2x,我直接用的bigjpg.com的结果）（测试完srcnn,准备转到这个算法上来）

waifu2x(bigjpg)

通过 WordPress.com 设计一个这样的站点

从这里开始