首页 考场素材 名言警句 好词好句 优美段落 时事论据 成语故事 哲理故事 名人故事 历史典故 祝福短信 黑板报 手抄报 贺卡
小学作文
初中作文
高中作文
作文体裁

[有人做出了中文版GPT-2,可用于写小说、诗歌、新闻等;15亿参数版...] 用于是写话

时间:2019-08-25 来源:作文笔 
乾明 发自 凹非寺

量子位 报道 | 公众号 QbitAI

GPT-2,逆天的语言AI模型,编故事以假乱真,问答翻译写摘要都行。

问世之后横扫各大语言建模任务,引发了大量关注以及研究者跟进研究。

之后,围绕着GPT-2产生了各种实用性应用:比如能够自动补全代码的Deep TabNine;高中生开源轻量级GPT-2“客户端”等等。

现在,又有两个围绕这一语言AI模型的成果出现。

一是中文版GPT-2开源(非官方),可以写诗,新闻,小说、剧本,或是训练通用语言模型。

二是,两名硕士研究生花5万美元复制了OpenAI一直磨磨唧唧开源的15亿参数版GPT-2。

中文版GPT-2

GPT-2发布以来,虽然关注甚多,但在中文语境中的应用非常少。

最直接的因素,就在于没有中文版,或者说是没有人基于中文语料去大规模复现。

现在,有人这样做了。

一位名叫”Zeyao Du“(位于南京)的开发者,在GitHub上开源了的GPT-2 Chinese。

可以用于写诗、新闻、小说和剧本,或是训练通用语言模型。

项目中默认使用BERT的tokenizer处理中文字符,支持字为单位或是分词模式或是BPE模式,并支持大语料训练。

目前项目主要架构已经稳定,具体的训练语料,作者也附上了相应的链接:

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

https://github.com/brightmart/nlp_chinese_corpus

中文文本分类数据集THUCNews

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

效果如何,大家可以自己感受下:

下图是他们使用较大规模训练后自由生成的文本。其中模型参数约80M,机器为四个2080Ti,训练步数140万步,语料3.4G,Batch Size 8。

下图是他们生成的斗破苍穹样例。模型参数约为50M,Batch Size 32,语料库为16MB斗破苍穹小说内容。

斗破苍穹语料:

https://github.com/GaoPeng97/transformer-xl-chinese/tree/master/data/doupo

下图是限定了生成体裁后的古诗歌生成样例(来自GitHub开发者@JamesHujy),参数未说明:

GPT-2 Chinese项目传送门:

https://github.com/Morizeyao/GPT2-Chinese

15亿参数版GPT-2

能够实现逆天效果GPT-2模型,用到了15亿个参数。

在发布这一模型的时候,OpenAI说,这个模型实在太厉害了,要慢慢开源。

于是就开始了“挤牙膏”开源之旅,从今年2月到现在,才开源到了7.74 亿参数版本。

这一路上,有不少人都表示非常难以忍耐。

比如慕尼黑工业大学的一名大三本科生,在两个月的时间里,付出了200个小时的时间,花费了大约6000人民币,复现了GPT-2项目,并在7月初放出了15亿参数的版本。

至于效果如何,并没有太多展示,项目链接:

https://github.com/ConnorJL/GPT2

现在,又有人忍不住了。

有两名布朗大学的硕士研究生,搞出了一个15亿参数的GPT-2模型,命名OpenGPT-2,还放出来了效果对比。

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

模型权重:

https://drive.google.com/drive/u/0/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

搞出来之后,他们在博客中说,其实想要复制GPT-2并不难,绝大多数感兴趣的人都可以复制。比如,他们就可以复现论文中的很多结果,而且并没有语言建模的经验

当然,得有钱。他们完整复制出来,花了大约5万美元,还只是云端训练成本。

具体的复制难点有两个,一是模型,二是数据。

模型上面,他们基于Grover模型,并对代码库进行修改,来实现GPT-2的语言建模训练的目标。

Grover模型论文地址:

https://arxiv.org/abs/1905.12616

因为Grover的模型是在类似的大型语料库上训练的,所以很多代码和超参数都可以重复使用。他们并没有大幅改变其中的超参数。

数据集方面,在很大程度上都保证了与OpenAI的处理方式相同,但并不能保证其中细节相同,最后得出了数据集OpenWebTextCorpus:

https://skylion007.github.io/OpenWebTextCorpus/

如此做出来的模型,效果如何?从定量维度上来看,在多个数据集上困惑度都与GPT-2原版接近:

定性维度上,就仁者见仁智者见者了,在Reddit上有人支持,但也有人觉得他们的模型效果不好。

这两位硕士研究生,也在博客中放了一个与官方GPT-2一样的案例:

给出 “Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”的提示。

复制版OpenGPT-2给出的结果如下:

That´s because recycling is all about selling to customers who cannot afford to recycle. If you don’t have any interest in recycling, in whatever form, then you could well be doing your own global environmental benefit if you just got rid of it.

Let me explain. Recycling takes time, money and energy, and it doesn’t really solve the problem.

If you go to recycling drop-off shops and they just sort out your recyclables for you then it means there is no need to sell them again to the local recycling company; they just take it back from you and you can just dump it.

There is nothing clever about this approach, in fact it just shuffles the problem around instead of solving it.

……

推荐访问:

版权声明:

1、本网站发布的作文《[有人做出了中文版GPT-2,可用于写小说、诗歌、新闻等;15亿参数版...] 用于是写话》为作文笔注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《[有人做出了中文版GPT-2,可用于写小说、诗歌、新闻等;15亿参数版...] 用于是写话》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题