基于Bert-UNILM及Django的智能创作平台 - 软件杯2022
本文最后更新于:2022年9月13日 07:54
参考资料
理论基础
抽取式算法TextRank
TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。
流程
- 把所有文章整合成文本数据
- 接下来把文本分割成单个句子
- 然后,我们将为每个句子找到向量表示(词向量)。
- 计算句子向量间的相似性并存放在矩阵中
- 然后将相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子TextRank计算。
- 最后,一定数量的排名最高的句子构成最后的摘要。
关键词提取:图构造完成后,单词的TR值计算公式为
Bert-UNILM
Django开发
项目实践
项目展示
基于Bert-UNILM及Django的智能创作平台 - 软件杯2022
https://junyaohu.github.io/2022/09/12/cnsoft2022-Bert-Django-demo-EasyWriting/