关于文本摘要，知道这些足以！

每天给你送来NLP技术干货！

炼丹笔记干货

作者：炼丹小生

来自：炼丹笔记

说到文章摘要大家并不陌生，就是给长文本在不丢失任何重要信息的情况下做个精确的总结。具体有哪些方法呢？可以看以下总结。

文章摘要

基于抽取的文章摘要(Extraction-based)
1 词频 (Leverage word frequencies)
2 Textrank (Leverage embeddings similarity with TextRank)
3 embedding聚类 (Leverage embeddings and clustering)
基于概要的文章摘要(Abstraction-based)
1 seq2seq模型 (Seq-to-seq models and supervised learning)

基于抽取的文章摘要: 从长文本中提取代表最重要要点的单词或句子的子集，并结合起来形成摘要，结果在语法上可能不准确。

基于概要的文章摘要： 使用深度学习技术（主要在seq-to-seq模型中）像人类一样解释和缩短原始文档。由于抽象机器学习算法可以生成代表源文本中最重要信息的新短语和句子，因此它们可以帮助克服基于抽取技术的语法错误。

虽然抽象在文本摘要方面表现得更好，但开发其算法需要复杂的深度学习技术和复杂的语言建模。因此，抽取式文本摘要方法仍然广泛流行。

Leverage word frequencies

Extraction-based summarization with TextRank

Extraction-based summarization with sentence embeddings and clustering

Abstraction-based summarization with seq-to-seq models

参考文献

TextRank:https://cran.r-project.org/web/packages/textrank/vignettes/textrank.html
pagerank:https://en.wikipedia.org/wiki/PageRank
基于bert的摘要抽取:https://github.com/dmmiller612/bert-extractive-summarizer
kmeans:https://en.wikipedia.org/wiki/K-means_clustering
rouge:https://en.wikipedia.org/wiki/ROUGE_(metric)

整理不易，还望给个在看！

继续阅读

关键词

算法

方法

摘要

文本摘要

文档中