reader-lm-1.5b 抽取正文+关键词+分类的大模型

搜索引擎&爬虫工程师的工具链感觉现在全面面临洗牌了。以前靠SVM来分类,靠 TF-IDF 来抽关键词,trie-tree 来过滤敏感词,基于文本密度算法来抽正文,靠余弦相似度等相似度算法来消重。
现在,大模型能全面取代这些传统NLP做法了。
https://huggingface.co/jinaai/reader-lm-1.5b