搜索引擎&爬虫工程师的工具链感觉现在全面面临洗牌了。以前靠SVM来分类,靠 TF-IDF 来抽关键词,trie-tree 来过滤敏感词,基于文本密度算法来抽正文,靠余弦相似度等相似度算法来消重。
现在,大模型能全面取代这些传统NLP做法了。
https://huggingface.co/jinaai/reader-lm-1.5b
搜索引擎&爬虫工程师的工具链感觉现在全面面临洗牌了。以前靠SVM来分类,靠 TF-IDF 来抽关键词,trie-tree 来过滤敏感词,基于文本密度算法来抽正文,靠余弦相似度等相似度算法来消重。
现在,大模型能全面取代这些传统NLP做法了。
https://huggingface.co/jinaai/reader-lm-1.5b