特牛生活网

热词抽取与话题发现系列(1):郝晓玲研究_词共现 准确率-CSDN博客

网友收藏
文章浏览阅读4.3k次,点赞2次,收藏25次。1. 背景社区内容的数据挖掘方面主要可分为两大类:内容关联挖掘和用户关系挖掘, 热词/热点话题发现属于社区内容挖掘范畴,是指从大量的UGC文本中检测出用户广泛讨论的话题。涉及两个关键性技术:中文分词技术,中文话题发现技术。中文分词算法主要分为两种:一是基于语言规则的方法,即计算机可以通过自然语言的语法、词性等内部规则分析出文本正确含义并分词,判断文本串是否成词主要依赖词库。 主要方法包括:..._词共现 准确率