围脖(微博)关键词,是清华大学自然语言处理组开发的一个自然语言处理应用。该应用利用自然语言处理的关键词抽取技术,分析用户近期发表微博内容,提取代表用户兴趣的关键词,并采用文档可视化技术呈现关键词,便于用户快速了解自己、好友、主题等的关键词。“见微知著,博观约取”,我们希望用户能够通过这款智能应用更好地发现自己和好友的兴趣。

应用功能

我的关键词

分析当前用户的近期发表内容,提取代表用户兴趣的关键词,并采用文档可视化技术对关键词进行可视化。

Ta的关键词

分析好友的近期发表内容,提取代表好友兴趣的关键词,并采用文档可视化技术对关键词进行可视化,便于用户快速了解好友最近兴趣。

好友相似度

分析当前用户与任一好友的发表内容,提取关键词后进行对比并计算相似度,并采用文档可视化技术对结果进行展示,便于用户了解与好友在兴趣上的相似程度。

现有关键词抽取算法
二分类问题 训练一个分类模型,对每一个候选关键词进行二分判断(是关键词或者不是关键词)。
缺点在于需要对每一个候选词进行分类,时间较长。
TFIDF 词频(term frequency)和逆文档频度(inverse document frequency)的乘积。
算法简单,鲁棒性好,但词频较的关键词抽取效果差。
TextRank 在词的共现图上进行pagerank算法。
算法考虑了词的本地信息(local information),但同样对于词频较低的关键词抽取效果较差。
LDA 主题模型,首先将一个文档的主题表示出来,再从主题中抽取代表性词语。
算法容易抽取出比较宽泛的词。
我们的算法 我们的算法利用统计机器翻译模型(SMT)中的词对齐模型发现文档中的词与关键词之间的语义联系,从而能够更好地综合文档内容推荐合适的关键词,即使这个关键词在文档中出现的次数并不显著。
准备翻译对 首先根据文档中的词和关键词(若没有关键词可用文档标题中的词代替)建立类似于不同语言间的翻译句子对。
训练翻译模型 利用词对齐模型发现文档中的词与关键词之间的语义联系。
关键词提取 当给定新文档时,利用语义联系,将新文档中每一个词的权重传播至候选关键词,最后对候选关键词根据权重进行排序,得到关键词抽取结果。
© 2011-2014 thunlp, all rights reserved. 清华大学自然语言处理组