基于微博分类的用户兴趣识别

时间:2022-10-24 02:49:19

【前言】基于微博分类的用户兴趣识别由文秘帮小编整理而成,但愿对你的学习工作带来帮助。刘挺(1972-),男,山东掖县人,博士,教授,博士生导师,主要研究方向:自然语言处理、信息检索、社会计算; 李生(1943-),男,黑龙江兰西人,硕士, 教授,博士生导师,主要研究方向:自然语言处理、信息检索、机器翻译; 都云程(1967-),男, 山东牟平人, 硕...

基于微博分类的用户兴趣识别

收稿日期:2013-05-13

基金项目:国家自然科学基金面上项目(61073129);国家自然科学青年科学基金(61202277);国家科技支撑计划重点项目(2011BAH11B03)。

作者简介:宋巍(1983-),男,黑龙江哈尔滨人,博士研究生,主要研究方向:查询理解、个性化检索与推荐;

张宇(1972-),男,黑龙江大庆人,博士,副教授,主要研究方向:信息检索、问答系统、自然语言处理;

谢毓彬(1990-),女,江西萍乡人,硕士研究生, 主要研究方向:个性化推荐;

刘挺(1972-),男,山东掖县人,博士,教授,博士生导师,主要研究方向:自然语言处理、信息检索、社会计算;

李生(1943-),男,黑龙江兰西人,硕士, 教授,博士生导师,主要研究方向:自然语言处理、信息检索、机器翻译;

都云程(1967-),男, 山东牟平人, 硕士, 高级工程师,主要研究方向:互联网信息采集、信息过滤研究。

都云程摘要:社会媒体成为用户分享与获取信息的重要平台。发现感兴趣的微博账户与信息是社交媒体平台最重要的活动,其关键问题在于用户兴趣模型的构建。提出基于微博分类用户兴趣识别方法。首先人工构建目标分类体系,基于典型微博账户采集微博训练语料训练微博分类器,而后通过对用户微博进行分类识别出用户感兴趣的类别。实验表明基于典型主题类别微博,结合词语与主题的特征可有效进行微博分类达到86%的F值,输出的类别可准确表示用户兴趣。

关键词:社会媒体; 微博分类; 主题模型; 用户建模; 个性化

中图分类号:TP391 文献标识码:A文章编号:2095-2163(2013)04-0080-04

Identifying User Interests based on Microblog Classification

SONG Wei1, ZHANG Yu1, XIE Yubin1, LIU Ting1, LI Sheng1,DU Yuncheng2

(1 Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin 150001, China;

2 Beijing Information Science & Technology University, Beijing 100192, China)

Abstract:Social media (such as Sina microblog) becomes important platform for sharing and accessing information for users. Identifying potential interested weibo accounts and microblogs are the most important tasks on social media. The key challenge is user modeling. This paper proposes a user modeling method based on microblog classification. First,construct target taxonomy, collect training data from typical weibo accounts for training the microblog classifier, then identify user interests by classifying the microblogs of the users. The experiments show that based on the collected training data, the combination of word features and topic features is effective for classifying microblogs by achieving 86% F-measure and the output categories represent user interests accurately.

Key words:Social Media; Microblog Classification; Topic Model; User Modeling; Personalization

0引言

微博,如Twitter和新浪微博,近几年取得迅速的发展。在微博平台上,用户可以通过一段不超过指定长度(通常为140个字)的短文本来表达观点,并分享信息。用户还可以通过关注感兴趣的微博账户,自动地接收到其所关注账户的信息。由于这种信息方式的便捷性,聚焦关注的自主性和广泛连接的社会性,微博这一社会媒体越发受到互联网用户的喜爱,成为用户获取最新信息、知晓社会动态的重要途径。

与此同时,大量信息的涌现也导致了严重的信息过载问题。每位用户一天之内就可能接收到几百甚至几千条微博,根本不会有足够的时间去处理这些信息。另外,网络用户发表的微博涉及到各种各样的主题,从时事新闻直到生活琐事。显然,并不是所有信息都会贴合用户的兴趣。因此,提出有效的方法实现用户兴趣识别,协助用户更好地组织与过滤信息,则成为当前微博研究领域具有高度必要性的研究课题。

本文试图通过对用户的微博进行主题分类来自动地识别用户的兴趣。具体地,讨论了如何根据分类体系以较小的代价获取大量的训练语料,以及如何利用微博的局部内容信息和微博平台全局信息提取特征进行分类。基于微博分类的结果,对用户的微博进行主题分类,从而识别出用户兴趣所在。实验表明,微博分类可以达到86%的F值,基于微博分类的方法可以准确地发现用户最感兴趣的主题,同时借助用户转发的微博更有利于发现用户兴趣。

1相关工作

本文研究的微博用户兴趣识别与微博的内容分析,微博用户的兴趣分析等有着较为紧密的联系。Zhao等[1]利用主题模型对Twitter与传统在线媒体内容进行比较后发现,在Twitter上,人们倾向于谈论与家庭、生活相关的话题。Hong等[2]研究了在微博环境中如何使用数据集训练主题模型。通过使用三种不同策略来训练模型:将单条微博当成一篇文档的MSG策略、将同一作者所有微博聚合起来的USER策略,将涉及相同Hashtag的微博聚合在一起的TERM策略。实验表明,MSG和TERM策略训练得到的模型具有更高的主题分布相似度,而USER策略在微博分类等任务中则具有更好的表现。Abel等人通过提取微博中的Hashtag、实体等与当前主流媒体如CNN、CBC、New York Times相链接,拓展丰富微博的语义[3]。

Ramage等[4]利用Labeled-LDA对Twitter的内容和用户建模,并用于微博排序、用户推荐等任务,均表现了不错的性能。文献[5]进一步利用传统媒体中的新闻、微博中的Hashtag等,提出了基于Twitter的用户建模框架,并应用于推荐任务中。而且还通过为用户构造长期和特定时间段的模型,观察用户兴趣的变化。文献[6]中,提出了基于Twitter的用户模型应用TUMS。给定一个Twiiter用户,收集该用户的所有微博,丰富语义,返回用户建模结果,并对其可视化。Michelson和Genc等将微博内容与维基百科资源相结合,并进行研究。文献[7]将用户的微博中提及的实体经过消歧等处理后映射到维基百科的某个类别节点上,经过投票策略可得到用户最感兴趣的维基百科类别节点。文献[8]的目的在于对单条微博进行分类。具体做法是,同样提取微博中的实体,得到每个实体对应的维基百科类别节点。而节点是具有层次的,因而通过一个基于路径的算法得到每条微博的归属类别。

此外,还有部分研究工作针对微博用户标签生成。Wu等基于TextRank抽取用户微博的关键词作为用户标签[9]。Lappas等[10]利用社会支持网络(Social Endorsement Networks)来挖掘Twitter用户的标签。Yamaguchi等[11]利用Twiter用户的分组名称来给用户添加标签。第4期宋巍,等:基于微博分类的用户兴趣识别智能计算机与应用第3卷

2基于微博分类的用户建模方法

2.1系统框架

本文提出基于微博分类的用户建模方法,利用主题类别体系表示用户兴趣。在训练阶段,基于从典型主题微博获取的数据提取特征、训练分类模型;在预测阶段,对用户的微博进行分类,并输出排序靠前的类别,并以其表示用户兴趣。

2.2分类体系

首先需要构建分类类别体系。希望能够尽可能覆盖常见的微博文本类型,类别之间的重合度较低且能够较容易地寻找到相应类别的微博训练语料。

微博文本中存在很多的噪声,而普通用户的微博通常涵盖众多类别。因此,从较为正式的官方微博,例如“新浪体育”,或者具有明显类别信息的微博用户,如“星座爱情”来抽取微博作为训练语料。

为最大限度符合之前提出的构建类别体系原则,将类别设置为10个,并搜集得到一定规模和质量的微博训练语料。设定类别分别为:体育、娱乐、汽车、财经、时事/军事、科技、健康/养生、旅游/摄影/美食、星座/时尚/语录、校园/教育/职场,具体如表1所示。

2.3文本分类特征

微博分类属于短文本分类,属于有指导学习,本文采用支持向量机[12]作为分类模型,其主要任务是提取有效的特征。由于微博较短,且用户输入又多属不规范,因而为构建特征带来很大挑战。在此采取词语层次特征与主题层次特征相组合的策略,以构建训练分类器的特征,对策略解析如下。

词语层次的特征:以微博中的单词作为特征,采取文档频率与卡方统计相结合的特征选择方式,抽取出类别区分度较明显的词语作为特征。

主题层次特征:基于大规模微博数据训练主题模型[13],对微博数据的主题进行推断,以各微博在主题上的分布作为特征。使用这种策略的优势在于可将训练数据中的微博与用户微博映射到相同的主题空间内。

最终,将主题层次的特征与词语层次的特征相组合,构成特征空间用于分类。

2.4用户兴趣识别

设主题类别体系为C={c1,…,cM},给定某个用户u,抽取其的微博文本集合W={w1,…,wn},文本数目为n,使用训练得到的短文本分类器进行预测,得到n条微博文本对应的预测类别列表L={l1,…,ln},其中li∈C。

在预测类别列表上定义一个计数函数count(x, L)表示类别x在L中出现的次数,其中,x∈C。按照count(x, L)由高到低排序,选择排序靠前的类别表示用户兴趣。

3实验

3.1实验数据

(1)微博分类训练数据。从新浪微博的某些官方微博和具有明显类别信息的、人气较高的微博上抽取文本作为训练语料。训练和测试语料的微博文本数目如表2所示。

3.2评价方法

(1)评价分类效果

本文对短文本分类效果的评价则采用准确率(precision)、召回率(recall)以及F测度来进行衡量与表征。

假设针对某一类别C的分类结果,如表3所示。

(2)评价自动生成标签效果

用户兴趣识别方法是通过用户生成一系列类别标签,选择前3个类别反映其兴趣。采集了40位微博测试用户的数据,两名标注者观察每名曾经发过及转发过的微博并标注每名用户的兴趣类别。将系统自动获得的类别与人工标注结果相比较,采用P@N指标进行评价。表4给出了两位标注者的标注一致性。两位标注者对结果的标注一致性处在0.40至0.75的范围内,可以接受。

表4两位标注者评定结果的一致性

Tab.4 The kappa values between 2 labelers使用所有微博使用转发微博Cohen's kappa0.412 40.482 8

3.3结果与分析

3.3.1微博文本分类效果

分别考察词语层次特征以及主题层次特征对分类效果的影响。仅使用词语特征构建的分类器(记为Word),使用主题-文档分布作为特征的分类器(记为Topic),将词语与主题相结合作为特征的分类器(记为Word-Topic)。表5、表6和表7分别展示了3个分类器的分类结果。

从实验结果可以看到,单独使用主题作为特征的分类器Topic的表现不如基于词作为特征的分类器Word。这说明仅使用主题作为特征尽管可以降低特征维度,避免特征稀疏问题,但可能由于主题过于宽泛而影响其区分力。将词特征与主题特征结合后的分类器取得了最佳效果,较WORD提高了接近2%。

3个分类器在“旅游/摄影/美食”、“星座/时尚/语录”和“校园/教育/职场”3个类别上表现稍差,原因大致是这3个类别中的每一类实际涵盖的话题既多且杂,且存在部分账户大量的商业信息。虽然选取的构建微博训练语料的微博用户的所有微博已经倾向于归属同一个类别,但是不可避免地仍会引入一些噪声。

3.3.2用户兴趣识别效果

使用训练得到的微博分类器对测试用户的微博进行分类,通过投票策略,输出最感兴趣的3个类别作为其结果兴趣。考察了2类用户相关的微博:一是用户自己的所有微博;二是用户转发的微博。表8给出了两种情况下,用户兴趣识别的结果。从实验结果可以看出,基于微博分类的用户识别效果令人满意。使用转发微博略优于使用所有微博,可见转发微博更能体现用户兴趣。

4结束语

本文提出了基于微博分类的用户兴趣识别方法,选取典型微博账户的数据以及抽取有效特征用于训练微博分类器,通过对用户微博进行分类识别用户兴趣。实验表明,所提出的方法可对微博进行有效分类,其中结合微博局部词汇与全局主题特征的方法获得了最佳表现,F值达到86%。在此基础上,识别得到的用户兴趣与人工标注结果比较获得了满意的效果,其中对用户转发的微博进行分类,并取得了最好的性能指标。

参考文献:

[1]ZHAO WSYNE Xin, JIANG Jing, WENG Jianshu , et al. Comparing Twitter and traditional media using topic models[J]. European Colloquium on IR Research – ECIR, 2011:338-349.

[2]HONG L, DAVISON B D. Empirical study of topic modeling in Twitter[C]∥Proceedings of the SIGKDD Workshop on SMA . 2010.

[3]ABELF,GAOQI,JANG. Sematic Enrichment of Twitter Posts for User Profile Construction on the Social Web. ESWC,2011.

[4]RAMAGE D,DUMAIS S T LIEBLINGOL. Liebling. Characterizing Microblogs with Topic Models[C]∥. International Conference on Weblogs and Social Media - ICWSM, 2010.

[5]ABELF,GAO QI, JANG. Analyzing User Modeling on Twitter For Personalized News Recommendations. UMAP, 2011.

[6]ABELF,GAO QI, JANG. TUMS: Twitter-based User Modeling Service. ESWC, 2011.

[7]Matthew Michelson, Sofus A. Macskassy. Discovering users' topics of interest on twitter: a first look[C]∥. AND '10 Proceedings of the fourth workshop on Analytics for noisy unstructured text data, 2010:73-80.

[8]GENCY,SAKAMOTO Y, NICKERSON J V. Discovering Context: Classifying Tweets through a Semantic Transform based on Wikipedia. HCII, 2011.

[9]WU Wei, ZHANG Bin,OSTENDORFM. Automatic Generation of Personalized Annotation Tags for Twitter Users. ACL, 2010:689-692.

[10]LAPPAS T,PUNERA K, SARLOS T. Mining Tags Using Social Endorsement Networks. SIGIR, 2011:195-204.

[11]YAMAGUCHI Y, AMAGASA T KITAGAWA H.Tag-based User Topic Discovery Using Twitter Lists. Advances in Social Network Analysis and Mining - ASONAM, 2011.

[12]SUYKENS I A K,VANDEWALLE J. Least Squares Support Vector Machine Classifiers [J]. Neural Processing Letters, 1999, 9(3):293-300.

[13]DM B, AY N. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003.

上一篇:显著物体提取算法综述 下一篇:基于流程图编程的单片机软件系统开发