Tekstum:图书网络口碑的晴雨表

时间:2022-08-26 02:03:46

Tekstum:图书网络口碑的晴雨表

随着在线评论文本的爆发式增长,出版商已经意识到了其背后蕴藏的巨大价值。西班牙创业公司泰克斯登抓住这个契机,通过对海量在线图书评论进行实时情感分析,力图提炼出更真实、更全面、更直观的读者反馈信息,以供相关机构参考,并辅助决策。

热词:书评 在线图书评论 文本情感分析 Tekstum

当我们在互联网上谈论读书时,我们在谈论什么?不论是称赞故事精巧,还是感叹装帧精美,抑或是埋怨文笔粗糙,毫无疑问,这一切都与读者个体的主观体验紧密相关。显然,读懂这些散布在个人博客、电商平台和社交网络上的图书口碑信息,有助于出版I更好地了解自己的消费者。西班牙创业公司泰克斯登(Tekstum,www.tekstum.nom)的使命即在于此:通过对海量在线图书评论进行实时情感分析,力图提炼出更真实、更全面、更直观的读者反馈信息,以供相关机构参考,并辅助决策。

文本情感分析(Sentiment Analysis)也称意见挖掘,简言之,就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。以图书为例,通过分析在线书评的文本内容,可以发现读者对该书的褒贬态度与意见。在创始人马克・马丁内斯(Marc Martinez)看来,文学消费充斥着主观印象与情感体验,传统销售数字或许能反映出读者对一本书的预期,但并不能直接与读者阅读和购买的满意程度挂钩:“出版商还需要了解定性信息,那就是读者是否享受整个阅读过程,并挖掘出背后的原因。”

Tekstum在加泰罗尼亚语(西班牙官方语言之一)中是“文本”的意思。该公司于2014年4月成立于西班牙巴塞罗那。两名创始人马丁内斯和桑当德鲁(Marc Santandreu)此前均拥有出版业从业经验。此外,其核心团队还包括1名数据科学家、1名语言学家和1名软件开发工程师。2016年2月,经过一年多的开发,Tekstum的在线图书评论情感分析系统正式投入使用,并入围2016年伦敦书展“量子出版创新奖(Quantum Publishing Innovation Award)”决赛名单。而Tekstum的目标就是立足自然语言处理技术,搭建“大数据、人工智能、文化”三位一体的数据分析平台。

一、书评情感分析的实现过程

Tekstum以单本图书为评价对象,通过捕捉在线评论的情感信息,获得对读者态度的有效洞察。其数据分析过程呈现出三大特点:一是内容覆盖面广,评论信息并非来自于单一平台或渠道,而是跨平台抓取;二是流程自动化,借助人工智能与大数据技术,实现了评论抓取、分析和结果呈现的自动化;三是实时性强,所有数据每周更新一次,还可以按照用户要求按日更新。书评情感分析的主要操作步骤见图2。

首先是情感信息抽取,这是情感分析的基础工作。Web2.0时代,人人都可以通过互联网发表对图书、作者和出版品牌的评价与意见。这些评论主要集中于三种类型的网络空间:一是社交媒体(如Twitter、Facebook、个人博客);二是电子商务平台(如Amazon);三是读书网站(如Goodreads)。Tekstum通过对上述渠道的监测,将相关评论信息转化为结构化数据,以待进一步分析。来源平台的多样性使得Tekstum能够对图书的网络口碑进行较为全面、系统的反映。

其次是情感信息分类,这是情感分析的主体工作。Tekstum将在线评论的情感倾向归为三类:褒(Positive)、贬(Negative)、中立(Neutral)。系统关键部分是一个包含2万多词汇的领域词典,它可以识别经常用来描述图书的词语。文本情感分析在其他行业同样存在,但描述一场电影、一家餐厅和一本图书所用到的形容词很可能完全不同。因此,针对出版业建立专门的情感词典至关重要。情感信息分类并非易事,过于含蓄、先抑后扬等表达方式都会给分类任务带来巨大挑战。唯一的解决办法是不断调试算法,在实践中出真知。截至2016年6月,Tekstum累计对7000多本西班牙语图书进行了在线评论的情感分析。

最后是情感信息可视化,这是情感分析的收尾工作,同时也是与用户交互的接口。Tekstum的分析报告由人气指数、情感分析和文字云三部分组成。以科幻小说《火星救援》(The Mardan)为例(见图5,数据的采样日期截至2016年1月1日),该书于2011年由作者安迪・威尔(Andy Weir)自费发行电子书版本,并于2014年正式推出实体书。在人气指数方面,该小说当前人气较低,读者平均给分8.6分(满分10分),累计抓取到361篇相关评论。在情感分析方面,Tekstum以“绿色代表积极、橙色代表中立、红色代表消极”为原则进行可视化。在捕捉到的361篇评论、1460则推特(Twitter)消息中正面情绪和评价占到82%,表明该小说备受好评。其中,评论和推特数量都于2015年初达到峰值,显然是受到同名电影在全球热映的影响。在文字云方面,Tekstum将评论中的高频情感词汇予以突出显示。大部分读者都认为《火星救援》一书“引人入胜”“新鲜”“亲切”“可爱”,少数读者则表达了“无聊”“缓慢”“沉重”等负面阅读感受和情绪。

二、书评情感分析的应用前景

随着在线评论文本的爆发式增长,出版商已经意识到了其背后蕴藏的巨大价值。Tekstum通过收取年(月)订阅费用的形式向客户开放应用程序接口(Application Programming Interface,API),从而使自己的服务能直接被外部平台调用。目前,其用户包括出版公司、文学机构、图书馆、书店乃至普通消费者。整体而言,笔者认为基于书评的情感分析在出版业有三大应用方向。

1.读者研究,服务于选题策划和图书销售

图书评论是我们了解读者的一扇窗口。在传统售书模式下,出版商的重心主要放在吸引读者注意力上,如何卖出一本书才是最重要的,明显缺乏对后续阅读体验的关注。基于书评的情感分析则能直观反映出读者对产品的满意程度,为今后的图书策划和销售提供指导意见。通过与客观的销售数字相结合,还有助于发现在线评论情感倾向与读者购买行为之间的联系,从而加深对目标市场的理解。

2.市场预测,提高决策与竞争能力

利用大数据进行情感分析的好处在于,能够在长时间内监测图书口碑的动态变化。比起过去依靠编辑直觉进行市场决策,口碑信息的加入有助于提升决策的科学性。以图书再版为例,若图书出版多年后仍能在社文网络上拥有一定的话题度,显然增加了编辑继续推进图书再版、改版的信心。另一方面,通过与竞争对手的产品进行横向比较,也有助于发现市场的空白与新机遇。

5.图书推荐,增强图书传播效果

按照书评的情感色彩对图书进行标记,以实现更有人情味的图书推荐。传统的推荐算法只考虑用户的浏览或者购买行为,却忽视了读者的真实阅读体验。在情感信息的辅助下,图书推荐结果有可能变成“让人捧腹大笑的书”“让人心平气和的书”“让人激动不已的书”等强调主观感受的字眼。主题不同却具有相似情感体验的书籍也有可能联系到一起。

据悉,Tekstum的下一个目标是推出英文图书的评论分析系统,后续开发计划还包括法语、德语版本。用新兴技术造福文化产业,是Tekstum引以为自豪的地方。就这点而言,出版业肩负着同样的使命。

上一篇:培养具有工匠精神的学术出版编辑 下一篇:图书馆嵌入式服务的研究进展及应用

文档上传者
热门推荐 更多>
精品范文更多>