正则表达式在新浪微博言论中的应用

时间:2022-07-19 03:04:09

正则表达式在新浪微博言论中的应用

作者简介:常君(1986-),女,汉,山西省长子县,在读研究生,单位:贵州财经大学数学与统计学院统计学专业,研究方向:人口统计学。

摘 要:详细地总结了正则表达式的相关知识点,并利用正则表达式快速准确的匹配、替换等功能,完成了对新浪微博言论的初步清洗。从而提高了对新浪微博言论进行负面口碑划分的准确率,证明正则表达式在新浪微博言论中的应用大大地提高了效率。

关键词:正则表达式;新浪微博言论;元字符;匹配;替换

1.引言

依托于网络媒体产生而又迅速普及的微博是一种全新的自媒体。微博因其具有瞬时性、互动性、及时性、传播速度快等特点备受社会关注。新浪微博作为目前国内最大的微型博客网站、最主流、最具人气的微博平台,新浪微博是研究微博网络口碑的理想平台。因此本文基于新浪微博对微博言论的清洗进行研究,具有较好的普适性。

对企业而言,负面口碑对品牌转换和企业形象会产生显著影响,给用户或潜在用户带来负面的感知,不但会影响潜在用户的购买决策,甚至可能会直接导致客户流失。而对于那些没有发表个人言论,只是转发负面言论的微博,严格意义上讲,我们不能将其划分为负面口碑。因此,在对言论进行负面口碑划分之前,我们首先需要对新浪微博言论进行清洗,删除非本人的言论。本文将运用正则表达式解决上述问题。

2.关于正则表达式

2.1正则表达式的介绍

正则表达式是提供给计算机操作和检验所要抽取的字符串数据的一种强大的工具,是一串由特定意义的字符组成的字符串,它表示某种匹配的规则[1]。

正则表达式最基本的3种功能是匹配、替换和提取。匹配功能用于把设定的匹配表达式与数据文件和Web页面的表达输入等目标对象进行比较,根据比较结果,执行相应的程序[2]。替换功能用于在文档中使用匹配模式来标识特定文字,然后将其删除或进行替换。提取指的是根据模式匹配,从字符串中提取字符串。正则表达式能快速准确地处理一系列复杂字符串的查找、替换和提取等工作。因此,能够利用正则表达式快速匹配数据中的特点进行信息抽取。

2.2正则表达式中的括号

正则表达式中包含有三种括号,分别是小括号(“( )”)、中括号(“[ ]”)和大括号(“{ }”)。它们分别表示不同的含义:小括号表示字符串的分组和提取;中括号表示满足条件的其中一个字符;大括号表示匹配次数。而其中需要特殊说明的是“(?:)”只表示字符串的分组,而不能用于提取,换句话说,如果小括号中出现“?:”,那么这个小括号就只用于字符串的分组而不能进行提取。

2.3元字符

正则表达式由普通字符和元字符组成,普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。要想真正的用好正则表达式,正确的理解元字符是最重要的事情。

2.4非贪婪模式

在修饰匹配次数的特殊符号后再加上一个“?”,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的“不匹配”,这种匹配原则叫做“非贪婪”模式。

3.在新浪微博言论中的应用

在对新浪微博言论进行负面口碑划分前,需要删除微博言论中非本人的言论及@后的人名,避免无关的文本命中负面关键词导致错误的判断。

第一步 仔细观察文本特点,总结所有可能情况。这里主要有三种情况:(1)“//@某人:言论”这是需要全部删除的,因为这些都是出自别人的;(2)“@某人言论”,只需删除@及其后的人名即可,因为此处的言论是本人的,但是人名可能会命中关键词;(3)“回复@某人:言论”,只需删除@及其后的人名,因为此处的言论也是本人的。

第二步 针对以上三种情况分别编写正则表达式。

对(1)编写正则,由于以“//@”开始,到句尾结束,所以可写出其表达为:\/\/@.+MYM,“+”是因为中间的文本部分字符数量没有共性。

对(2)编写正则,由于以@开始,遇到空格结束,所以可得表达为:@[^\\s]+。

对(3)编写正则,同理开头为“回复@”,遇到“:”表示结束,所以可得正则表达:回复@[^:]+。

第三步由于三者之间是或者的关系,所以最后需用“|”将其连接起来,即:回复@[^:]+|\/\/@.+MYM|@[^\\s]+。

第四步将上一步正则表达所匹配到的字符串全部替换为空即可达到删除的目的。

4.结束语

本文详细地总结了正则表达式的相关知识点,并利用正则表达式快速准确的匹配、替换等功能,完成了对新浪微博言论的初步清洗。从而提高了对新浪微博言论进行负面口碑划分的准确率,证明正则表达式在新浪微博言论中的应用大大地提高了效率。当然,新浪微博言论中还存在其他的杂质需要进行清理,比如表情符号、短链等,所以,还需进一步的学习。(作者单位:贵州财经大学)

参考文献

[1] 沙金.精通正则表达式[M].北京:人民邮电出版社,2008

[2] Liger F,Queen C M,Wilton P.C#字符串和正则表达式参考手册[M].刘乐亭,译.北京:清华大学出版社,2003

上一篇:我国缺陷产品召回制度进一步完善的建议 下一篇:奥兰的身体艺术