浅谈基于关联规则的高校科研能力评价研究

时间:2022-08-10 07:03:31

浅谈基于关联规则的高校科研能力评价研究

摘要:科研能力是高校的核心能力,也是反映高校实力的重要指标。文章在明确高校科研能力内涵的基础上,分析高校科研能力的构成,提出了高校科研能力评价指标。采用关联规则apriori算法对30所高校的科研能力提取评价规则,结果表明,规则具有重要的参考价值。

关键词:高校;科研能力;评价;apriori算法

一、 引言

科研作为高校职能的重要组成部分,对提高科技水平、提高高等教育质量、开发高层次人才资源和促进社会经济发展具有重要意义。高校作为国家科研创新体系的重要组成部分,既是科学研究与知识创新的基地,又是科研成果产出的基地。高校科研一直是我国科研工作的重要组成部分,在国家整个科研系统及经济建设中的地位和作用日渐增长。

科研能力是高校的核心能力,其高低已成为衡量一所高校综合实力的重要指标。科研能力的高低不仅影响高校自身的发展,对高校所在地区的经济发展也有重大影响。如何准确评价高校的科研能力已成为摆在政府、企业和高校面前的一个十分重要的问题。影响科研能力的因素很多,且相互交叉、相互渗透和相互影响,无法用确定的数学模型描述。目前,高校科研能力评价方法很多,但普遍存在工作繁琐、时间滞后等缺点,且人为主观因素对评价结果有很多的影响。如何快速、准确地对众多高校的科研能力进行客观、公正地评价?这是一个目前急需解决的问题。

二、 高校科研能力评价体系的构建

高校科研能力由静态能力和动态能力合成。高校静态科研能力是高校开展科学研究活动所固有的、潜在的能力,是开展科研活动的基础,包括5个方面:科技队伍,它是构成高校科研势能的人力因素,是最积极也是最活跃的因素,由人员素质、知识结构和梯队组织结构构成;科研基地,它包括科研机构、仪器设备、建筑设施等;科技学识深度、广度及其相应的载体;科研经费,它是构成高校科研势能的财力因素;科研管理,它是保证科技活动正常顺利进行的充分条件。

高校动态科研能力是一种科技显现能力,包括6个方面:(1)信息接收加工能力。高校必须具有以最快的速度、最科学的方法在浩瀚如海的知识库中接收、分析和加工各种信息的能力,以及汲取最需要最准确的信息内容的能力,以力求掌握最前沿的科技信息和其他信息,把握科技发展的最新动向。(2)学识积累与技术储备能力,包括学习新知识新技术的能力和将新知识新技术理论化系统化重新加工的能力。(3)科技创新能力。事物的发展在于创新,科技的发展更需要创新。(4)知识释放能力。科研是复杂而繁重的脑力劳动,它具有探索性和创造性。在科研中需要深人的钻研、探索和创新,攻克理论与技术上的难关,创造出新思想、新理论、新技术、新工艺、新材料、新产品、新软件等,所有这些都存在一个知识释放的过程。(5)自适应调节能力。高校科研面向社会、面向经济建设,应与社会和经济建设紧密联系,不断根据社会的发展调整高校的知识结构、科研队伍结构以及科研主攻方向等。同时,高校内部各学科之间、各科研机构之间和管理部门之间等也存在互相适应和调节的问题。(6)科学决策能力。高校科研的各环节,从科研方向的确定、优势的发挥、特色的形成、政策的制定,到课题的选择与实施、科研人员梯队组成等无一不需要科学决策。这6方面并不相互独立,而是互相交叉、互相影响。

总之,静态科研能力是进行科研活动的基础和条件,必须通过动态科研能力来释放;动态科研能力是加工本领、实干技巧。两者相互促进,缺一不可。影响高校科研能力的因素很多,笔者仅以较为重要的11个影响因素作为评价指标:科研队伍(a)、科研基地(b)、科技学识及其相应的载体(c)、科研经费(d)、科研管理(e)、信息接收加工能力(f)、学识积累与技术储备能力(g)、科研技术创新能力(h)、知识释放能力(i)、自适应调节能力(j)、科学决策能力(k)。高校科研能力(l)用5个等级来评价:很强、较强、一般、较差和很差,分别取值5、4、3、2、1。

三、 关联规则的apriori算法

关联规则是要找出在某一时间或数据中会同时出现的东西:如果item a是某一事件的一部分,则item b也出现在该事件中的概率为x%。关联规则将特定的结论与一系列条件联系在一起。关联规则算法自动寻找那些可通过可视化技术手段找到的关联,如web节点,其优点是关联可存在于数据的任何属性中,它试图寻找出多条规则,每条规则都可得出一个相应的结论;其缺点是它试图在一个可能非常庞大的搜索空间中寻找模型,将耗费很长时间。它运用一种生成—检验的方法去寻找规则——最初生成简单的规则,并被数据集证明是有效的。好的规则被存储,所有的规则都受到不同的制约,然后被专门化。专门化是一个将条件加入规则的过程。这些新规则接着被数据证实是有效的,而后这个过程反复地存储寻找到的最佳或最有意义的规则。用户常对规则中可能的前提数目提出一些限制。基于信息论或有效索引机制基础上的各种技术,常被用于压缩存在众多规则的搜索空间。该过程生成的最佳规则由图展示出来,但这套规则不能直接用于预测,这是因为规则中有许多不同的结论。由关联算法得到的关联规则称为未精炼的模型。

设i={i1,i2,…,im}为所有项目的集合,d为事务数据库事务t是一个项目子集(t?哿i)。每一个事务具有唯一的事务标识tid。设a是一个由项目构成的集合,称为项集。事务t包含项集a,当且仅当a?哿t。最小支持度minsup即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度。最小置信度minconf即用户规定的关联规则必须满足的最小置信度,它反应了关联规则的最低可靠度。关联规则的挖掘就是在事务数据库d中找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则。如果项集的支持度超过用户给定的最小支持度阈值(minsup),就称该项集是频繁项集或大项集。关联规则有两个步骤:根据最小支持度阈值找出数据集d中所有频繁项目集;根据频繁项目集和最小置信度阈值产生所有关联规则。关联规则有多种算法。

apriori算法只可处理字符型自变量和结果变量。由于其只用字符属性,可利用智能型子集技术加快搜索速度。它提供五种选择规则的方法,使用一种复杂的指数方案以有效处理大型数据集。在执行节点前,字段类型必须充分实例化。它对可保留规则数量没有专门的限制,可处理有多达32个前提的规则。apriori算法使用层次顺序搜索的循环方法(又称作逐层搜索的迭代方法)产生频繁项集,即用频繁k-项集探索产生(k+1)-项集。首先,找出长度为1的频繁项集,记为l1,l1用于产生频繁2-项集l2的集合,而用于产生频繁3-项集l3的,如此循环下去,直到不能找到新的频繁k-项集。找每个lk需要扫描数据库一次。利用如下公式来计算所获关联规则的置信度。

论文联盟

其中,support_count(a∪b)是包含项集a∪b的交易记录数目,support_count(a)是包含项集a的交易记录数目。利用频繁项集生成规则的算法描述如下:

for all频繁k项集lk,k?叟2 do begin

h1={lk中规则的后件,该规则的后件中只有一个项目};

call ap_genrules(lk,h1);

end;

procedure ap_genrules(lk:频繁项集,hm:m个项目的后件的集合)

if(k>m+1)then begin

hm+1=apriori_gen(hm)

for all hm+1∈hm+1 do begin

conf=support(lk)/support(lk-hm+1);

if(conf?叟minconf) then

output规则lk-hm+1hm+1 with confidence=conf and support=support(lk)。

对于存在大量频繁模式、长模式或者最小支持度闭值较小时,apriori算法将面临以下不足:算法将花费较大的开销来处理数目特别巨大的候选项集;多次扫描事务数据库,需要很大的i/o负载。

四、 实证分析

数据来源于某机构对高校科研能力的调查(见表1),每个指标得分越高,说明该项科研能力越强。由表1可知,30所高校中,科研能力很强的7所,较强的6所,一般的6所,较差的5所,很差的5所。由于关联规则的apriori算法需要对字符型变量来提取规则,所以需要对原始数据离散化,离散化的标准是将得分划分为0-19;20-39;40-59;60-79;80-100五等,见表2。采用apriori算法,令最低支持度为17%,最小规则置信度为80%,最大前项数为1,得到8条关联规则,见表3。

五、 结论

由规则1可知,高校科学决策能力较差(20-39)时,该高校的科研能力很差(1);由规则2可知,高校知识释放能力较差(20-39)时,该高校的科研能力很差(1);由规则3可知,高校科研经费较少(20-39)时,该高校的科研能力很差(1);由规则4可知,高校科研队伍很强(80-90)时,该高校的科研能力很强(5);由规则5可知,高校科学决策能力较强(60-79时,该高校的科研能力一般(3);由规则6可知,高校知识释放能力较强(60-79)时,该高校的科研能力较强(4);由规则7可知,高校科研基地一般(40-59)时,该高校的科研能力较差(4);由规则8可知,高校科研队伍较差(20-39)时,该高校的科研能力很差(1)。由此可知,决定高校科研能力的重要因素是:科研队伍、科研基地、科研经费、知识释放能力和科学决策能力,各高校应努力提高这些方面的科研能力,以提高其整体科研实力。

参考文献:

1. 刘薇薇.国防工业高校科研能力趋势评价研究.价值工程,2010,(3).

2. 朱文藻.高校科研能力评价指标体系的建立及评价.安徽科技工程学院学报,2003,(9).

3. 谢邦昌.数据挖掘clementine应用实务.北京:机械工业出版社,2008.

4. 彭珍.一种新的关联规则挖掘方法.计算机工程与应用,2009,(27).

5. 史峰.matlab神经网络30个案例分析.北京:北京航空航天大学出版社,2010.

6. 刘兵,王雪莲,戴景新,孟宪春.高等学校科研能力评估方法研究.科学学与科学技术管理,2003,(12):85- 87.

7. 马凌芳.高校科研管理创新之探讨.煤炭经济研究,2003,(7):49.

8. 赵敏,马卫华.面向技术创新的高校科研管理工作探索及实践.科技进步与对策,2003,(18):89-91.

9. 金明珠,邢丹英.高校科研管理创新的认识与实践.科技与管理,2003,(4):143-144.

10. 马修水,沈徽青.普通高校科研管理值得注意的几个问题.

上一篇:会计专业《财务分析》教学参考意见 下一篇:如何做好全面预算管理与控制