互联网特殊数据挖掘系统设计研究

时间:2022-11-04 04:42:54

互联网特殊数据挖掘系统设计研究

摘要:阐述互联网自杀数据挖掘系统可以采集分析互联网上的自杀数据,可用于进行自杀流行病学调查,解释自杀行为特征,旨在为基于互联网进行自杀研究和干预提供案例参考。

关键词:互联网,数据挖掘,案例分析

自杀是世界性的公共卫生问题。每年因自杀而死亡的人数明显多于艾滋病、疟疾、乳腺癌、战争和他杀。据世界卫生组织(WHO)估计,2019年超过70万人死于自杀,占死亡总人数的1.4%,自杀未遂发生率为2.7%、自杀意念发生率为9.2%[1]。干预自杀的措施大致可分为人群干预和个体干预。人群干预主要是采取公共卫生措施减少人群的自杀和自杀死亡率,个体干预是人群干预的组成部分,强调使用临床措施(如药物和心理治疗)来干预个体自杀行为[2]。本次研究的互联网自杀数据挖掘系统可为自杀研究和干预提供新的实用工具,为如何改进现有干预方法提供有价值的信息。

1互联网自杀数据挖掘系统设计

1.1基本架构

互联网自杀数据挖掘系统的基本架构包括自杀新闻采集模块、自杀博客采集、数据过滤清洗模块、数据提取转换模块、数据分析模块、分析结果展示模块。具体见图1。系统操作流程如下:(1)在各大搜索引擎中输入关键词,收集自杀新闻和自杀博客,将收集到的文本保存在原始数据库中。然后检查原始数据库的完整性、重复性,对数据进行过滤和清洗,从而将检索到的数据存储在清洗数据库中。(2)通过模糊检测和人工验证从清洗数据库中提取和转换数据,将获取到的数据存储在提取数据库中。(3)创建模型或模型应用程序并对提取数据库中的数据进行分析,对分析数据库中获取的数据进行反复模拟计算。(3)以直方图、饼图、网络关系图、条形图、条形图等图标方式呈现数据分析结果[3]。

1.2基本功能

内容采集。(1)用户只需将网络搜索得到的网址输入到系统的新闻博客采集界面的输入栏中,系统将自动检索搜索引擎查到的所有数据条目。(2)页面上将显示收集到的新闻/博客文章总数,并提供新闻摘要。(3)提供查询详细新闻博客文本的便捷方式,自动过滤和显示缺失条目的键码,并允许用户查看、补充和编辑文本。数据过滤清洗。(1)提供重复性、相关性和完整性检测,从根本上保证了数据的质量。(2)绝大部分数据清洗/过滤操作由程序自动执行,手动操作很少。(3)可以重现数据的过滤清洗情况,以便用户可以合理组织数据清洗工作。用户会自动获得缺失新闻/博客文本的键码,提供文本定位、内容查询、编辑等功能。关联信息提取与转换功能。(1)系统可以完成数据提起,但提取的数据需用户确认。(2)系统可以生成结构化和半结构化调查问卷来保障提取信息的相关性。(3)对用户选择的信息项进行模糊查询和全文标注,可以减少手动查询全文的工作量。(4)可以列出新闻/博文全文及信息提取问卷,对于对照查找信息非常有用。结果分析展现。(1)该系统提供了更系统的自杀数据分析功能,涵盖了自杀新闻和博客文章的数量、来源、地域分布、时间、地点、方法、原因、后果和危害等信息。(2)该系统可以根据既定规则对收集的新闻/博文创建者的自杀意念进行分类,以便在虚拟网络空间中区分和定位自杀者。(3)系统可以实现自杀数据分析结果的可视化,用简洁明了的表格、图形来表示大量互联网数据的底层特征和关联。

2互联网自杀数据挖掘系统应用

利用互联网自杀数据挖掘系统,在新闻/博客采集界面输入关键词“自杀”,调整采集为2018年9月~2021年2月,在国内互联网中采集关于自杀的新闻博客,并过滤掉非文本格式的图像、视频。通过自动模糊检测和手动方式填写调查表。调查内容包括自杀的时间、地区、地点、方式、原因、类型、结果以及自杀者的年龄、性别、职业、婚姻状况、健康状况等。将检索到的数据导入到Excel中进行分析并计算相关的频率和组成比例。例如,采集到的结果显示有些人因多种原因自杀,但总体而言,四种最常见的自杀原因依次为情绪冲突(19.2%)、家庭冲突(15.3%)、畏罪自杀(13,4%)、精神疾病(10.0%)。此外,另有三分之一的自杀是由于多种原因造成的,包括身体疾病、工作压力、经济压力、醉酒、受恐吓等。如图2所示自杀事件受社会经济、生活环境、文化习俗和国家政治等社会因素的影响。因此,自杀率受社会因素变化的影响。魏娣,奚妹认为自杀是多种因素相互作用的结果,包括心理、社会、神经生物学、压力、风险、应激、自我保护等因素。这些包括风险因素,例如负面生活事件、财务问题、精神疾病、身体疾病、贫困等。国外流行病学研究表明,精神疾病是导致自杀的首要原因,但在我国,心理社会因素(如家庭矛盾、情绪问题)的作用比精神疾病更大。根据这项研究的结果,三个最常见的自杀原因是情绪问题、家庭冲突和畏罪,所有这些都是负面的生活事件。一些学者认为,许多自杀发生在严重的消极生活之后,例如人际冲突、事后故意自残的冲动行为。因此,本次借助互联网自杀数据挖掘系统基于媒体报道自杀原因研究结果就反映了这一观点,成功管理情绪和家庭关系的能力在自杀发生的过程中起着重要作用,为利用网络预防自杀的重点人群指明方向。此外,网络上报道的近三分之一的人自杀是因为自己的评价不高、家庭管束过度、模仿、愤怒、羞辱等,这种类型自杀人群往往是还没有进入社会,心智不够成熟的年轻人或农村地区受教育程度较低的妇女。国外研究证实,冲动是导致自杀行为的独立危险因素。国内学者研究提出,冲动的人在遇到突发的负面生活事件时,通常会做出无计划的反应。识字率低的青少年和女性本身就是冲动的,当他们遇到突发的负面生活事件时缺乏足够的应对能力,为了逃避现实容易选择自杀方式。

3结语

本次研究的互联网自杀数据挖掘系统是一个简单的辅助工具,可以辅助人们进行自杀数据分析,根据实际需要可以添加各种功能和应用程序。例如,链接集成系统允许用户跟踪自杀新闻和博客文章的传播,并通过互联网更好地传播有关自杀预防的信息。互联网自杀数据挖掘系统还可以帮助用户高效地从大规模网络信息中过滤、清洗、提取、分析与自杀相关的信息。随着互联网的普及,该系统可以提供一些关于自杀现象流行、趋势和因果关系的分析,并提供有价值的信息来预防和控制这种危及生命和健康的行为。但是,该系统的开发不可避免地存在一些缺陷,需要在已开展工作的基础上,不断修改完善该系统,以更好地发挥系统的作用。

参考文献

[1]魏娣,奚妹.自杀原因及心理护理[C].世界灾害护理大会,中华护理学会;世界灾害护理学会,2014.

[2]陆建兰.广西大学生自杀态度与自我意识自我和谐的关系[J].中国学校卫生,2018,39(06):900-902.

[3]乔法光,陶传谱,杨柳.论大学生自杀预防和心理预防干预体系的构建[J].社科纵横(新理论版),2012,27(01):97-99.

作者:傅芃瑞 薛子钰 单位:西安高新第一中学 康奈尔大学

上一篇:计算机技术在机械控制系统的应用 下一篇:财政预算绩效评价工作的建议