信息很热,数据很忙

时间:2022-03-02 10:44:10

信息很热,数据很忙

栏目寄语:新技术进入教育领域,加快了教育改革的步伐,新与旧的碰撞、前卫与传统的冲突引发了强烈的社会舆论,而身为教育者则需用更为理性、通透的眼光去审视现象的背后。本栏目将聚合你我他的观点,以开阔读者的思路,共同促进教育大发展。

主持人语:信息聚集了大量的“热”,在极短的时间内,迅速膨胀,在“爆炸”的一瞬间,竟没能发出任何声响,而它带给人们的震撼,却直接反应到人们对“数据过剩”的巨大压力上。原本小小的数据,随之变得很忙,它们聚合起来,最终变得无比巨大。

大数据到底有多大?据统计,在全球范围内,一天之中,约有2940亿封电子邮件发出,如果这些是实体的信件,在美国需要花费2年的时间来处理;每天会有200万篇博客文章在网上,相当于美国《时代》杂志刊发770年的总量;每天有两亿五千张照片上传至Facebook,如果把它们都印出来,摞在一起能有80个埃菲尔铁塔那么高;每天有86.4万小时的视频会被上传至YouTube,这相当于不间断播放视频98年……当然,如果你觉得这些数字还不能说明今天数据量之大,那么在不久的将来(2020年),全世界所产生的数据规模将达到今天的44倍。

然而,人们今天所关注的仅仅是数据之大吗?我们看到,有很多企业纷纷通过对消费者的行为数据进行处理和甄别,打造他们的营销神话;政府在利用数据维护国家安全;医学界在用数据对病人病情进行密切的监控……人们关注数据背后可挖掘的价值与规律,从而改善人类的生活。可见,今天的数据真的很忙。那么,大数据能为我们的教育带来怎样的影响呢?本期请来嘉宾,与我们共享他们的心得。

参与嘉宾

郭影强 广东省惠州市惠阳区惠阳一中实验学校

陈鸥辉 湖南省株洲市第二中学

陈杰 安徽省淮南一中网络中心

特邀嘉宾:王震一 (QQ名:丁酉科人,博客地址:http://.cn/u/1605586150)

我理解大数据有两层意思:一是数量上的大,起码是T级别的吧;二是分析、建模和挖掘,挖掘出我们需要的信息。

大数据的两层意思

主持人:感谢几位嘉宾老师的参与。数据之大,亘古至今。数据之小,粒粒见心。今天要谈的这个“大数据”是近两年来一个比较热的词,社会各界,尤其是企业对它探讨很多,一些人称其为一个时代的来临。网上就有人问了,俗话说,“天上一日,地上一年”,那么这个互联网的一天,地上多少年呢?就有人统计,得到了引言中列举的这一系列数据,直观地让人觉得,我们每天产生的数据是越来越多了。

陈杰:关于数据到底有多大,Facebook曾经做过一个调查:每天Facebook上得处理多少数据呢?25亿,Facebook上分享的内容条数,27亿。“赞”的数量,3亿。上传照片,500TB(1TB=1024GB),新产生的数据105TB,每半小时通过Hive扫描的数据100PB(1PB=1024TB)……

王震一:我这里也有一组数据:假如你使用google搜索一下“大数据”,它会很快找到36.700.000条相关信息。搜索“big data”会显示有628.000.000条。在亚马逊书店有103种大数据的书在卖。要是你查一查IT方面的杂志,大数据的文章之多,用连篇累牍来形容一点也不为过。可见,大数据炙手可热。

简单的说就是非常非常大的一个个0101数字。这些数字是由人们的各种行为包括科学试验、生产记录、报表统计、逛街购物、读书写字以至于人们的生活的细枝末节和音频的、视频的资料等通过信息技术转化而来。通过分析、挖掘揭示事物的现状、做出应对的决策和预测未来的走向。大数据正向社会的纵深渗透。工商企业在用、科技研发在用、金融外贸在用、公共管理在用、连奥巴马的总统竞选也用上了大数据。近日腾讯、华为、华大基因、宇龙、金蝶、深圳清华大学研究院、中科院深圳先进技术研究院、深圳市南山科技事务所等16个单位发起的深圳大数据产学联盟宣告成立。抢抓大数据时代的机遇已被提上日程,协作共赢的探索也已展开。大数据可谓无所不在、触目皆是。

主持人:谈到数据之大,老师们都开始用数据说话了,但是我觉得,今天所说的大数据应该是有两层意思,就像刚才王老师已经提到的,它不单是指数据有多大。网上有这样一个帖子:《八部电影帮你看懂大数据》(http:///archives/2256),它站在企业的角度,以生动的电影内容作为叙事的背景,让大家理解大数据的概念,其中一个我觉得描述得很有意思:

《泰坦尼克号》(Titanic)

没有对隐藏的未知因素进行建模和分析就做出的决策将可能是灾难性的。大数据给你看得见的信息,同时还能从数据中发现你看不见的东西。分析海量数据之间的“模式”、“关联”……你会发现很多水面下的信息内幕。例如,汽车颜色与保险费用之间的关系。大数据时代之前,大多数的企业管理都盲人骑瞎马,或者像泰坦尼克号那样黑夜中在冰山中穿行。

王震一:我理解大数据有两层意思:一是数量上的大,起码是T级别的吧;二是分析、建模和挖掘,挖掘出我们需要的信息。

主持人:是的,如果用这个例子来分析,您刚才用数据说话,来证明人们对大数据的关注程度,这些都是大数据给我们看得见的信息,那么从数据之大中,我们可能还未发掘的是什么呢?这就让我直接想到了“小数据”,假如把一些不起眼的小数据汇集起来,进行分析和挖掘,我们就能够改善很多事情,如教育这件事情。

收集数据,挖掘建模

陈杰:站在教育者的角度来看,我们也面临这样的问题,作为学校的信息管理部门,我们网站的信息数据,学生学籍信息数据,学生每次考试的数据,学生体质达标的数据……可以说是扑面而来,但问题是基本上用过就废,而对于数据的挖掘,如果说有的话,我想也是一种线性的。

王震一:如果只把学籍、考试分数……作为数据的话,那肯定是线性的。

郭影强:这些数据应该是基于传统教育教学管理模式的。我们现在所说的数据,之所以应该被采集与分析,一般是基于教育与教学需要的目的。

王震一:所以说,教育大数据的现状是流失。其实,教师和学生的所有的教育行为数据都可能构成大数据。但我还没发现哪个学校在采集这些数据。更不要说什么建模和挖掘了。最要紧的就是现在就开始从学生和教师的教育行为中,随时采集数据,有了这个基础才能继续研究下去。

主持人:可是我们知道,学生和教师每天的教育行为有很多,能否有效地被转换成数据,这个一会儿来说。问题是哪些我们挖掘出来才能有用,我们怎么去判定?

陈杰:我认为,教育大数据的挖掘应该是多维的。

郭影强:这个维度如何定的?学校里信息空间的维度,如何寻找与发现,以及确定?

陈杰:多维度的表现很具体,首先它有传统线性的表达方式,如一个收视率调查,通过六百个视频应用,一共两亿用户的使用,客户得到一个结果:早上他们不看韩剧!接着展开一个维度,看韩剧的有89.64%的用户使用的是三星手机,有2%在微博上是互粉关系……这样各种维度展开的每一个形体,都可以在客户需要的时候立刻出现,并构建需求的内在逻辑。

转换到我们的教育行业,学生对于网上资料的获取,他的下载行为、习惯、学习方式、时间……张开成另外一个或者几个逻辑体系。搭建有自学习能力的动态自洽系统,做到数据和需求之间的精准、智能匹配,才能让学习网站资料提供方变身成为受众的个性化信息。而不是一股脑地狂轰滥炸式的宣传广告。说白了就是,工厂流水线生产和个人智能化量身定做的差别。

主持人:那这些数据从何而来呢?我们总不能每天派一个听课老师,然后按照某种数据挖掘的维度,拿着小本本去记录吧。而且就算用这个笨方法做了,有很多东西还是看不见的,如老师备课的时候,看了哪些内容,每名学生在自学的时候,搜索了哪些资料?我想说在没有信息技术为前提的课堂下,这种数据的挖掘还是无法实现的。

王震一:一个比较理想化的方式,就是把师生的上网终端作为信息出入口。从每天教育生活开始就进行数据采集,这样数据的维度只要想一想就够多的了。而且现在很多学校是人手一台Pad或者电子书包。

郭影强:我的理解,您指的是学生在学习时产生的上网数据、老师工作时的上网数据。

王震一:对,我是这个意思。至于有了这些数据怎么处理,是下一步研究的问题。没有数据何谈数据挖掘?

郭影强:我理解,我们现在谈的大数据,首先它是一个派生物。它本来是人们在网络上的自然行为的产物。比如,把照片上传到网上(基于存储、分享、研究等活动目的的技术)这样一种行为,每个行为都有其目的,但是因此而产生了一个巨大的图片库。然后,在这个大的数据产生之后,面对海量的资源,我们还能有其他用处。但这时候问题就来了,我们拿它们做什么?也就是说,对大数据的处理能力的需求就显现出来了。这也就联系到开始时,王老师提到的建模与挖掘吧。互联网已经发展到非常庞大的规模,这时候产生的数据肯定越来越多。但那些巨量的数据对于个人的微观角度来说意义是什么呢?

主持人:郭老师这个问题提得好,在改善人类生活方面,更需要我们关注,以下这个例子挺能说明问题:

“魔毯”病人的监控

“魔毯”是GE和Intel联合开发的一个项目,其原型使用家中地毯内装的传感器感应缺乏人照料的老人下床和行走的速度和压力,一旦这些数据发生异常则对老人的亲人发送一个警报。虽然内置传感器装置对大多数人来讲依然昂贵,但Smolan称由于这些对自身数据量化的小工具越来越受到欢迎,用户可以清楚了解和改变他们的行为,改善他们的健康状况。

所以说,个人既是受益者,也可以是参与者。

大数据有大作用

王震一:很简单的一个效仿,像淘宝网推送商品、google推送广告一样。教育有了大数据,一样可以根据每个学生的需要,为他们推送教育资源。教育大数据挖掘的是学生的禀赋、情趣、特长、能力。知道了这些。考试就有希望终结。这可是一直困扰教育的麻烦。我觉得大数据可能颠覆传统教育的教科书、课堂教学和考试制度。

郭影强:为什么呢?

王震一:为什么大数据可能颠覆传统教育。我不能用一两句话讲清。有了大数据,就有了机器学习,在云里可以根据对学生的认识,为他们推送教育资源。只要教师引导得力,就可以摆脱教科书的局限。每个学生都根据自己的情况定制学习,也就无法进行同样的考试。通过数据挖掘学生的表现,比考试要来得全面、深刻。

郭影强:其实我们对于技术不用太过乐观。麦克卢汉有个著名的论题,媒介即控制。“我们对技术的欢呼,很多时候是来自它可以帮助我们实现更强大的控制。不过在乐观主义看来,技术可以为我们很多好的创意或需求服务。”服务与控制的区别在哪里?就在于这个主导权,个人在技术系统面前,还有没有足够的自主性。面对互联网这样一个大系统,面对大数据,要有效利用,一定要有王老师所讲的建模。通俗点说,首先得设计一个活动。进一步来说,需要一个新的活动框架。

王震一:有人说,“自由是对客观的理解”,我们的一举一动都被记录,形成大数据。大数据帮助我们决策。但不等于我们受制于大数据,因为最后的决策权还在于人。如果要设计一个活动,首先得解决数据的采集和存储问题,然后才谈得到建模挖掘等。您说对吗?希望那些使用上网终端设备进行教育的学校,能够参与进来。

郭影强:现在来说,解决问题的技术手段基本上都具备的。我还是觉得,首先得解决我们要做什么,然后才有技术系统的设计与实现。

王震一:教育行为数据是师生们的教育活动记录的数据化。有结构性数据,非结构性数据,包括音视频,甚至鼠标点击和停留时间的信息流。而且对描述性文档的挖掘也需要一套关键词设置的办法,所以技术上还有些问题没解决。这些没解决的问题有待于大数据的存储的完成。下面是涂子沛老师提到的观点:

“师生可以随时对话,计算机能够记录你在一张幻灯片上停留的时间,判别你在答错一道题之后有没有回头复习,统计你在网上提问的次数、参与讨论的多少,然后在这个基础上,对你的学习行为进行诱导和评价。”——涂子沛《教育领域正在发生的革命》

“通过记录鼠标的点击,可以研究学习者的活动轨迹,发现不同的人对不同的知识点有何不同的反应,用了多少时间,哪些知识点需要重复或强调,哪种陈述方式或学习工具最有效。记录单个个体行为的数据似乎是杂乱无章的,但当数据累积到一定程度时,群体的行为就会在数据上呈现一种秩序和规律。通过分析这种秩序和规律,未来的在线学习平台才能弥补没有老师面对面交流指导的不足。”——涂子沛《在线教育平台,再谈教育领域正在发生的革命》

陈杰:看到这里,我想把我在工作过程中的一些数据采集给晒下。上期中提到的信息技术管理平台,可以将课堂测验的数据记录下来,学生的正确率,每个选项选择人数都会有统计,虽然是这样,但是我觉得这种数据统计还只能算是线性的,我们能看到的是学生对于某些知识点的掌握程度。同时这个平台也记录了教师备课的情况,可以对其进行过程性评价,还有对于作品的评价。

主持人:您这个平台能够记录一些数据,但其实所需的基础环境还是机房。

陈杰:目前是这样,当初想做个平板实验班,但是因为各方面原因没能做成,关键是目前的终端问题,在一对一数字化教学环境,这个平台是可以用到各个学科中的,记录数据也方便,主持人,你怎么看?

主持人:这个,可以有。我看没用,关键得看校长怎么看。

陈杰:其实基于此平台的数据收集工作,我们一直在做,但是就目前的情况看,这些数据应该来说是线性的、孤立的、割裂的。如果真正要实现所谓的大数据分析与挖掘,是要建立一个数据模型。而此模型的建立不单单是靠几个信息技术老师能做好的,我们顶多只能说是一种尝试,或者说是一种推测。

郭影强:这正是我的担心。一个模型的创立,需要各方参与。而在当下,一般是由专家制定。专家制定的方案一般以教育学和心理学以及学科知识为基础,另外则是由教育行政管理部门进行绩效考核,这两方面会有冲突。

陈杰:我也看过类似的案例,通过学生的学习情况分析出该学生的性格、体态等特征,表面上看上去风马牛不相及的。例如,商业上“啤酒与尿布”的经典案例,在没有数据收集与分析挖掘之前,谁能够想到,购买尿布的人还会随手购买一些啤酒?实际上大数据时代,人类所有无意识的生产和消费行为都是以生产数据为底色的,也都是可以被挖掘、化验、分析、解读的。那么放到教育行业是否也成立呢?如果说教育行业要发现学生的学习需求的话,我们需要设计怎么样的模型来挖掘学生需求。

郭影强:假设一下,这个模型需要分几个层次,首先是课程目标,它就是一个模型。其次是单元学习目标和篇章学习目标,教师在这个基础上制定节次学习目标,针对目标进行学习过程设计,为达到这一目标与设计所需要进行的评价。就完成了整个模型的设计。那么就又分封闭式与半开放式,直到开放式的教学设计。有很多教学模式可以进行参考。

陈鸥辉:从为学生提供学习资源的角度我可以理解,在设想上,已经将学生设想成理想的“等待被喂饱的机器”。

王震一:所谓导学就是引导学生面对有兴趣“吃”的信息并让他们可以挑着吃。教师的工作主要是让学生有兴趣。

郭影强:主持人能否把你手里的案例拿出来我们看一下?

陈鸥辉:什么案例?我现在教室上自习,孩子们在看科普电影。网络里海量的视频缓解了我守自习的压力!

主持人:信息技术的“福音”啊。上次说我看到一些应用大数据的国外学校的案例。在西方,现在流行一种“自适应学习”的教学模式。他们基于翻转课堂,由专门的教育机构或企业来收集和挖掘学生在翻转课堂中自学的数据,从而为每一名学生提供不一一样的课程安排和学习内容。

纽约市教育部门的一项初中数学教改项目School of One采用了一项最新的技术,能自动为每位学生提供个人学习计划。在2009年《时代》杂志评选的50项最佳发明中,该项目是获此殊荣的唯一一项教育创新。

王震一:学生自己挖掘数据,可以认识自己,策划未来。学校挖掘,可以有效地评价学生,检查教育绩效。专业人员挖掘,首先需要找到合适的事业伙伴。我看过涂子沛先生的《大数据:正在到来的数据革命》和一个视频。写过一组“用大数据诠释信息化教育”的博客,内容就是读那本书的笔记。有兴趣的老师可以去丁酉科人博客看看。

辩证来看大数据

主持人:引用涂老师博客中的话,“目前教育变革的讨论,过于集中在在线教育(远程、平板、电子、数字),这正像任何一个科技让人们最先想到的都是偷懒的哲学:自动化时代最先想到的是卓别林演的自动吃饭机,多媒体时代人们最先想到的是游戏。在线教育本身很难改变学习,在这场教育革命的浪潮中,由在线教育引发的教育由数字支撑到数据支撑变化(教育环境,实验场景,时空变化,学习变化,教育管理变化)等,却是很多人没有在意的巨大金矿。

王震一:没错,大数据其实是在上一个时代就已经存在的“金矿”,但是那个时候很少有人去“淘金”。而且由数字教育到数据教育,应该是一个大的跨越。

主持人:

《淘金记》

你也许不止一次在讨论会上听说:数据将是未来世界经济的“原油”。大数据是个大金矿,但是对于大多数企业来说,通往大数据致富的道路铺满荆棘而不是鲜花。最大的障碍不是技术,而是来自企业向数据驱动型企业文化的痛苦转型,其艰难程度堪比卓别林在阿拉斯加啃鞋底。

其实放在教育领域也是这样的,这个大的跨越可能还需要某种文化或者体制的转型,某种课堂教学模式的转型。大数据开始关注到每一个学习者,从本质上讲,这种转型,我想应该也是教育理念的改变。

陈鸥辉:大数据时代,目前我的感受就是为我们在获取数据、分析数据上似乎减轻了负担,同时为学生提供更个性化的教学做了很好的设想,但感觉仍然没有科学的验证,证明这个学生的心智水平提高了。

陈杰:验证提高,也是要通过数据证明,我觉得可能更有说服力。

郭影强:提高学生的心智水平,当然是通过学习过程和结果的评价来发现的。这个跟传统没有区别。区别之处只在于,评价所需要的材料更翔实,更丰富了。数据只是测量的结果,如何设计这个测量方案,是关键。

陈鸥辉:在这个模型的设计中,假定了外界刺激对学生心智影响起决定性作用。如果外界资源在学生心智发展中并没有我们想象的影响力,我们是否将大数据时代设想得过于美好?

郭影强:如果大数据采集成为可能,那么采集怎样的数据?为什么采集这样的数据,采集之后又如何使用,这个是首先要解决的问题。所以,模型的设计是要经过验证与改进的,不是一下子就出来的。这就回到课程本身了。

陈鸥辉:从心理学上来说,学生的心智发展是否有一定的规律?蒙台梭利通过实验,在幼儿时期确实能够提高孩子的心智发展水平,正是基于这些类似的实验,很多人开始崇尚孩子的婴儿期教育,所以有些超智力的天才儿童不断诞生,但后期跟踪,却同时爆料这样那样的问题,从而导致很多人开始怀疑对孩子心智的过度开发是否合理。

我之所以说这些,只是有些怀疑大数据时代,是否有些人怀有过度的美好想象,大数据时代是一个社会发展所经历的必然过程,它的存在有它本身不可否认的优势,但是否应该更客观公正地去评价它,而不是一味吹捧它,不要让它成为信息技术整合时代之后的又一个泡沫神话?

陈杰:我们没有吹捧它的意思。我们只是对目前大数据出现的现象在进行研讨,能否用在教育,怎么样在教育中实施,可能会有什么影响。

郭影强:《信息崇拜》里,作者对当时信息浪潮之下的各种欢呼进行了批判,指出几点。比如,“数与量的过度想象”,西蒙1960年提出的,十年之内电脑智能就将超过人类智能。结果直到1990年代,才第一次出现深蓝战胜俄罗斯国际象棋大师的案例。还有很多人欢呼,教育将得到根本性变革,这个更是“破产”得厉害。同时,这些浪潮的推动中,其实有相当多的元素,是相关的商家在推销产品。

我觉得这与当下对大数据的欢呼有一定的相似性。最重要的一点,我们当下对大数据的利用,是商家因谋利目的而进行的有效开发。在教育领域,没有这么大的动力,所以其开发机制远不如商业领域。

不难理解,商家的欢呼是有道理的。因为他们要营造氛围,激发起人们的想象和购买热情。当淘宝与当当等电商网站,搜集用户浏览的每一个页面,每一次点击,挖掘其关联性的时候。他们都有一个明确的目标:发现兴趣,推荐相似产品。当他们设计评论等互动环节,目标也很明确,就是利用用户的评价来建立自己的信用。还通过收藏等环节,增加用户黏性。

当然,在这个过程中,确实也为用户提供了服务,一定程度上达到了共享信息,各取所需。然而在教育领域,我们的教学模式远未改变,教学理念尚属落后。

陈鸥辉:所以说,想象很丰满,现实很骨感。

王震一:但是我认为,如果一切还原样不动,那还叫什么教育革命?北师大的余胜泉老师说:“技术的革新必然会对教育模式、教育核心、教育方法、体系都发生颠覆性的改变,只有这样才能促使教育全面的发展”。我们需要辩证地看待问题,但不代表我们惧怕改变。我的意见是,在没有领略到大数据在教育中的优势之前,就担心各种问题而拒绝使用,岂不是因噎废食?需要有人来尝试建模,需要有人开始收集师生教学活动的数据,在实践过程中摸索恰当的解决方案,影响我们的教育。

教育大数据的现状是流失。其实,教师和学生的所有的教育行为数据都可能构成大数据。但我还没发现哪个学校在采集这些数据。更不要说什么建模和挖掘了。最要紧的就是现在就开始从学生和教师的教育行为中,随时采集数据,有了这个基础才能继续研究下去。

在这大的数据产生之后,面对海量的资源,我们还能从中挖掘数据的其他用处。但这时候问题就来了,我们拿它们做什么?也就是说,对大数据的处理能力的需求就显现出来了。

大数据时代是一个社会发展所经历的必然过程,它的存在有它本身不可否认的优势,但是否应该更客观公正地去评价它,而不是一味吹捧它,不要让它成为信息技术整合时代之后的又一个泡沫神话?

上一篇:浅析信息技术课堂多元化评价方式 下一篇:为课堂教学改革插上“云翅膀”