年中总结串词范文

时间:2023-10-06 19:14:49

年中总结串词

年中总结串词篇1

关键词:词串教学 阅读 小学

中图分类号:G623.2 文献标识码:A 文章编号:1004-6097(2013)10-0052-02

作者简介:唐春艳(1979―),女,瑶族,广西富川人,研究生学历,小学高级教师,广西贺州市富川县第三小学语文教师。研究方向:小学语文教学。

说到词串,我们能够自然地联想到低年级学生利用词串识字的情景,即将原本孤立的词语,通过创设一定的语言环境,将各个单独的词语串联起来,能够表现某个特定的画面、意境等,让学生借助这些词串以阅读散文的形式来学习,借助韵文的形式和韵文的情境来识字。笔者为了让阅读课堂教学更有活力,便在低年级识字的基础上严格依据教材的特点,不断进行拓展和延伸。

一、抓住词串,把握文章要领

在文本阅读中,我们发现有的词串能够将整篇文章的意思概括在内,是整篇文章的“纲”和“领”。在教学过程中,笔者让学生在文本阅读的过程中抓住关键词,然后再理解每一个词在具体的语言环境中所表达的意思,同时在串词的过程中,还帮助学生理清文章的脉络。

教学《开天辟地》这篇课文时,当学生初读课文之后,笔者便出示下列一组词串:开天辟地和与日俱增、昏天黑地和大刀阔斧、顶天立地和变化多端、混沌不分。这时,笔者让学生大声朗读,然后再问大家通过读这组词语发现了什么?学生有的说这几个词语都带有天地;有的说这些成语都和开天辟地有关。这组词串本来是课后“读读背背”的内容,正是因为这些词语与故事情节的发展相吻合,又能够概括这篇课文的主要内容,笔者便巧妙地将其应用在这里。然后笔者再让学生根据这些词语将整篇文章分段,在这个过程中,学生能够清晰地将整篇文章的脉络层次理清,同时也能够更好地理解成语的意思。之后笔者要求学生用这些词语简要说明一下课文主要讲了一件什么事情?学生回答:在很久很久之前,天地之间混沌不分,而且一片黑暗,于是便大刀阔斧将天地劈开,但是为了不让天地重新合拢,便用身体顶天立地,这时他的身体也与日俱增,最后也筋疲力尽,从此倒下了。正是由于意识到了这组词串和故事情节发展的吻合,笔者才利用这样的方法,促使学生更加深入地理解了教材。

二、品读词串,营造诗画意境

所谓意境,便是作品中所描述的形象和表现的思想感情巧妙地融合在一起而形成的一种艺术境界。在语文教学过程中,老师可以通过创设适宜的教学意境,然后再利用词串引导学生展开想象,从而激发学生的审美情思。在学习过程中,笔者通过让学生品读感悟,引导其欣赏文字所蕴含的浓浓的诗意美。比如:在学习《二泉映月》这篇文章时,老师只需要抓住课文中描写二泉月夜的词语,然后不断朗读,便能让这些词语描绘的诗情画意展现在学生面前。教师通过创设出优美而深邃的意境,可以让学生进一步领悟《二泉映月》的创作历程。

三、紧扣词串,层层展开教学

老师让学生提炼出来的词语是与课文中的某一部分内容具有一定关联的,因此,这样的内容便能与课文中的内容形成一种统一的情境。在学习的过程中,词串可以作为教学的一条主线,贯穿整个教学环节,反复使用词串,便有利于提高教学质量。

如《望月》主要描写的是清丽的月光洒在平静的江面上的幽静场景。教师先让学生阅读课文,再让学生画出文章描写景象的词语。当学生读完之后,老师看看学生画出的词语,再将自己备课的词语展示出来:“安详、吐洒、清辉、晶莹、闪烁、跳动、剪影、隐约、花边。”老师让学生对照一下自己画的词语,并提问:同学们,这些词语分别描写了什么呢?学生回答:“这些词语分别描写的是月光、江边两岸的景色”。老师说:“很对,这篇课文就是先描写江面的景色,再描写江边两岸的景色。”通过这样的学习过程,再让学生将这些词语放入到课文中进行朗读,感受文中所描绘的意境,从而增加学生的阅读兴趣。在这个过程中,老师通过词串让学生能够更好地掌握文章每一部分所描写的内容,然后再进行深入学习,从而提高语文阅读教学的质量.

四、巧用词串,构建多元的立体教学模式

在教学过程中不断进行朗读训练,有内容、有意识地培养学生进行感情朗读,便能加强对学生的情感熏陶。在教学过程中,词串有利于促进学生对生字的学习,为学生在学习的过程中提供一个生动有趣的语言环境。教学中,教师要善于将这些词串巧妙地结合在一起,让他们能够相辅相成,从而促进学生语文学习能力的提高。老师在进行教学时,可以让学生在读书的过程中先将每一个字音都读准确、读通顺,然后再让学生进行朗读,最后再采用个人展示朗读、小组轮读等形式组织学生朗读。运用这种方式的主要目的是增强学生的学习技能,一次不熟悉,第二次总能够熟悉。因此,通过巩固记忆的办法能让学生认识更多的生字。这种教学方法是根据小学生认字的实际情况设计的,是将读文和识字不断整合的结果。

读书的同时学生也在识字,由于学生已经把生字在文章中标出,学生将词串读一次,同时也在不断强化记忆,从而可以将单个词从词串中挑选出来并加强记忆,再将生词从字中挑选出来单独记忆,测试识字的效果。感情朗读是词串教学的主要方式,教学时可以在学生熟练朗读的基础上指导学生将词串所包含的意思表达出来,感受其人文精神,从而充实自己的情感。

一年级《识字5》主要描写的是海滨的美丽景色。在教学过程中,笔者首先引导学生认真地观察课文中的插图,欣赏晚霞映照的大海、宁静的港湾、归航的渔船、飞翔的海鸥、追逐的浪花和沙滩上光着脚丫拾贝壳的孩子,再通过读文、看图进行联想,感受大海的美丽。在这个基础上,笔者不断指导学生进行有感情的朗读,让学生在朗读的过程中能够理解课文的含义,积累语言。朗读词串的过程不仅可以提高学生学习的效率,而且也有利于为教师教学提供创造性的空间。因此,我们要不断通过领会教材编排者的意图,充分发掘教材的多重功能,然后再进行科学整合,以此提高学生的语文能力。

五、总结

教学是一门艺术,词串就是一首欢快轻盈的乐曲,能够让教学充满活力,从而增强学生的学习兴趣。结合词串开展阅读教学,能够让学生更加清晰地掌握整篇文章的脉络,让他们感受到语言文字的无穷魅力。总之,词串教学在阅读教学中占有非常重要的地位,因此,教师必须有目的地进行教学,循序渐进,这样才能让词串教学灵动起来,使阅读教学更加生动、活泼、有效。

参考文献:

[1]孙晓军.低年级识字课课堂教学模式初探[J].天津市教科院学报,1998,(3).

[2]方琴.有感于一堂识字课[J].新作文(教育教学研究),2010,(14).

年中总结串词篇2

虎振雄风存浩气,

兔迎新年送春来。

金钟朗朗,这是新年动人的旋律,

阳光灿烂,那是新年绚丽的色彩。

在过去的一年里,我们在学校领导的正确领导下与时俱进、开拓创新,在各项工作中取得了辉煌的成绩,优质化学校创建风生水起,精细化管理续写新篇。在这辞旧迎新的时刻,让我们尽情欢笑,引吭高歌,唱出我们明天的憧憬,唱出我们心中的欢乐。淄博十八中教职工元旦联欢晚会——现在开始。

1.《万事如意》串词

三百六十五个夜晚,最甜最美的是新年。风里飘着香雪里裹着蜜,春联写满的是开门吉祥,

酒杯盛满的是万事如意。请欣赏苑园老师带来的民歌——《万事如意》

2.《三句半》串词

我们心中的十八中,永远这么年轻,永远散发着活力,老教师宝刀不老,新教师初生牛犊,三尺讲台辛勤耕耘,运动场上生龙活虎。学校领导高屋建瓴,游刃有余,全体教工脚踏实地,无怨无悔。在这辞旧迎新之际,怎能不说说我们学校的那些事?请欣赏由王文柠、王春粟、练艺坛、张联泉老师自编自演的《三句半》

3.男生小合唱《相信自己》串词

最近几年有好多年轻教师加入到我们的行列,他们的到来,为我们这个团体输入了新鲜血液,注入了青春的活力。他们不但有高超的专业技能,也有过硬的心理素质,面前不论是荣誉还是挫折,他们都能够昂首挺胸,永远相信自己。请欣赏国伟、韦其生、 三位老师给我们带来的男生小合唱《相信自己》

4.萨克斯独奏串词

人说十八中人杰地灵,我说十八中卧虎藏龙,唐建勇老师一曲萨克斯唱出了淄博,唱出了山东,一直唱到了CCTV《神州大舞台》,请欣赏唐建勇老师给我们献上的萨克斯独奏《我心永恒》,第二曲,《月亮代表我的心》,掌声有请唐老师!

5.工作生活,日常作息,我们的屁股免不了跟板凳亲密接触,抢板凳也就成了孩子们乐此不彼的游戏,就让我们一起用这个游戏来再现我们的天真无邪,重温与童年玩伴竞争的快乐。

6.《我们的爱》串词

人生不会尽是阳光灿烂,生活不会总是一帆风顺,但是在困惑孤独的时候,有我们的团队,有我们的兄弟姐妹,再大的风雨我们也会手拉手,我们的爱永远陪伴你左右。请欣赏刘蕊老师给我们送上的女声独唱:《我们的爱》

7.相声《像个朋友》串词

有些事情,不用分得那么清楚,有些事情,不用在意是无是有,有些故事,老少皆宜,不用分什么八零后九零后。比如爱情,亦庄亦谐,也能衍生出许多网络流行语。

请欣赏胡明熙、刘瀛老师给我们带来的相声《像个朋友》,有请二位。

8.《在我生命中的每一天》串词

我们为什么能够走到一起,有人说,是缘分,有人能说,是责任。不管是缘份还是责任,既然我们能够在一起,就让我们把生命中最闪亮的一段彼此分享,让我们用生命中最嘹亮的歌声彼此陪伴。请欣赏男女对唱——《在我生命中的每一天》,演唱者:张彩宁,练艺坛。

9.游戏——你比划我猜串词

默契是一种感应,是两个生命互相撞击时闪烁出的瑰丽火花,是自然界中的美丽神奇。默契是内心深处一种最好的约定,不必用言语传递就能够表达心迹,不需要用心来指引也能够相互会意。朋友之间的默契展示了外在和内心的会意,是对人类美好情感的一种诠释。

下面让我们一起来做游戏——你比划我猜,看看哪一对最默契。

总结游戏,宣布踩气球游戏结果。

10.——《吉他曲》串词

一曲吉他,翻开了青春燃烧的大学生活,一曲吉他,搅动起懵懂生涩的初恋情怀。请欣赏深藏不露的吉他王子吴明刚老师给我们带来的吉他曲——《吉他曲》串词

11.女生小合唱,《樱花草》串词

在每个幻想成为公主的女孩的心中,都有一株樱花草,那是能让人得到幸福的美丽之花,每个少女心中的王子都会托这春天的花儿告诉你:除你之外别无他爱。请欣赏女生小合唱,《樱花草》,演唱者:将康康、范文熙、张蕾、张卫卫。

12.小品:《心理医生》串词

当今社会经济迅速发展,信息高度膨胀,竞争空前激烈,人们的心理压力也越来越大,于是乎存在心理障碍的人也越来越多,心理医生成为了炙手可热的职业,当你遇到内心的困惑需要咨询心理医生,可要擦亮您的眼睛,别跟这位似的,遇到个算命的。

13.下面是趣味游戏时间,请大家各显神通踩气球

总结游戏,宣布踩气球游戏结果

14.那声二重唱:《小酒窝》串词

小酒窝,长睫毛,是你最美的记号,我每天睡不着,想念你的微笑,你不知道你对我多么重要,有了你生命完整的刚好。请欣赏女声二重唱,《小酒窝》,表演者,李文婷,巩素梅。

15.(根据情况说几句客套话)

舞蹈串串烧,表演者:淄博市群众艺术团

16.独唱:《精忠报国》串词

大河如龙群山有虎,长啸仰天长歌当哭,龙盘虎踞有钟有鼓,龙腾虎跃有文有武。下面请欣赏男声独唱:《精忠报国》,有请青年教师的贴心人,永远年轻的盛书记。

17.《风往北吹》串词

爱情的风往哪吹?砰然的心,为谁动?爱被吹走了还要不要回?这一切的问号可怎么打开?这要问我们的大帅锅——杜瑞。有请杜锐老师为我们演唱爱情歌曲——《风往北吹》

18.男女声对唱《只对你有感觉》串词

爱情,这个迷人的字眼,爱情,这个迷惑人的字眼,爱情,让人欢喜让人忧的字眼,演绎了多少个剪不断理还乱的千古爱情传奇。不管是嬉笑怒骂,不管是爱恨交加,这个世界,我只对你有感觉。有请杜锐、王文柠老师为我们演绎一段浪漫爱情故事。请欣赏情歌对唱:《只对你有感觉》

19.《知心爱人》串词

靠不上你主事,指不上你撑家,也不用你敬老,不指望你疼娃,里里外外我一身挡,才是风雨又见霜花。新婚的蜡烛还点燃在窗下,你又要离开这温暖的家。望一眼你那绿军装,咽下多少委屈的话。看一眼你那黑脸膛,千辛万苦万苦千辛,化作对你的一心牵挂。请欣赏由新婚的军嫂王春粟老师伙同吴明刚老师演绎一曲新一代军嫂的深情恋歌——《知心爱人》

结束语:

踏着青春的节拍,春天向我们走来,聆听着春天的呼唤,我们尽情舒展青春的风采。

一路欢歌,一路笑语,我们在漫天风雪的黄昏等待,等待一个花开的清晨。

走进春天,我们走进蓬勃着希望的明天,每一颗青春的心都焕发出缤纷的色彩。

走进春天,我们走进青春的动感地带,世界在我们面前展现出灿烂的未来。

年中总结串词篇3

识字写字教育在我国教育史上历来占有重要地位,人们甚至把孩子受教育说成“去识字”,可见识字的内涵之丰富。《语文新课程标准》明确指出:“识字写字是阅读和写作的基础,是一、二年级的教学重点。”从这一句话,我们能体会到识字写字教学的意义和在语文教学中的地位。

一、识字与写字教学的目标定位

《语文新课程标准》在总目标和阶段目标中,都明确提出了识字写字的要求。其目标就是要让学生尽快掌握一定数量的常用字和识字方法,能按书写规则用硬笔写字,做到规范、端正、整洁,为阅读和写作奠定基础,培养热爱祖国语言文字的情感。

二、识字的编写体例与教学策略

从编写体例上看,“识字”课采用以下几种形式:认一认、词串识字、看图会意识字、转转盘识字、偏旁比较识字、随课文识字。

1.认一认、读一读。一年级是孩子成长的起点,初次接触到语文课本,会使他们产生新鲜感,产生热切的学习渴望。大量的观察和调查表明:在儿童的学前生活中,他们已经通过各种渠道或多或少地认识了一些汉字。

2.词串识字。(1)“词串识字”的界定。将孤立的汉字,置于具体的语言环境之中,使其成为合辙押韵的“韵文”,它往往围绕一个中心,串联起一组有内在联系的词语,用来表现某个画面、场面、意境等,让儿童能借助韵文的形式和韵文的情境以及“情境图”来识字。(2)“词串识字”的功能。总的来讲,“词串识字”有一专多能的特点。①识字功能。这是设计组织“词串识字”的主要功能,即帮助学生识字。②认知功能。由于“词串识字”的设计与实际生活紧密联系,还配上了形象、具体的“情境图”,“词串”里的词语与图中的事物一一对应,学生不但可以借助图画识字,而且可以认识事物,提高认知水平。 ③审美功能。孩子在诵读词串时,脑海出现的或是一个优美的情境,或是一个幽雅的意境,或是一个生动场景等;耳畔就会感受到“词串”的鲜明节奏所带来的音乐美。他们的精神世界会得到一种陶冶和丰富。④铺垫功能。由于词串合辙押韵,琅琅上口,学生读几遍就可以记得,易于形成积累,有利于向阅读过渡。

3.看图会意识字。中国的汉字不是简单的书写或记录符号,而是一幅幅画,一个个故事,汉字凝聚着先人的智慧,蕴含着丰富的文化信息。①抓住联系,学习词语.借助汉语拼音认读生字 (词语) ,并与插图中的事物图画挂钩;②诵演韵文,巩固生字。诵读随后出现的韵文,巩固对生字(词语)的认读成果;③描红仿影,练写生字。以课后田字格中的字为字帖,认真读帖、描红、仿影,练写生字。

4.偏旁比较识字。形近偏旁比较识字,通过对一组合体字近似偏旁的辨析与比较,初步了解有关偏旁的表意功能,重在引导学生区分易于混淆的偏旁,每课安排两组易于混淆的偏旁。

5.随课文识字。识字教学不能孤立进行,必须与阅读同步,识字要在语言的实践交流中延伸发展,在具体的语言情境中才能有效地提高。面广量大“随课文识字”是识字教学中的“重头戏”, 在阅读教学中进行识字与写字的教学,必须正确处理“识字”“读书”“写字”三者的关系,坚持“寓识于读”“以识促读”“识写结合”的做法,力求同步发展。

三、写字教学注意点

写字教学,尤其是低年级写字教学,在小学阅读教学中具有举足轻重的地位。结合自己几年的教学实践,谈谈几点对写字教学的认识和做法:

1.从从容容,确保写字的时间。我们经常发现一些低年级的语文课上写的环节不见了踪影。甚至有些示范课也只在临下课前的3分钟安排了写字教学,往往是蜻蜓点水似的,或是“光说不练。”

2.教给技巧,重视书写的指导。要让学生写出一手漂亮的好字,教师的指导是至关重要的。怎样指导?可以以下几个方面着手:①学写笔画,夯实基础。一年级学写生字前,在认识基本笔画的同时,就要对学生进行笔画的书写指导,让学生打下扎实的基本功,为写好字开一个好头。②注重“读字”,整体把握。对于一年级第一学期的学生,写字才刚起步,教师应充分运用“田字格”,指导学生观察所写的字由哪几笔组成,每个笔画落在田字格的什么地方,整个字的笔画如何安排才端正、美观。

3.规范姿势,培养良好的习惯。培养学生正确的写字姿势,养成良好的书写习惯,是小学写字教学的一项重要的基本功,也是保护儿童身体健康发育的重要条件。

年中总结串词篇4

关键词:计算机应用;中文信息处理;自动分词;未登录词识别;陌生文本;人机交互

中图分类号:TP391 文献标识码:A

1 引言

自动分词是中文信息处理的基础课题之一。随着中文电子文本数量的日益增加,文本的领域呈多样性发展,语料库的加工要求也有所不同。文献[1]指出,一个分词系统应当能够处理不同领域的文本和适应不同的分词标准。对于以汉语研究为目的的语料库建设而言,如何对现有的大量古代汉语的电子文献进行分词,如何对珍贵的方言语料进行处理等等,都是亟需解决的问题。在此背景下,本文提出了面对中文陌生文本的人机交互式分词方法。所谓“陌生文本”,即对于分词系统来说,没有关于该文本的任何词汇、句法、语义等先验的语言知识和资源。所谓“人机交互”,就是由系统自动地从文本中获取候选字串,由用户根据其上下文进行筛选,得到适应于不同领域的词语特点和分词标准的词表。面向陌生文本的分词,就是让系统在没有词表和其他资源的条件下,通过人机交互的方式完成对汉语各种文本的分词处理。

2 相关工作

目前,作为主流的基于统计的分词方法所关注的是如何从训练语料中尽可能多地学习语言知识,再对同质文本(“非陌生”文本)进行分词。因此,无法适用于陌生文本的自动分词。而不需要词表和训练语料等资源的陌生文本分词技术研究较少,还处在实验阶段。文献[2]使用统计方法从待切分语料中抽词,又将所抽取的词条用于自动分词。文献[3]利用Y。统计量进行自动分词。文献[4]使用了串频统计方法,然后通过长短串的频次的比值进行过滤获得词表,再进行分词。文献[5]则建立了一个文本熵的模型,其原则是文本分词的结果越好,则文本的整体熵越低。这些方法是纯粹利用统计方法进行陌生文本分词的一个尝试,分词的精度既不高也不够稳定。因此,一些学者考虑使用人机交互的方式来增加系统的语言知识。文献[6]利用邻接汉字的统计信息,让机器自动地给出针对该语料的候选词表,然后由用户进行筛选。通过阈值控制,以半自动循环的工作方式,最终得到一个词表。该文没有进一步进行全文分词,但其人机交互式的方法,可以保证获取词表的精确率,缺点是召回率难以保证。

较为实用的陌生文本分词方法则是文献[1]提出的基于句子的人机交互的增量式学习方法。首先,利用串频统计获取文本中的未登录词,然后,基于这个词表进行自动分词,把分词结果提交人工判定,利用学习到的词语和优化参数进行下一轮分词和未登录词的提取。在规模为9万词的语料上,可以达到近90%的分词正确率。然而,其未登录词的发现性能不高,在人工判定的条件下,正确率和召回率分别为26%和31%,大量的工作实际上还是通过人工判定来完成。文献[7]提出了基于Multigram语言模型的主动学习方法,首先使用了50M同质生语料利用EM算法来参数估计,再依靠对较为重要的句子提交用户切分,解决高频字串的切分问题。在开放测试中,分词F值为77.7%。

总的来看,在处理陌生文本时,人机交互的方式比纯统计方法的效果好。让用户来确定词,不仅较为准确,还可让系统适应于不同的分词标准。然而,这些方法存在的最大问题是未登录词发现的精确率和召回率不高,在人机交互和机器自动学习的机制上存在一些问题,导致分词效果不好或代价过高。

3 算法

上文介绍了人机交互的两种方式,基于句子的和基于候选词的,这两种方式各有其优缺点。前者可以得到切分好的句子集合,但对于用户而言,切分整个句子比较困难一些。相当数量的词会反复出现在不同的句子中,造成人工的浪费,也容易出现对同一个词切分不一致。同时,要定义生成候选句子的判别函数也是比较困难的。而基于候选词的交互方式则可以直接得到该语料的词表,通过观察上下文,能够让用户比较容易判定是否是词,也可以避免对同一个词的切分不一致。因此,我们采用了基于候选词的交互方式。

3.1 系统流程

图1给出了系统流程。首先,由机器从陌生文本中自动抽取一个高精度的候选词表。接着,由熟悉该文本的专业人员或用户进行词条的甄选,得到一个小规模词表。然后,利用这个词表进行自动分词,在未切分的汉字串中,抽取出更多的候选串,由人工进行判定。这样反复进行人机交互,最终完成对文本的分词。

上述过程主要分为两个问题,一是如何自动地提取候选字串并进行自动筛选,保证词语的精确率和召回率;二是如何通过人机交互来确定词表,让词语符合用户的分词标准。本文提出了改进的后缀数组抽词算法,对抽取的候选词语采用互信息(MI)进行过滤,得到了性能较好的自动抽词模块。同时,提供较好的人机交互界面,便于用户增删词语。

3.2 改进的后缀数组自动抽词算法

提取候选字串时,最大的问题是会产生大量垃圾。例如在一个文本中,字串“萨达姆”、“萨达”和“达姆”的频次都为10次。很明显,“萨达”和“达姆”是需要排除的字串。针对这一问题,目前主要有两种做法:一种是计算文本中所有的N元字串的频次,然后使用频次相减法来过滤[8]。另一种是分别建立前缀数组和后缀数组。利用排序的后缀数组,直接把数组序列中前缀相同的字串提取出来,这样可以得到“萨达姆”,排除“萨达”。同样地,建立排序的前缀数组来把后缀相同的字串提取出来,得到“萨达姆”,排除“达姆”,最后把两个结果进行交集运算,得到“萨达姆”[9]。这两种方法,在时间和空间上开销较大,也无法提取频次为1的词语。

为了解决计算效率问题,我们提出了改进算法,只需建立一个排序的后缀数组,就可以完成排除子串的过程。首先,利用排序的后缀数组的最长公共前缀(LCP,Longest Common Prefix),可以排除“萨达”。同时,利用上文的后缀信息来排除候选串,如果上文有相同的汉字,则不算作候选字串。如,“达姆”所在的后缀数组,其上文都为“萨”,被排除。通过计算它们上文相同的长度,即上文最长公共后缀(LLCS,Longest Left Common Suffix)的长度,就可以跳过这些被长串完全覆盖的子串。在不增加空间 开销的前提下,把算法的时间复杂度由原来的0(N2)降到了0(N*lgN)。由此,利用后缀数组的LCP、LLCS值,可以从文本中自动获得大量的n元字串。图2是从1998年1月《人民日报》语料中提取出来的部分以“萨”和“达”开头的后缀数组,左图中可以直接提取出“萨达姆”、“萨达姆总统”等候选串,右图则显示出“达姆”的上文为“萨”或“阿”,可以直接排除掉“达姆”这个短串。而“阿达姆库斯”则可以通过“阿”开头的后缀数组提取出来。

对于频次为1的字串,本文使用左右扩展法来获取。方法是利用后缀数组中频次为1的二字串进行左右扩展。每次扩展的二字频需为1,否则后退一字。如“萨达姆”中,假设“、诉萨、萨达、达姆”的频次分别为5、1、1、1。以“萨达”为出发点向左扩展,“诉萨”频次为1,扩展为“诉萨达”;再往左扩展,由于“”的频次大于1,所以删除“”,剩下“萨达”,确定左边界。以相同的方式可以确定右边界,同时屏蔽掉后缀数组中相应的元素“达姆”。最后得到频次为1的“萨达姆”。需要说明的是,该方法也只能获取一部分频次为1的字串。即,多次词与单次词相连,且单次词内部的所有邻接二字对的频次也为1。

后缀数组、最长公共前缀数组LCP和上文最长公共后缀LLCS的构造算法如下:

设S=C1C2…Ci…CCN为一个由N个字符构成的字符串。1≤i≤N,Ci属于字符集∑。Ai=CiCi+1…CN为字符串S从字符i开始的后缀,可以得到{A1,A2,…,AN}。按照字符集∑的顺序进行排序,得到一个排序的二维数组SA,即SA1<SA2<…<SAN,“<”表示字符集中的先后顺序。数组LCP[1…N]存放SAi与SAi-1或SAi+1的公共最长前缀的长度(选择最大值),数组LLCS[1…N]存放SAi与SAi-1或SAi+1的上文公共最长后缀的长度(选择最大值)。

候选字串提取算法如下:

for(int i=1;i<=N;i++){//对于每一个后缀数组的元素

if(LLCS[i]>0)//如果上文相同的汉字个数>0,则跳过,不算候选串

break;//跳出本次循环

else if(LCP[i]>1){ //如果上文不同,且下文相同的汉字个数>1,则把该串加入Hash表

HashTable->insert(SA[i],LCP[i]);

break;//跳出本次循环

}

int m=0,n=0;//m为向左扩展的字数,n为向右扩展的字数

if(Search2gram(pp[i][0],pp[i][1])==1){//如果上文不同,且2字频次为1

while((Search2gram(pp[i][-m],pp[i][-m一1])==1)

&&(Search2gram(pp[i][m-1],pp[i][-m-2])==1))

{//依次向左扩展,条件是Cm-1-Cm二字频次为1,且Cm-2Cm-1二字频也为1

blind(pp[i][-m],pp[i][-m-1]);//屏蔽Cm-1Cm对应的SA

m++;//左扩展字数加1

}

while((Search2gram(pp[i][n],pp[i][n+1])==1)

&&(Search2gram(pp[i][n+1],pp[i][n+2]==1))

{//依次向右扩展,条件是CmnCn+1二字频次为1,且Cn+1+Cn-2二字频也为1

blind(pp[i][n],pp[i][n+1]);//屏蔽CnCn+1对应的SA

n++;//左扩展字数加1

}

if(m+n>0)//如果左右扩展过了

HashTable->insert(SA[i],m+n+1);//把该串加入Hash表

}

3.3 互信息过滤

由后缀数组得到的字串需要经过一定的过滤,以提高精确率。文献[10]对9种常用的统计量进行了测试与分析,指出各统计量之间互补性不高。通常情况下,建议直接选用单个效果最好的互信息进行二字词的自动抽取。本文对于二元至四元字串采用条件熵推导出来的点互信息公式,对于五元以上的字串,由于公式过于繁琐,计算量过大,采用另一个简化公式。具体计算公式如下,

其中,n≥1,f(C1,…,Cn)是n元字串C1,…,Cn在语料中出现的次数,N是语料规模(总字数),P(C1,…,Cn)=f(C1,…,Cn)/N,P(ac)则是字符a和c相隔一个字符时顺序共现的概率。

为了提高自动抽词的性能和效率,我们在系统中加入了识别两种特殊字串的独立模块。一种是由汉字构成的“AABB”型重叠式,如“风风火火”等词语。一种是“简单数词”,包括阿拉伯数字、汉字数字构成的数词。如,“3000'’、“20万”、“叁拾”等。这二种字串在汉语文本中经常出现,可以作为未登录词识别模块的补充,用于人工筛选。

3.4 人机交互

人机交互是让用户借助上下文信息判定一个候选字串是不是词,以得到质量较高的词表,进行后续的抽词和分词流程。我们规定,用户在筛选候选词时,只能进行三种操作,即“确定”、“删除”和“添加”。如果候选串是词,则进行“确定”操作;不是词,则“删除”;在上下文观察时发现新的词,则“添加”到词库中。

我们在VC6.0环境下实现了该系统。人机交互界面如图3,在pku_test(SIGHAN2005)上,系统第一次自动抽词得到的词语列表,按音序排列,并给出频次和互信息值。单击“巴勒斯坦”,右侧则显示 出其上下文,用户可以根据自己的要求进行增删词条。

4 实验结果及分析

我们对四种规模、体裁、分词标准各不相同的语料进行测试,其中包括普通分词系统难以处理的现代汉语和近代汉语的小说语料。

4.1 测试方法

为了说明人机交互的效果,同时避免人的主观操作的不稳定性,我们采用与答案词表(即从分词语料中提取出来的词表)进行比对的方式,模拟用户的操作过程。系统模拟用户进行“确定”和“删除”操作时,只需通过查询答案词表即可实现,而对于“添加”操作,系统只能在“候选串”的内部和外部上下文中进行未登录词的查找。

内部查找:对于一个候选字串S,在其内部查找所有的未登录词,收入“已知词表”。

外部查找:在S所在的前100条上下文中寻找五种简单模式的词语添加到“确定词表”中,其他情况的未登录词则不再收入“已知词表”。C-2、C-1,为S的上文2个字,C1、C2为下文的2个字,5条横线即为查找未登录词的5种模式。

4.2 评测标准

我们从未登录词识别效果、分词精度、用户劳动量等三个方面进行评测。对于用户劳动量,以用户在进行交互时花费的总时间为依据,采用加权的方法进行计算。在用户对语料比较熟悉和软件操作熟练的情况下,“确定”、“删除”和“添加”三种操作的平均时间的经验值约为1秒、2秒和3秒。因此,工作时间=“确定”条数*1+“删除”条数*2+“添加”条数*3。

为了突出多字词的抽取效果。表2中候选串的正确率、召回率、F值的计算都是以答案词表中的多字词条数作为分母。此外,我们还给出了用于比较分词性能的Baseline和Topline。Baseline是没有经过用户筛选,系统反复获取未登录词,而后进行正向最大匹配法(FMM)分词得到的F值。Topline则是使用答案词表进行FMM分词得到的F值。

4.3 测试结果及分析

四个语料的测试结果显示,未经人机交互时,系统分词的F值已经可以达到72%左右。在较少的人工耗费下,分词F值可以达到84%以上。其中,《红楼梦》语料,由于单字词出现的比例较大,得到的分词精度最高(94%)。相对于Baseline,在花费了一定的人力进行交互以后,系统的分词性能确有不小的提升,F值分别提高了12个百分点以上。而更为重要的是,用户通过筛选获得了一个符合自己的分词标准的相当规模的领域词表。当然,相对于Topline来说,人工交互的分词效果还有待进一步提高。

从未登录词的获取情况来看,在无人机交互条件下,系统的F值已达到40%以上;人机交互后的总召回率在50%左右,而且用户添加的词条仅占总词条的1/3以下,用户的劳动量并不是太大。不同的语料在正确率、召回率和用户添加词语的比例上有所差异,不过抽取的候选串的F值基本相近,系统得到的词(候选正确+用户添加)的总召回率是较为一致的,都保持在50%的水平上,其中的差异可能是由语料的特殊性造成的。然而,文本中依然有50%左右的多字词没有识别出来,其中绝大多数是出现3次以下的词语,说明系统在获取低频词语方面还需要改进,分词错误也主要是由未登录词引起的。

由于在模拟人机交互时严格限定了“添加”词条操作的范围,使得人机交互的最后结果不够理想。在实际使用时,系统还允许用户使用其他先验词表,或者自行添加一部分词语,从而得到更好的分词精度。

为了进一步提高系统性能,我们还设计了用于提取未切分串中重要信息的模块。使得分词精度随着用户干预的增加而不断提高。经过多次人机交互后,达到互信息的最低阈值,会导致无法继续提取候选串的情况。此时,系统可以把未切分串中的高频条目进行人工判定,从中提取出一些高频未登录词,还可以把未切分串中长度大的条目提交给用户判定,可以得到中低频的未登录词,丰富系统词表。使用这两个模块后,系统的分词性能会有所提升。由于使用该模块并不能直接得到未登录词,几乎完全依靠用户来判定和添加到词表中,因此,该模块仅作为用户选用的一项辅助措施,没有参与评测。

5 结论与未来工作

本文提出了面向中文陌生文本的分词方法,在没有分词底表、训练语料和其他语言知识的条件下,可以根据用户的标准进行分词。该方法采用人机交互的方式,不断扩大系统词表,尽可能地获取文本中的所有词语,从而达到较高的分词精度。系统以Unicode字符集为内核,可以处理不同编码(繁简体)的文本。在文本的通用性上,可以处理不同时代(现代汉语、近代汉语)、不同领域(新闻、文学等)的汉语文本,从而为特殊语料库的加工提供了一个较为高效的分词工具。在未登录词识别方面,重点解决了使用后缀数组时长短串覆盖问题和频次为1的字串的提取问题。

文本是对陌生文本进行分词的一次初步尝试,还存在一些不足和需要进一步研究的问题。如:提高低频词语的识别效果;探索更好的人机交互方式;增强系统的智能性,更好地利用用户反馈的信息,减少用户的工作量;解决文本中存在的切分歧义;进一步开发出人机交互式的词性标注系统、义项标注系统,从而使古代汉语文本和汉语的其他特殊文本的深加工能够在一个较为高效和智能的平台上展开。

收稿日期:2006-08-28 定稿日期:2007-02-14

基金项目:南京师范大学211资助项目(1240702504)

作者简介:李斌(1981-),男,博士生,主要研究方向为计算语言学。

参考文献:

[1]Zhongjian WANG,Kenji ARAKI,Koji TOCHINAI.A Word Segmentation Method with Dynamic Adapting to Text Using Inductive Learning[A].In:Proceedings of the First SIGHAN Workshop on Chinese Language Processing[C].2002.113-117.

[2]王开铸,李俊杰,吴岩.无词典自动分词的研究[A].陈力为,袁琦主编.计算语言学进展与应用[C].北京:清华大学出版社,1995.

[3]黄萱菁,吴立德,王文欣,等.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能.1996,9(4):297-303.

[4]傅赛香,袁鼎荣,黄伯雄,等.基于统计的无词典分词方法[J].广西科学院学报,2002,18(4):252-255.

[5]Xiaopeng Tao,Shuigeng Zhou.Chinese Word Segmen-tation Without Auxiliary Data[A].Maosong Sun,Tianshun Yao,Chunfa Yuan.In:Advances in Compu-tation of Oriental Languages[C].Beijing:Tsinghua University Press,2003.88-94.

[6]Sun Maosong,Shen Dayang.,Hang Changning.Deri-ving Chinese Lexicons from Large Corpora[A].In:NLPRS-95[C].Taejon,Korea,1995.

[7]冯冲,陈肇雄,黄河燕,等.基于Multigram语言模型的主动学习中文分词[J].中文信息学报,2006,20(1):50-58.

[8]金翔羽,孙正兴,张福炎.一种中文文档的非受限无词典抽词方法[J].中文信息学报,2001,15(6):33-39.

[9]Luo Zhiyong,Song Rou.An Integrated Method for Chinese Unknown Word Extraction[A].In:Proceedings of 3rd ACL SIGHAN Workshop [C].Barcelona,Spain,2004.148-154.

年中总结串词篇5

述如下:

一、语音复习

⒈按英语单词的发音规则进行归纳。如:oo字母组合在单词里一般读[u:]或[u]。通过分类归纳,就能 准确地读出以下两类单词。

1)oo在重读音节中,其后为字母l、m、n、p、f和字母组合th及se,一般读[u:],又在以oo结尾的词中 ,oo读[u:]。如:cool,fool,tool,foolish,school,afternoon,room,broom,soon,balloon,troop,roof,too th,smooth,choose,loose,zoo,too,bamboo,etc.

2)oo在k之前,有时在t、d之前读[u]和在非重读音节中的m之前读[u]。如took,cook,book,brook ,look,good,wood,childhood,foot,footprint,school room.workroom,etc.

⒉用口诀或绕口令归纳。如复习动词词尾加-ed的读音时,可归纳以下口诀:ed发音[t]、[d]、[id] ,清辅音后要读[t],浊辅音后要读[d],元音之后也读[d],[t][d]之后读[id]。还有个例外wre tched。又如区别[∫]、[s]、[z]的发音,可归纳成绕口令:She sells sea shells bythe seashore.( 她在海滨卖海贝。)

⒊把多音节词进行分类归纳:1)作名词时重音在前,作动词时重音在后的多音节词,如:rebel[rebl] n.(造反者);[ri'bel]v.(造反)。按《大纲》的要求,可归纳40多个这样的单词。2)作形容词重音 在前,作动词时重音在后的多音词,如:perfect adj.(完美的);v.(使完美),可归纳8个这样的单词。 3)有些单词改变词中某元音字母的读音,就有两种不同的意思,如:wind[wind](风,使通风);wind[ waind](弯曲前进)等,可归纳14个这样的单词。在复习语音的过程中采用归纳的方法,就可在短期内掌握语音知识,又可迅速扩大词汇量,激发学习兴趣 ,很受学生欢迎。

二、词汇复习

复习单词或词组时,根据音、形、义等方面的特点尽量将过去学过的单词、词组串联成“家族”,启发学 生寻找词汇间的共同之处,总结新旧词之间的有机联系。这样一来,旧的记忆会激化新的忆记,而新的感知又 反过来深化了旧的印象。

1同音词归纳。如:be-bee,buy-by,dear-deer,eye-I,for-four,hare-hair,hear-here,hole-whole,know -no,etc.

⒉词形的归纳。即词的相同结构归纳。如讲到friendly(友好的)这一形容词时,把《大纲》要求的-ly结 尾的形容词归纳起来,就有以下这些单词:lively(活泼的);lonely(荒凉的);lovely(可爱的);dead ly(致命的);ug-ly(丑的);silly(傻的);motherly(慈爱的);brotherly(兄弟般的);sickly(多 病的);likely(很可能的);kindly(热情的);etc.也可利用绕口令的形式来归纳,如含有augh的词有: naughty,daughter,caught,taught,laugh。连成句子:The naughty daughter was caught and taughtthat o ne laughs best who laughs last.(调皮的女孩被捉住并认识到,谁笑到最后,谁笑得最好。)

⒊词义的归纳。主要有两类:1)一词多义,如复习step的多义性:(1)v.走(walk);(2)v.举步 ,行走(move the foot,or one foot afterthe other );(3)v.踩(bring the foot down);(4)n. 脚步;5)n.步骤。2)一义多词,如讲到say这一词,就可串联归纳tell,speak,talk等,又如讲到cost可把 spend,take,pay串联归纳一起,并讲解其用法,进行比较。

⒋词类的归纳。当复习spear(矛)时,可引出b ayonet,arrow,gun,knife,sword,stick等。又如讲到see时,把表示视觉的一类动词串联起来:see,look,watc h,notice,observe,stare,glare等,并逐个分析比较其用法。有的也可编出易懂易记的口诀来背。如要记住ei ghth,ninth,fifth, twelfth这四个序数词时,可编成:“八减t,九少e,五和十二是两兄弟。”

⒌词组串联归纳。如复习bring up(养育,提出)时可串联归纳出bringdown(降低),bring back(拿回 来),bring over(把…带来),bring about(导致),bring in(引入),bring out(拿出)等。又如复习 call in(召集,招请)时,也可串联归纳出call on(访问:人),call at(访问:家,地方)call up(打 电话给…,呼唤)等。就NMET试题来看,考查单词、词组的题目都占很大的比例,因此有必要作为重点复习。

三、语法复习

语音、词汇可以串联归纳记忆,语法也一样。如某些动词的不定式做宾补时,不要带“to”,而变为被动 语态时,又必须加“to”,这是《大纲》要求的很重要的一个语法项目。因此,我就把它归纳为几句话:“ma ke

sb.do,do前不加to,变被动,切切要加to”,并归纳类似make的动词和词组有十个,即:⒈feel(感觉), ⒉hear,listen to(耳听);⒊let,make,have (使役);⒋tosee,watch,notice,observe(观看)。此外, 还有一个help(不定式作宾补有无均可)。e.g.The landlord made them work from morning till night.( 主动)They were made to work from morning till night.(被动)

又如在复习虚拟语气的惯用法方面,学生对哪些谓语动词引导的宾语从句,从句中should要省略,感到不 好记。针对这个问题,我把《大纲》里要求的十个动词归纳为一句口号,即“一个坚持(insist),两个命令 (command,order),三个建议(advise,propose,suggest),四个要求(ask,demand,require,request)引导 的宾语从句中should可省略”。e.g.The workers demandedthat their wages (should)be raised. 按照《大纲》的要求,有15个动词后面可接动名词作宾语,即:mind,enjoy,miss,practise,imagine,c onsider,keep,stop,understand,permit,avoid suggest,advise,finish,excuse等。若使学生一个一个地去背 这些单词,时间和精力虽然花了很多,但其效果还不是很理想的。假如告诉学生一句经过串连归纳的话:“Me m picks up a safe.”(麦姆拾起一个保险箱),学生很快就会掌握这些词的用法。原来,这句话的每一个字 母都代表一个单词,其顺序就按以上所列。e.g.Would you mind closing the window? Tom pretendedto enj oy reading the book. 在复习英语的分数表达法时,可归纳成口诀:“分子基数词,分母序数词;分子大于一,分母加“s”。在 复习情态动词may,must用法时,可归纳成口诀:“May提问,肯定答词用may,否定答语用mustn’t;Must提问 ,肯定答语用mu-st,否定答语用needn’t。”

年中总结串词篇6

下午好。

学习了殷雪梅老师、孟二冬教授、姚止平校长的事迹后,我们的心中除了感动和佩服,更多的是反思与自勉。他们身上闪现的为人之德、为师之魂,化为精神宇宙的恒星。

也许,我们不会遭遇鲜血的考验,但殷老师用几十年的默默奉献告诉我们,这才是我们教师最平凡的生活写真,伟大不仅在伟大的瞬间。

也许,我们没有机会远赴天山,但孟二冬教授用挚爱学生的真情告诉我们,这才是我们教师最动人的人性之光,真情不仅在天边,更在眼前。

也许,我们没有担当大任的锐气与大气,但姚校长用朴素的坚持告诉我们,这才是我们教师最可贵的发展之路,卓越不藏在高处,而在点滴的精致。

下面,我们英桥的老师代表将和我们分享他们的心得体会。师德演讲比赛即将开始。请各位评委老师认真阅读评分标准,请各位选手做好上场准备。

二、评分标准

三、选手上场

(1)1号选手:孙**

串词:印度诗人泰戈尔说:花的事业是甜蜜的,果的事业是珍贵的,让我干叶的事业吧,因为叶总是谦逊地垂着她的绿荫。这就是绿叶对花的情意。有请1号选手孙**老师上场。

(2)2号选手:薛*

串词:你是一本厚重的书,就算用最平淡的词语来叙述,那字里行间跳跃的情节也足以让我们震撼。这是对姚止平校长的感叹。我们一起聆听2号选手薛*老师的演讲――《是平凡,更是极致》。

(3)3号选手:王**

串词:我们都会慢慢老去,容颜不再,梦想落帆,但请保持一颗坚强勇敢而又柔软慈爱的心。请听《爱的信仰》,有请3号选手王**老师。

(4)4号选手:周*

串词:活着,是一面旗帜!逝去,是一座丰碑!多么精练的概括。成功只是一种生活方式,而优秀却是一种品质。这是我们可以追求也应该追求的。多么铿锵的声音。有请4号选手周*老师。

(5)5号选手:俞*

串词:殷老师平凡朴实,真诚可敬。她的品质对年轻的教师而言,犹如春风,让我们明白了是什么绿了小草,凭什么爱满天下。有请5号选手俞*老师为我们演讲《爱满天下筑丰碑》。

(6)6号选手:王**

串词:云山苍苍,江水泱泱,先生之风,山高水长。这是对姚校长无上的崇敬,无尽的追思。有请6号选手王**老师。

(7)7号选手:赵**

串词:从这些平民英雄身上,我们读到了什么?她说,读到了事业心。她反复强调:工作和事业是完全不一样的。她就是7号选手赵**老师,掌声有请。

(8)8号选手:陈*

串词:三十年,春风化雨;一瞬间,鲜血如花。持久的感动,强烈的震撼,化为字字真情赞颂。请听《极大的勇气,高尚的人格》,演讲者,

8号选手陈*老师。

(9)9号选手:刘**

串词:先生走矣,风雨萧萧。知你者谓你心忧,不知你者谓你何求。只有路旁的蚕桑树啊,见证着你来去匆匆,一片朴实的心肠。有请9号选手刘**为我们演讲《那一片蚕桑树》。

四、小结

一日为师,终身重德。有伟人用青春、生命做代价高举师德师魂的火炬,有智者用思想、博爱做桥梁抵达教育理想的彼岸,我们更当奋勇前行,继续这无止境的事业,托起那未来者的身躯。只需守住这一份清净,怀着那一腔热情,我们可以走得更远。

年中总结串词篇7

Abstract: This paper presents methods of mechanical matching, feature lexicon, Binding matrix, grammar analysis and semantic understanding for the Chinese language automatic word segmentation. It is pointed out that we must study deeply the morphology, grammar, semantics and even pragmatics and chapter understanding of Chinese as well as it's formal theory before we can solve satisfactorily the problem of the Chinese language automatic word segmentation.

关键词: 汉语自动分词;词库;分词算法

Key words: Chinese language automatic word segmentation; lexicon; word segmentation algorithm

中图分类号:TP391.1 文献标识码:A 文章编号:1006-4311(2011)13-0176-02

0 引言

汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键,因为“在中文信息处理中,凡是涉及句法、语义等研究项目都要以词为基本单位”[1]。英语等西方语言的书面形式以空格作为词与词之间分隔标志, 而汉语的书面形式却是连续的汉字串。这样, 理解汉语的首要任务是把连续的汉字串分割成词的序列。本文给出各种传统的自动分词方法并分析这些方法的特点和所遇到的各种问题。

1 各分词方法简介

1.1 机械匹配法 机械匹配法的原则是预先建立所有可能出现的词的一个词库。对特定的待分词的汉字串S,依据某种确定的基本思想切取S的子串,假如本子串和词库中的某词条一致,那么本子串为词,然后继续分割剩余的部分,直到剩余部分是空的;假如本子串和词库中的某词条不匹配,那么本子串不是词,转上重新切取S 的子串进行匹配。

依据切取子串的方向,可以把机械匹配法分成以下两种:①正向匹配法;②逆向匹配法。通过实验发现,正向匹配法的切分正确率比逆向匹配法较低。为了方便发现歧义切分,我们能够把它们有机地衔接在一起,进而生成双向匹配法。因为两者对词库的安排有不一样的要求,因此,把两者结合,需要再次思考词库的安排,旨在它们都可以迅速的执行。依据在进行每次匹配的时候,是首先考虑短词还是长词,我们又能够将机械匹配法分成以下两种:①最大匹配法;②最小匹配法。因为绝大部分的汉字都能够组成单子词,因此,如果依据②(最小匹配法)进行分词的话,其结果通常由于分得过于细致而与要求不相符。在相反情况下,待分串中出现“词中含词”的时候,如果依据①(最大匹配法)进行分词的话,其结果或许会由于分得过于粗而与要求不相符。

例如现有短语“计算机科学和工程”,假设词库中最长词为 7 字词,于是先取“计算机科学和工”为匹配字段,来匹配分词词库,由于词库中没有该词,故匹配失败,去掉最后一个汉字成为“计算机科学和”作为新的匹配字段,重新匹配词库,同样匹配失败,取“计算机科学”作为新的匹配字段,来匹配词库,由于词库中有“计算机科学”一词,从而匹配成功,切分出第一个词“计算机科学”。用同样的方法可以继续切分出第二、第三个词……。

机械匹配法的的原理简单,易于在计算机上实现,时间复杂度也比较低。但是,最大词长的长度很难确定,如果定得太长,则匹配时花费的时间就多,算法的时间复杂度明显提高;如果定得太短,则不能切分长度超过它的词,导致切分正确率的降低。

1.2 语义分析法 为了说明语义分析法的作用, 下面考察一下几个汉语句子的切分问题。对汉语句子“他在计算机房基建投资”。按机械匹配法, 它既可切分成“他/在/计算机/房/基建/投资”, 又可切分成“他/在/计算/机房/基建/投资”。到底该选哪个作为切分结果, 机械匹配法无法确定。但是, 只要对它们进行语法分析, 就不难发现前者不合汉语语法, 后者符合汉语语法。所以应以后者作为切分结果。相反, 汉语句子“他在计算机房调试程序”应切分成“他/在/计算机/房/调试/程序”。因此, 相同的汉字串“计算机房”在不同的语言环境中可有不同的切分, 对特定的语言环境到底采用哪种切分可借助语法分析来确定。同理, “何时何地任何职”应切分成“何/时/何/地/任/何/职”, 而“任何人都应遵法守纪”应切分成“任何/人/都/应/遵法/守纪”。事实证明:借助语法分析来提高切分正确率是完全可能的[4]。

语义分析法的原则是,预先设置一套汉语语法的规则,在规则之中,一方面确定了某成分的结构,另一方面也给出其子成分间要达到的限制条件。此外,我们还应预先设置所有或许出现的词以及其各种可能的词类的一个词库。对特定的待分词的汉语句子S,依据某种确定的基本思想切取S的子串,假如本子串和词库中的某词条相一致,那么从词库中选出本词的所有词类,其次依据语法规则进行语法的分析。其中包含了构建语法分析树以及检查限制条件,此时,不仅应使用本词的所有词类,同时还应使用前面已经分析部分的结果。假如分析准确,那么本子串就是词,记录语法分析的结果(以便给后继切分做基础),然后继续分割剩余的部分,直至剩余部分是空的;在相反的情况下,本子串不为词,转上重取S的子串进行匹配。

语义分析法虽然提高了分词的精度,但它要求保存分析时产生的所有中间结果(语法分析树),故它的空间开销要大些,也加大了实现的难度。不过, 由于分词的最终结果包括一棵语法分析树, 所以后继处理中就不必再进行语法分析了。

1.3 理解切分法 理解切分法又称人工智能法,这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。基本思想就是在分词的同时进行句法、语义分析,利用语法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。它与语义分析法的关系是,后者是前者的基础[2]。然而,在语法分析之外,其还应有语义分析。

需要说明的是,为了能够更好的实现理解切分法,仍有许多问题亟待研究。同时,即使是使用了理解切分法也不可以处理整个的歧义切分问题。

例如, 汉语句子“乒乓球拍卖完了”既可切分成“乒乓球/拍/卖/完/了”又可切分成“乒乓球/拍卖/完/了”。并且两者都是可理解的。因此,这种分词方法需要具有进一步的语用和语境知识,否则的话,即使人也也不可能断定到底该使用那一种切分。然而,因为汉语语言知识本身具有的复杂性,不容易把每一种语言信息组成一种形式,去让这种形式直接的被机器所读取,因此,当前以理解的分词系统为基础仍然处在试验之中。

2 结论

汉语自动分词虽然是一个非常基本的问题,但是,要想使之不断完善,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解。每一种汉语自动分词方法都是相互联系的,它们各有优缺点,我们要扬长避短,充分利用每种方法的优势。今天,汉字和汉语日益发挥出它的巨大威力。从这个意义上说,应加紧攻克汉语自动分词及其它中文信息处理领域的难题。

参考文献:

[1]龚汉明,周长胜.汉语分词技术综述[J].北京:机械工业学院报,2004,19(3):52-61.

[2]张国煊等.汉语自动分词的直接匹配算法及其词典结构[M].北京:电子工业出版社,1992.

[3]刘开瑛等.自然语言处理[M].北京: 科学出版社,1991.

[4]韩世欣等.基于短语结构文法的分词研究[J].中文信息学报,1992.

[5]奉旭辉等.切分与理解交替进行的汉语理解系统[M].长沙: 国防科技大学出版社,1991.

[6]孙茂松,左正平,黄昌宁.汉语自动分词词典机制的研究实验[J].中文信息学报,Vol.14,No.1,2000.

[7]黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997,(1).

[8]黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.

年中总结串词篇8

快递网络中的中转点和取送点以不同大小的地域范围为服务对象,各级中转点以各级中心城市为基本单位,取送点以各中心城市辐射的周边市、县、中心城市内的社区为基本单位。中文地址采用地域范围由大到小的层级嵌套方式书写,地址中不同地域范围大小的地名在取送点分类时提供的信息量是不同的。以北京市地址和快递取送点的分布情况为例,北京中转点下辖几十个取送点,分布在北京市各个区、县、社区内。“北京市”、“海淀区”、“朝阳区”这类地域范围广阔的地名,其所指代地域范围内的取送点数量众多,对取送点的分类判断帮助不大。详细的楼(门)牌号地名,如“9号楼”、“A座”、“204室”,其所指代的地域范围远小于取送点的基本服务单位,在取送点的分类判别时也不需要关注这类地名。在快递地址的分类判别中,将这2类地域范围过大和过小的地名定义为停用字符,从地址中过滤清除出去。物流地址中的特殊字符,如括号、空格、破折号等,对取送点的分类判别也没有任何指导意义,也定义为停用字符,在地址中予以过滤清除。

中文地址采用连续字符串的形式书写,词与词之间没有明确的分隔符。在地理地址编码领域,中文地址的分词是近年来的研究热点之一。中文地址分词,是将一个中文地址文本拆分为多个最小地址要素[9]的过程。最小地址要素是不可继续拆分的地址要素,具有最小的地址意义。如对中文地址“北京市海淀区西土城路10号北京邮电大学”进行分词,可以拆分出“北京市”、“海淀区”、“西土城路”、“10号”、“北京邮电大学”5个最小地址要素。依据利用信息的不同,目前的中文地址分词方法主要有2种:基于地名词典的方法[1011]和基于地址特征字的方法[12]。基于地址词典的方法维护一个尽可能完备的地名词典,通过串匹配技术在地名词典中查找最小地址要素进行分词,主要采用最大正向匹配方式和最大逆向匹配方式。基于地名词典的方法准确率完全依赖地名词典的完备性,但实际操作中地名词典的更新维护存在很大难度,地名词典的完备性难以保障。各类最小地址要素包含一些相同的字符串作为后缀,这样的后缀字符段称为地址特征字或地址通名,如“北京市”中的“市”、“海淀区”中的“区”就都是地址特征字。基于地址特征字的方法为各类最小地址要素定义特征字并制定相应的拆分规则,通过对特征字和拆分规则的匹配完成对地址的分词。这类方法摆脱了对地名词典的依赖,但特征字和拆分规则的合理选择存在一定难度。本文采用地名词典和特征字相结合的方式对中文地址进行分词。采用某物流公司提供的北京市地名词典作为中文分词的地名词典,该词典共计包括10151个北京市地名。本文依据国家测绘局颁布的《数字城市地理空间信息公共平台地名/地址分类、描述及编码规定(CH/Z90022007)》[13]中对最小地址要素的分类方法,将最小地址要素划分为行政区划地名、小区名、街巷名、标志物名、兴趣点名、门(楼)址6个大类。中文地址表示为字符串T=t1t2…tn,n为字符串T的长度。地名词典表示为字符串集合Pd={p1,p2,…,pr},特征字词典表示为字符串集合Pf={p1,p2,…,pm}。中文地址分词后得到的是一组最小地址要素,表示为字符串集合Pr,Pr初始状态为空集。本文采用的地名字典与特征字结合的中文地址分词方法步骤如下:步步步骤骤骤1如果字符串T为空,转到步骤3;否则,查找T的前缀能否匹配地名词典Pd中的元素,如果匹配成功,即存在(1,2,,)idp∈Pi=r,使t1,t2,…,tk=pi,其中,k为pi的长度,则将t1,t2,…,tk放入Pr,并将T置为tk+1,tk+2,…,tn,转到步骤1;如果匹配失败,转到步骤2。步步步骤骤骤2查找T的子串能否匹配特征字词典Pf中的元素,如果匹配成功,即存在(1,2,,)ifp∈Pi=m,使tj,tj+1,…,tj+k1=pi,其中k为pi的长度,则将t1,t2,…,tj+k+1放入Pr,并将T置为tj+k,tj+k+1,…,tn,转到步骤1;如果不存在,则将则将T放入Pr,转到步骤3。步步步骤骤骤3返回Pr,算法结束。

基于概率统计的地址分类模型以人工标记出所属取送点的快递地址作为训练数据。随机选取5条训练数作为示例,说明该模型的训练方法,随机选取的示例训练数据如表2所示。首先以2.1节和2.2节介绍的方法过滤掉快递地址中的停用字符并对地址进行分词,每条标记数据得出一组最小地址要素及其对应的取送点,结果如表3所示。例如“朝阳区建国路乙118号京汇大厦三层人事部”这个快递地址,过滤停用字符并地址分词后,得到最小地址要素集合{建国路,京汇大厦},这组最小地址要素对应的取送点为990060。然后,统计出最小地址要素对应各取送点的总次数,得出每个最小地址要素对应到各取送点的频率分布情况,结果如表4所示。在示例标记数据中,“建国路”这个最小地址要素对应取送点990060的总次数为3,对应取送点990030的总次数为2。训练数据中所有快递地址提取出的最小地址要素总数为m,取送点的总数为n,那么最小地址要素对应到各取送点的频率分布情况可以用一个m×n的矩阵F表示,F中第i行第j列元素fij为最小地址要素i对应取送点j的总次数。同时,统计出每个最小地址要素对应到的取送点的总数,本文将其称为最小地址要素的区分度系数d。根据示例训练数据求得的最小地址要素对应取送点的概率分布和区分度系数分别如表5、表6所示。“建国路”对应取送点990060的概率=3/(3+2)=0.6,对应取送点990030的概率=2/(3+2)=0.4。由于“建国路”既对应取送点990060,也对应取送点990030,因此它的区分度系数d=2。至此,基于概率统计的地址分类模型训练完成。2.4地地地址址址的的的分分分类类类方方方法法法应用基于概率统计的地址分类模型对快递地址进行分类时,先过滤掉待分类快递地址中的停用字符并对其进行地址分词,得到一组最小地址要素,表示为字符串集合Pr={p1,p2,…,pk},k为最小地址要素的总数。

本节通过实验对本文提出的基于概率统计分类模型的快递地址自动分类方法进行性能评估,选取训练用时、分类用时、准确率和拒绝率作为评价指标。其中,本文对地址自动分类的准确率和拒绝率的定义如下:拒绝率=无法分类的地址总数/待分类地址总数准确率=正确分类的地址总数/(待分类地址总数无法分类的地址总数)

本文选取某快递公司提供的已人工标记取送点分类结果的北京地区快递地址作为实验数据,从中随机选取63535条作为训练数据,2000条作为测试数据。通过本文提出的基于概率统计分类模型的快递地址自动分类方法对2000条测试数据完成自动分类后,将自动分类结果与原始的人工标记结果进行对比,对本文提出的快递地址自动分类方法的性能做出评价。实验的软硬件环境如下:CPU:IntelCorei52400,3.10GHz,双核;内存:4.0GB;Cache:一级数据缓存128KB,一级指令缓存128KB,二级缓存1MB;操作系统:Windows7专业版,32位;编译平台:VisualStudio2010;编程语言:C++。3.2实实实验验验结结结果果果与与与分分分析析析本文测试了应用基于概率统计的地址分类模型进行快递地址自动分类的效果,测试结果如表7和图2所示,由测试结果可以看出:(1)基于概率统计的地址分类模型的训练速度快,对快递地址进行自动分类的分类用时短。采用63535条数据对模型进行训练的平均训练用时约为5.19s,对2000条待分类地址的分类用时平均约为0.85s,分类速度达到每条0.43ms。(2)置信阈值S(定义详见2.4节)决定了地址自动分类的准确率和拒绝率。S值越大,地址自动分类的准确率越高,拒绝率也越高;反之,S值越小,地址自动分类的准确率越低,拒绝率也会相应越低。应用本文提出的快递地址自动分类方法时,应根据实际的应用需求选择合适的S值,在自动分类的准确率和效率间合理权衡。(3)置信阈值S为0.75时地址自动分类的准确率为99%,拒绝率为9.3%,可以满足大多数应用场合的需求。

随着互联网技术特别是移动互联网技术的进一步普及,我国的电子商务产业规模将进一步扩大。作为电子商务的支撑行业,快递行业必然迎来新的机遇和挑战。本文介绍的基于概率统计分类模型的快递地址自动分类方法可以快速、准确地对快递地址所属的取送点做出分类判别,提高包裹分拣中的自动化程度,加快分拣速度,降低人力和包裹存储的成本。本文的快递地址自动分类方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取送点的概率分布关系对快递地址进行分类。该方法适应性强,对人工标记的训练数据规模要求低,几万条训练数据就可以满足模型训练的要求。因此,即使运营时间较短、人工分拣的快递地址历史数据较少的快递公司也能应用本文的方法。本文的研究工作针对北京地区的快递分拣配送数据,在下一步的工作中将继续扩充训练数据集,扩大概率统计分类模型的适用范围。

上一篇:家装年中总结范文 下一篇:仓储年中总结范文