语料库是语言知识的可靠来源

时间:2017-09-29 14:15 来源:未知作者:dl 点击:次

首先祝贺第三届汉语中介语口语语料库国际会议在北京召开。汉语中介语口语语料库是获取语言知识，发现语言偏误，提高语言习得水平的重要手段。　　我是一个自然语言处理的研究者，早在1957年，我就对于语言研究的发生了浓厚的兴趣，梦想着打破人类的语言障碍，后来我知道了美国在1954年就研制成功俄英机器翻译，受到极大的鼓舞，决心投身机器翻译研究，实现自己的科学梦想。1979年-1981年我在法国格勒诺布尔理科医科大学留学时，曾经研制过一个把汉语自动地翻译为法语、英语、日语、俄语和德语5种外语的机器翻译系统，叫做FAJRA系统，提出了多叉多标记树形图模型（multiple-branched and multiple-labeled tree model, MMT），这是一个基于短语的机器翻译模型（phrase-based machine translation, PBMT）。
当时我采用的方法，是基于语言规则的理性主义方法。我用了3年时间，编写了汉语分析规则5000条左右，法语、英语、日语、俄语和德语的转换规则和生成规则各3000条左右，一共20000多条规则，此外，我还编制了若干部机器可读的、代码化的机器翻译词典，由于工作量大，我每天工作时间都超过10小时，扎扎实实苦干了3年，于1981年11月在IBM 4341大型计算机上输出了法语、英语、日语、俄语和德语等5种语言的机器翻译译文。这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。　　这个系统研制成功之后，在有限规模的语言范围内，翻译的正确率还比较高，而当扩大语言范围时，对于任意的汉语句子，翻译的正确率只能达到70%左右，这样的机器翻译系统显然是难以实用的。我在1982年回国之后，又相继研制了法汉、英汉、日汉和德汉机器翻译系统，翻译正确率都没有超过70%。　　我耗费了如此巨大的精力，却得到了很不理想的结果,在严峻的考验面前，我在少年时代的机器翻译梦想遭到了挫败。我没有得到多少成功的经验，却留下了大量失败的教训。我为此感到困惑，有一种难言的失落感。　　正当我愁眉不展之际，1993年7月在日本神户召开的第四届机器翻译高层会议（MT Summit IV）上，英国著名学者哈钦斯（J. Hutchins）在他的特约报告中指出，自1989年以来，机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是，在基于规则的技术中引入了语料库方法。这种建立在大规模（large-scale）真实文本（authentic text）处理基础上的机器翻译，是机器翻译研究史上的一场革命，它会把自然语言的计算机处理推向一个崭新的阶段。　　把语料库方法引入到机器翻译中，改变了机器翻译翻译研究者获取知识的手段，由于语料库是大规模的真实文本，人们就可以得到更加完善的统计性的语言知识，因此，也就大大地提高了机器翻译的质量，加快了机器翻译系统的研制周期。　　语言知识究竟在哪里？语言知识固然存在于语法书里，存在于各种类型的词典里，存在于汗牛充栋的语言学论文里，但是，更加全面的、更加客观的语言知识应当存在于大规模的真实文本语料库里，语料库是语言知识最可靠的来源。　　语料库改变了机器翻译的命运，基于短语的机器翻译发展成为统计机器翻译（ statistical machine translation，SMT），机器翻译走向了商品化和实用化的新阶段。　　随着互联网的迅速发展，我们进入了大数据时代。数据挖掘成为计算机科学的一个重要研究领域，数据挖掘中采用的机器自动学习的方法，对于统计机器翻译具有重要的价值。　　机器自动学习的方法主要有三种类型：有指导的学习、无指导的学习、半指导的学习。　　有指导的学习实际上是对于数据进行分类，首先使用事先定义好的类别或范畴标记对于数据的实例进行标注，作为训练数据，机器根据这些标注好的训练数据进行自动学习，再根据学习得到的知识对于新的数据进行分类。由于用来学习的训练数据是用事先定义好的标记进行过标注的，机器学习的过程是在这些训练数据的指导下进行的，所以叫做有指导的学习。　　在无指导的学习中，用来学习的数据没有使用事先定义好的类别或范畴标记进行过标注，要使用机器学习的算法来自动地发现隐藏在数据中的特征、结构或规律。这种无指导学习的一个关键技术是聚类，聚类技术根据数据实例的相同点或相异点，自动地把它们聚类为不同的组合。　　有指导的学习要求事先人工标注大量的数据实例，需要付出巨大的人工的劳动量，费力而又费时，为了减少人工标注的劳动量，可以同时从标注过的数据实例和没有标注过的数据实例中进行学习，标注过的数据实例的集合可以比较小，而没有标注过的数据实例的集合可以很大，这样的模型叫做半指导的学习。　　机器自动学习的这些方法已经成熟，而且广泛地应用于统计机器翻译的研究中，这就从根本上改变了传统的获取语言知识的手段，从大规模的双语对齐语料库中，通过机器自动学习的方法，去获取语言的翻译信息，对于机器翻译的发展具有革命性的意义。　　目前，基于多层神经网络的、以大数据作为输入的深度学习（deep learning）方法引入到机器翻译中。这是一种新型的机器自动学习。深度学习的训练方式是无监督的特征学习，使用多层神经网络的方法。这种多层神经网络是非线性的，可以重复利用中间层的计算单元，减少参数，计算机从海量的大数据中可以自动地产生模型的特征和算法。　　词向量是多层神经网络的一种重要方法，词向量把单词映射为一个固定维度的向量，不同的词向量构成词向量语义空间，在这个词向量语义空间中，语义相似的单词距离较近。　　深度学习研究者米克罗夫（Tomas Mikolov）发现，如果用“意大利”这个单词的属性向量来减去“罗马”这个单词的属性向量，再加上“巴黎”这个单词的属性向量，我们就能得到“法国”这个单词或者相近的属性向量。类似地，如果用“国王”的属性向量减去“男人”的属性向量，再加上“女人”的属性向量，就能得到“王后”的属性向量。这非常令人振奋的结果，因为米克罗夫事先并没有刻意地做这样的安排。　　2007年以来，采用深度学习的方法，以大规模的双语对齐的口语语料库作为语言知识的来源，从双语对齐的口语语料库中获取翻译知识，统计机器翻译又进一步发展成了神经机器翻译（neural machine translation, NMT），口语神经机器翻译正确率已经超过了 90%，针对日常口语的神经机器翻译基本上已经可以付诸实用了。
但是，在这种神经机器翻译中，语言之间的翻译细节还是一个黑箱（black box），尽管翻译的结果不错，我们对于其中的语言处理机制仍然是不清楚的，在语言学理论上，我们还难以做出科学的解释。　　最近，深度学习向神经网络中融入了记忆机制，把基于理性主义的知识驱动与基于经验主义的数据驱动结合起来，架起了符号主义与联接主义之间的桥梁。这应当是今后神经机器翻译发展的新方向。　　可以看出，由于在机器翻译中引入了语料库技术，已经获得了巨大的进步，这是令人可喜的。不论是书面语文本语料库还是口语语料库，都是机器翻译得以发展进步的关键性因素。语料库对于机器翻译的发展具有举足轻重的作用。　　目前，汉语中介语语料库建设已经取得了很大的成绩。北京语言大学、南京师范大学、鲁东大学、暨南大学、中山大学、上海交通大学、厦门大学、台湾师范大学先后建立了不同规模的汉语中介语语料库。香港中文大学、新疆医科大学还建立了汉语口语习得语料库。　　在这些中介语语料库的基础上，研究者们进行了卓有成效的研究，成果斐然。第三届汉语中介语口语语料库国际会议为交流这些成果提供了一个很好的交流机会，我衷心祝贺这次国际会议成功。

世联翻译-让世界自由沟通！专业的全球语言翻译供应商，上海翻译公司专业品牌。丝路沿线56种语言一站式翻译与技术解决方案，专业英语翻译、日语翻译等文档翻译、同传口译、视频翻译、出国外派服务，加速您的全球交付。世联翻译公司在北京、上海、深圳等国际交往城市设有翻译基地，业务覆盖全国城市。每天有近百万字节的信息和贸易通过世联走向全球！积累了大量政商用户数据，翻译人才库数据，多语种语料库大数据。世联品牌和服务品质已得到政务防务和国际组织、跨国公司和大中型企业等近万用户的认可。