【关键字】歧义性;多义性 ;模糊性;自然语言计算模型
【出 处】 2018年 1期
【收 录】中文学术期刊网
【作 者】周经野 尹方园
【单 位】
【摘 要】提要:本文将自然语言中的歧义现象归纳为三种性质,歧义性、多义性和模糊性。在此基础上,依据自然语言的计算模型给出它们各自确切的形式定义,并论述了对这三个性质的不同处理策略。
提要:本文将自然语言中的歧义现象归纳为三种性质,歧义性、多义性和模糊性。在此基础上,依据自然语言的计算模型给出它们各自确切的形式定义,并论述了对这三个性质的不同处理策略。
关键词:歧义性;多义性 ;模糊性;自然语言计算模型
Abstract: In the paper three different properties of natural language, ambiguousness,polysemy and fuzziness, are concluded from the so-called vague phenomenon of natural language. These properties are formally defined based on the computational model of natural language communication. Finally the different strategies for processing these properties are presented and discussed.
Keywords: ambiguousness, polysemy, fuzziness, Computational model of natural language
自然语言歧义现象各种性质的形式定义
1.导言:
人们总说自然语言的表达存在着模棱两可或者含混不清的问题。凡此种种,我们统称为自然语言中的歧义现象。语言学家们很早就注意到了这个问题,并开展了对它的研究。
汉语的歧义现象的研究始于1959年赵元任先生的《汉语的歧义问题》,到上个世纪70年代末,歧义问题的研究蓬勃发展,诸位大家及语言工作者纷纷对歧义现象发表看法和见解,并试图对歧义做出界定。纵观这些研究文献,给歧义下定义的不下20种,其中以吕叔湘、朱德熙、赵元任、沈家煊、祝注先、邵敬敏、等诸位先生的定义较有代表性。
吕叔湘先生(1984:321)认为:“歧义是由于同一片段可以分析成几种结构,或者是由于这个片段之中有一个多义成分。前者又可以分别指两种情形:或者是结构切分不同,或者是结构关系不同。后者也可以分别指两种情形:或者是多义成分引起不同结构,或者是不引起不同结构”;朱德熙先生在《汉语句法中的歧义现象》(1980:81)中认为,“所谓语法歧义指的是句子的多义现象。一个词不止一个意思叫多义词,那么一个句子不止一个意义也可以叫做多义句”;赵元任先生(1988)在《汉语的歧义问题》中提出:“一个符号可以作不止一种理解时,我们就说它有歧义。”;祝注先先生(1984:77)认为:“所谓歧义,是指同一语言材料的意义不明确,可以做出不同理解的现象。”;而邵敬敏先生(1991:38)则认为“歧义结构是同形结构”。
这些观点大致可以概括为同一个语言形式对应了多种结构或多种意义的现象,但彼此之间存在不同程度的差异,反映了研究者在歧义的定性方面的认识存在分歧。有从结构上谈歧义,有的侧重从语义上来分析,对歧义的认识和界定不是那么统一。
歧义现象是自然语言中的一个普遍存在的重要现象。它的产生是由多方面原因引起的,实际上是自然语言的多种性质的体现。正因为如此,各家对歧义的定义才会存在着很大的分歧。歧义现象也是自然语言处理中的一个难题。在计算语言学中,要想很好地处理自然语言的歧义现象,就需要明确歧义现象是有哪些性质所引起的,并给出它们各自的明确的形式定义,这样才能够为进一步处理自然语言中的歧义现象打好基础。
本文的工作就是对引起自然语言歧义现象的各种性质给出明确的形式定义。在文中,我们首先把自然语言中的歧义现象归纳为表层语义的歧义和深层语义的歧义。其中,表层语义的歧义是语言单位的语义结构的多样性,我们称之为歧义性;而深层语义的歧义则表现为多义性和模糊性。然后我们在分别对其进行论述的基础上,依据自然语言的计算模型给出它们各自的形式定义。最后,我们从计算的角度讨论了对它们的不同的处理策略。
2.自然语言歧义现象中的几种性质
从上述各家对歧义现象的论述中不难看出,吕叔湘先生侧重从结构角度谈歧义,认为歧义就是由结构切分或者结构关系不同引起的;朱德熙先生在谈到歧义时的观点有相矛盾的地方。他在《句法结构》中认为歧义句是不同句子之间的关系,是不同句子采取同一语言形式的现象,而不是同一句子具有多种意义的现象,实际上否认了多义语言片段存在,而后在《汉语句法中的歧义现象》中则明确地肯定了多义语言片段的存在,并认为歧义句就是多义句;赵元任先生将可以作不同理解的符号都称之为歧义,对歧义界定的边界不明确。总结各家的观点,不难发现,为歧义现象下定义总是或多或少地涉及或者混淆了自然语言的一些不同的性质。经过分析和归纳,我们认为由各种不同原因引起的自然语言歧义现象可以归纳为三种不同的性质。我们把它们分别称之为歧义性、多义性和模糊性。
(1) 歧义性:首先在自然语言的各种歧义现象中,有一种歧义现象是与背景知识无关的。引起这种歧义的原因在于构成语言单位的各个成分之间在表层语义结构关系上不是唯一的,即人们通常所说的语法上的歧义。例如:
图1:例1的歧义结构 assoc
(b)
assoc head head 宿舍 修理 工人
head 宿舍
assoc pred obj 工人 修理 例1:修理工人的宿舍。它具有两个不同的语义结构,分别如图1中(a)和(b)所示的语义网络。
subj assoc pred obj head 必要 批评
没有 是 害人的 pred obj subj assoc pred obj head 没有 必要
批评 是 害人的 pred obj (a) (b) 图2:例2的歧义结构 例1是由于其内部的组合关系不同而引起歧义的短语。又如吕叔湘先生的《歧义类例》中的一个歧义的句子。例2:没有必要的批评是害人的。
它也具有两个不同的语义结构,如图2中(a)和(b)所示的语义网络。
例2是因其中的短语“没有必要的批评”的内部组合关系不同而引起的歧义性。
少数人 subj assoc pred ? head 反对 ★
是 pred obj 图3:例3的歧义结构 有些歧义结构是因其中某些省略成分的语义关系不明确而造成的。例如祝注先先生的《歧义纵横谈》中的一个例子:例3:反对的是少数人。
其语义结构如图3所示。其中标记?号的弧是暂时无法确定的。因为例3中含有一个“的”字结构,其中零代词所表示的对象,即图3中★所标示的结点既可充当“反对”的施动,又可充当它的受事,其语义关系不明确,故而造成歧义。
以上的歧义现象都是发生在表层语义层面上的,是与背景知识无关。我们将自然语言中引起这种歧义现象的性质归纳为歧义性。
(2) 多义性:在自然语言的各种歧义现象中,有一种歧义现象是与背景知识有关的。在这种歧义现象中,语言单位的语义结构是唯一的,可是它在言语交际中仍然会因为交际方的理解不同而具有不同的意义。引起这种歧义现象的原因不在语言单位的表层语义,而在语言的深层语义,是与背景知识有关的。这是因为自然语言理解的过程是人们运用自身的知识对语言单位进行处理的结果,背景知识不同就自然会造成不同的理解。
由此可见这种歧义现象与前一种是完全不同的。我们将引起自然语言中产生这种歧义现象的性质归纳为多义性。
多义性涉及自然语言的深层语义,即人们的知识背景。这些知识背景包括交际参与者的相互关系、性别、种族、修养、社会地位、教育背景、家庭背景、居住环境、信仰等等。例如朱德熙先生给出的例句:
例4:他一天不吃饭也不行。
这句话就有两种意义。如果这句话是对一个北方人说的,那他理解的意义一般就会是“他一天也不能饿着”;而这句话如果是对一个南方人说,那他理解的又会是另外一层意义,即“他天天都得吃米饭”。
所以,人们对话语的理解是与理解者的背景知识相关的。有时候人们对话语的理解还要依赖于交际的场景,比如语言活动发生的地点、时间、场合、话题、交际方式、等等。也就是说,在自然语言交际中,人们理解话语时所获得的意义是经过其应用知识加工处理后的结果。我们称之为深层语义。人们的背景知识不一样,对一句话的理解也就会不一样,这就是为什么人们常说“一百个读者有一百个哈姆雷特”的原因。
多义性是自然语言的天性使然,是自然语言的本质特征之一。我们期望自然语言能够达到这样一种理想状况,使得每个词对应着唯一的概念,每个语言单位对应着唯一的意义,形成语言单位和其所要表达的概念间的映射。然而这是不可能的。首先,语言的经济性原则,人类的认知规律,以及人脑的对信息的理解和储存能力的有限性要求语言要以较少量的符号传递最大量的信息。本质上说,语言交流中传递的信息是缺省的,其中缺省的部分是由接收者自主添加的。因此这就不可避免地造成不同的接收者会用不同的知识去补充缺省值,从而就会有不同的理解。其次符号系统所表达的集合只能是可数的,而需要表达的对象却是不可数的。这个矛盾使得一个符号表达与其所表达的对象就不能是唯一的,而必定是多个的。这样就自然会造成自然语言中出现很多的多义概念,即语言单位的多义性。
(3) 模糊性:最早对“模糊”进行计算的是美国数学家扎德。在扎德的模糊数学中的模糊是指模糊子集的概念。我们把一个概念称为模糊概念,如果说这个概念的外延是一个模糊子集。也就是说,模糊概念所表示的客体的集合不是经典集合,而是模糊子集。若一个语言单位表达的概念是模糊概念,我们便称该语言单位具有模糊性。
模糊性是语言自身固有的特征之一。正因为如此,所以虽然在自然语言系统中普遍存在模糊性,但在通常的情况下它并不影响人们对话语的理解。例如:
例5:小王夜里经常不舒服,白天总是很疲倦。
这句话中有多个词是模糊的,但并不影响人们对这两句话的理解。相反,如果在一般性交际中,将“夜里”“经常”“不舒服”均换成精确的概念,则会让人感觉很迂腐,很啰嗦。
模糊性仍然是属于深层语义的。我们之所以把它单独列出来,是因为模糊性本身也是自然语言的一个重要特性。语言的模糊性主要是语言中话语所表达的中心意义明确而语义所反映对象的界限不确定的特征。在自然语言中,许多词语所表达的概念都是“模糊概念”。如“早晨”同“上午”、“下午”同“傍晚”、“傍晚”同“夜晚” 之间都很难划出一条截然分明的界限。此外还有“老年”、“中年”、“青年”、“美丽”、“高大”、……、等等都是模糊概念。扎德将这种定义在模糊子集上的符号称为语言变量。
使用模糊性是语言交际中一种有用的或者折中的艺术性措辞手段。适度地使用一些模糊概念,不至于把话说得太绝,可以使说话人避免陷入被动、尴尬的境地。比如,在外交辞令或有关外交关系的报道中,经常可以看到诸如“在适当的时候”或“在时机成熟时”、“妥善处理好两国的关系”之类的具有模糊性的措辞。这些模糊性的措辞既表达了说话方的一种明确意思,又给说话方留下了回旋的余地。
歧义性是不是模糊的呢?不是。因为歧义性是指语言单位的表层语义结构有多个,但其仍然是一个经典集合,而并非是一个模糊子集,所以不能称其为模糊的。多义性是不是模糊的呢?不一定。因为多义性是指语言单位所表达的概念有多个,但它们并不一定是模糊概念,所以也不能称其为模糊的。例如:
例6:他一直住在房子里。
人们认为这句话是多义的。句中的“房子”可以是泛指的房子,也可以是定指的房子,因而是多义。也有人称之为笼统。但是这是一个上属概念与下属概念的限定问题,并非是模糊的。因为“房子”这个概念的外延是经典集合,而非模糊子集。所以例6具有多义性,但不是模糊性。
由此我们可以看到,自然语言的模糊性是独立于歧义性与多义性之外的一个性质。
从计算语言的角度来说,将模糊性作为自然语言的独立性质予以明确的形式化定义,有利于我们使用模糊数学的工具来处理。
3.自然语言中歧义现象的形式定义
自然语言中的语言单位有语素、词、短语、句子。每个语言单位都表示为线性的符号串,如汉语符号串。我们称这种线性符号串为语言单位的语言形式。语言单位还有其内部结构,即其内部各成分之间的关系,我们称之为语义结构。语义结构不是线性的,而是复杂的网络结构。它刻画了某些概念标记以及它们之间的关系。语义结构不是传统意义上的语法结构,它是语言单位的浅层次语义的一种静态结构的描写,在理解过程中起着不可缺少的中介作用,我们称之为语言单位的表层语义。语义结构并不是语言单位的真正意义,语言单位的真正意义是基于领域知识,或背景知识,的动态计算后的结果。我们把这种经过知识处理后主观世界中产生的像称为语言单位的深层语义。
在自然语言处理中,语义处理是关键。在汉语的语法分析中语义起着主导作用。要让计算机处理好自然语言的语义,就必须给出自然语言语义的形式定义。为此,我们建立如下的自然语言计算模型。周经野(1993:42)
W* s N n n' M m m' 语言形式 表层语义 深层语义 G O P U 图4:自然语言的计算模型 令W为所有词的集合,N为所有语言单位内部结构的集合,M为基本意义单位集合。 分析函数P是从W*到N的映射,理解函数U是从N到M的幂集的映射;构思函数O是从M的幂集到N的映射,生成函数G是N到W*的映射。于是自然语言交流的全过程可以抽象为图所示的计算模型。依据这个计算模型,我们给出自然语言的语言单位的表层语义和深层语义的形式定义。
定义1:令s为一个语言单位,s的表层语义定义为函数值P(s)。
定义2:令s∈W*为一个语言单位,s的深层语义为复合函数值U(P(s),K)),其中K是背景知识的集合。理解函数U可以展开表示如下:
∏ ii == 1nfi (ki)·· P (s) = f1 (k1, f2 (k2, (...fn (kn, (NET (s)))...)),
其中,ki,fi∈K,ki是背景知识集合中的知识,fi是对语义网络的操作。
鉴于本文的需要,我们在此只给出语言单位的指称语义的定义。对于包括各种操作在内的深层语义的其它进一步定义,我们不在此赘述。
定义3:令s∈W*为一个语言单位,定义s的指称语义为
Denotation(s) = {t |t是背景知识K中实体且属于s所标记的概念类的集合}
实际上一个语言单位s是概念的标记。在一个具体的知识背景中,概念的外延是由一些实体组成的集合。s的指称语义就是他所标记的概念的外延的集合。
根据这个自然语言的计算模型和以上的几个定义,我们形式地定义自然语言的歧义现象中的几个性质如下,并分别称它们为歧义性、多义性和模糊性。
定义4:如果一个语言单位s的表层语义不是唯一的,即其函数值P(s)多于一个,则称语言单位s具有歧义性。
定义5:如果一个语言单位s的深层语义不是唯一的,即其函数值U(P(s), K))多于一个,则称语言单位s具有多义性。
定义6:如果一个语言单位s的指称语义是一个模糊子集,即其函数值Denotation(s)是一个模糊子集,则称语言单位s具有模糊性。
在自然语言的计算模型上,我们给出了歧义现象的形式化的定义。其中歧义性是基于表层语义上的,而多义性、模糊性都是基于深层语义上的。对于这几种性质我们的处理策略也不一样。
4.对歧义现象的不同处理策略。
(1) 对于自然语言的歧义性,我们的处理策略是消除歧义。
歧义性的产生是人们在运用语言的过程中自觉或不自觉地涉及到了语言中某些容易导致歧义的因素。例如,语言单位中的各成分之间存在着具有可塑性的语义组合关系,含有可接受的多种逻辑关系,存在角色不明确的省略成分,等等。这种歧义的产生是在语言的使用中不应该发生的,因此应该予以消除。
在自然语言中,很多的歧义性是可以在表层语义分析中运用表层语义的规则式消除的。比如“修理工人的宿舍”这个歧义结构,在 “修理工人的宿舍在教室的后面”和“修理工人的宿舍安排在明天”这两句话中,这个歧义结构就会在后续的分析中,即在更大的上下文中,各自产生其所对应的语义结构,从而消除了歧义性,也就不会造成理解的障碍。因此这种歧义性是在更大的上下文的表层语义分析中予以消除的。对于如何在表层语义的分析中消除这种歧义性,我们将另外撰写论文,在此不再赘述。
值得指出的是,有些歧义性是无法用表层语义的规则来消除的,它们的消除通常要借助深层语义,即要放在一个更大的语言环境中或者依靠应用背景知识的推理才能消除。这样的歧义性,我们叫做先天歧义性。例3就是先天歧义的,因为不依靠上下文语境所给出的深层语义或者应用听话者的背景知识的推理就无法消除它的歧义性。对于先天歧义,它的存在会给言语交际的理解带来很大的不确定和干扰。因此,从说话者来说,应该尽量避免使用一些能够造成先天歧义的句子。一个歧义结构所表达的多种意义总是离散的、独立的,因而能够分化出不同的确定意义。如果换个说法,使语句中不含有那些容易产生歧义的句法与逻辑语义关系,就可以避免歧义的产生。比如,在“他反对的是少数人”和“反对他的是少数人”中,歧义性就消除了。
(2) 对于自然语言的多义性,我们不可能也不应该去消除它。
首先,多义性是自然语言的本质特性之一。符号所表达的客体究竟是什么取决于人们的背景知识。人们的背景知识不可能完全一样,因而对于同一句话的理解就有可能不同。从自然语言的计算模型上来看,m和m’是不可能完全重合的。另外,即便是同一个人,在不同时期,背景知识不一样了,对同样一句话的理解也有可能不一样,这就是孔子的“温故而知新”的原因。因此对于自然语言的多义性,我们不可能去消除它。同样的对于计算机而言,如果两台计算机具有不同的背景知识,那么它们对于同样一句话的理解也会不一样。这完全是正常的,对此我们要容忍。
另一方面,正是由于多义性,自然语言才呈现出它独有的魅力。有的时候人们会为了表达上的需要而故意使用一些意义模棱两可的句子让听话者去理解,巧妙地去运用它,以此增强语言的丰富性。如新闻的标题:孙雯立“头”功。“头”在这个标题中既表达人的头,又表达第一。这样的标题既形式简练,又内容丰富,还很有情趣。很多文学作品,如诗歌、散文、戏曲、小说、等等,之所以让人感到美不胜收,也是由于语言的多义性产生了美的效果。由此可见,多义性正是自然语言远远超越各种人工语言的优越之处。因此,多义性是不应该被消除。我们应该做的是研究如何来模拟人脑对自然语言多义性的处理。
虽然多义词的意义较多,但在使用过程中,由于其使用语境或结合上下文,一般不会造成意义上的混淆。多义词只有在“附加信息量不足”时才有可能造成理解上的困难。但一般而言,某个多义词在某一个句子中所表示的那个特定义项,可以根据语境的制约将其选择出来。人们在交际时可以结合说话者或听话者的知识背景来选择正确的那个意义。
从计算的角度来看,自然语言的多义性所涉及到的是深层语义计算中的参数K,即背景知识。只要我们认为背景知识K的选取是正确的,我们就应该接受其所计算出来的深层语义是正确的。
(3) 对自然语言的模糊性,我们采用模糊数学的方法来处理。
既然我们用模糊数学中的“模糊”定义了自然语言的模糊性,这就为我们运用模糊数学的方法处理之打下了基础。
在模糊数学中,是运用隶属度的方法来定义模糊子集。所谓隶属度就是用一个从论域U到[0,1]区间的映射来描述U中每个元素属于这个模糊子集的程度。例如,令U为数字1到10, 模糊子集“大”和“小”可用分别用以下两个隶属度表达式来描述:
“大”= 1/10 + 0.8/9 + 0.6/8 + 0.4/7 + 0.2/6 + 0.1/5;
“小”= 1/1 + 0.8/2 + 0.6/3 + 0.4/4 + 0.2/5 + 0.1/6;
其中“=”表示“定义为”;分母表示某个元素;分子表示这个元素对“大”或“小”的隶属度;“+”表示并列关系,而不是分式求和。上式说明这些数字在某种程度上属于“大”或“小”。其中,隶属度为1的完全属于“大”或“小”;隶属度越接近1,属于程度就越高;隶属度小一些,属于程度也就低一些;隶属度为零的则省略了。隶属度函数将模糊子集表示为精确的数学描述,因此,模糊概念用隶属度函数定义后,就可以计算了。
很多的模糊概念都可以作用在不同概念类上,因此定义模糊概念的隶属度函数往往是重载的函数。比如,“高”这个模糊概念就可以作用于许多不同的概念类,对建筑物而言,30米高度的隶属于“高”的隶属度就几乎为1了;但是对山而言,30米高度的隶属于“高”的隶属度就几乎为零。因而它的隶属度函数在不同的定义域上的定义是不同的。这种隶属函数的重载性可以用面向对象语言中的多态性来处理。
值得指出的是,模糊概念的隶属函数因涉及到个人的知识背景也会因人而异的。比如“高山”这个概念。什么样的山才叫做“高山”,每个人内心的主观判断不同,对它的定义,即隶属度函数,也就会不同。一座海拔200米的山丘,也许会被一个出生在平原从来未见过山的人认为是“高”的了,但是决不会被一个来自青藏高原的人认为是“高”的。所以模糊性是多义的,它的处理也是属于深层语义的计算。
5.总结
纵观程序设计语言几十年的发展历程,就会发现一个很有趣的轨迹。早期的程序设计语言严格要求符号表达的唯一性,但是随着发展却逐渐地放开这种限制,允许同一个符号表示不同的函数。这就是现在流行的面向对象程序设计语言中的一个重要的特性——多态性。换言之,程序设计语言的发展伴随着歧义现象的出现和丰富。多态性提高了程序设计语言的表达手段,提高了语言的抽象能力,得到了人们的赞许和喜爱。或许,自然语言的歧义现象正是其历经数千年发展所致,是人脑智能抽象能力提高的结果。自然语言的表达能力和抽象能力远远超过了任何程序设计语言。所以丰富的歧义现象正是自然语言的优越之处。因此,我们在研究用计算的手段处理自然语言时,一定要很好地保留和展现它的优越之处。这是我们在研究中务必要注意的。这也正是我们把自然语言歧义现象分成三种不同性质的初衷。
我们将引起自然语言歧义现象的原因归纳为三个不同性质:歧义性、多义性和模糊性;然后依据自然语言的计算模型给出它们形式化的定义;并对它们的处理策略做了大体方法上的简要讨论。一是限于篇幅,二是限于工作,本文中没有对各种性质的处理策略进行更深入的介绍,比如,在计算语言学角度上如何去识别和消除歧义性、如何去模拟人脑对多义性的处理、等等。其中有些工作我们将撰写另文介绍,其中有些问题还需要我们进一步做深入的探讨和研究。我们认为,对自然语言歧义现象进行了各种性质的明确划分和形式定义之后,我们对自然语言的歧义现象不再是胡子眉毛一把抓了,而是能够根据各自不同的性质来深入研究它们的规律以及处理方法,这样才能够很好地认识和处理自然语言的歧义现象。
参考文献:
[1] 赵元任,汉语中的歧义问题 . 《语言学论丛(十五)》北京:商务印书馆,1988。
[2] 朱德熙,汉语句法里的歧义现象. 中国语文第2期,P81页,1980。
[3] 吕叔湘 ,歧义类例。中国语文第5期 ,1984。
[4] 祝注先 ,歧义纵横谈。中南民族学院学报第4期,P77页,1984。
[5] 邵敬敏 ,歧义分化方法探讨。语言教学与研究第1期,P38页,1991。
[6] 吴竞存、侯学超, 层次相同的同形结构例释。北京大学学报(哲学社会科学版)第6期,1981。
[8] 周经野 ,基于自然语言计算模型的汉语理解系统 软件学报第6期 P42页,1993。