现在标准阿拉伯语的主观性和情感分析内容摘要:

现在标准阿拉伯语的主观性和情感分析 现代标准阿拉伯语的主观性和情感分析摘要:尽管现在主观性和情感分析已经应用在一系列小说的研究上,但是很少有尝试去给语言的丰富的形态建立一个主观性和情感分析系统。 在目前的研究中,我们的努力,部分地填补了这一空白。 我们提出了一个新开发的人工标注的现代标准阿拉伯语(料库和一个新的完全对立的词库。 这个语料库是一些新闻专线文档在句子级注释的集合。 我们还描述了一个可以用于开发注释数据的自动主观性和情感分析标记系统。 我们研究在主观性和情感分析分类工作中预处理设置不同级别的影响,我们证明这个系统可以大大的提高对丰富的语法明确的解释的效率。 1, 介绍主观性和情感分析已经被应用在一系列小说方面的研究,在自然语言界,主观性指意见表达、评估、感情和猜测(班菲尔德,1982;984) ,因此包含情绪。 主观性分类过程是指从分类文本中区分出主观性(例如:穆巴拉克,可恶的独裁者,下台)和客观性(例如:穆巴拉克下台) ,主观性文本是情感和极性的进一步分类,对于情绪分类,任务是指辨别出主观性文本是积极地(例如:一个优秀的照相机) ,消极的(例如:我讨厌这相机) ,中立的(例如:我相信这将是一个会议) ,或者,有时是混合的(例如:它很好,但是我讨厌它)文本。 大多数的主观性和情感分析文献都集中在英语或者其他欧洲殖民地的土著语言,很少有研究去解决丰富的语言语法的问题,例如阿拉伯语,土耳其希伯来语,捷克语等。 (et 2010)。 一般来说,大量语言语法问题是对自然语言处理系统的重大的挑战,主观性和情感分析也不例外,在一些语言语法上,由于缺少主观性和情感分析的资源,这个问题甚至更加明显,例如有注释的语料库,和有极性的词典。 在当前的研究中,我们的任务是从新闻专线类别现代标准阿拉伯语文本句子级的主观性和情感分析研究。 我们在应用阿拉伯树图资料库(et 2004) ,和使用两个独立语言以及阿拉伯语的特性的已标记的文本的基于数学形态学特征的三个不同的过程设置去进行实验,我们的工作表明,在我们的模型中明确的应用基于数学的形态学特征证明这个系统的性能,我们也估计在改善分类性能应用一个覆盖面广的极性词典和演示应用一个定做的资源的影响。 2, 方法从我们知道的知识,没有带注释的现代标准阿拉伯语主观性和情感分析数据存在。 因此我们决定建立一个我们自己的主观性和情感分析注释数据。 据集和注释语料库:两个受过大学教育的母语为阿拉伯语的人士在 的第一部分 释了 2855 个句子。 这些句子组成这部分 第一个 400 份文档总计约 一部分数据集的 对于每个句子,注释者指定了 4 个可能的标签:(1)客观的( , (2)主观的, (3 )主观的- 消极的(, (4 )主观的。 然后(et 1999) ,如果一个句子的标签是 一印象就是根据报告的信息判断句子是客观的。 否则,这个句子就是其他三个之中一个主观性分类,多个注释者一起可以达到 在我们的数据集中级别的描述如下:1281 个客观的,1574 个主观的,有 491 个被认为是 89 个是 94 个事 外,在我们的数据集中的每个句子都是用一个领域的标签手动标注的。 这个领域标签来自于新闻专线分类和采用(2008)。 极性词典:我们手动创建了一个有 3982 个形容词且贴有以下标记的积极地,消极的,中性标签的的词典。 这些形容词从属于新闻领域。 动分类标记化方案和设置:我们在 的金色标记的文本上进行实验,我们采用 1 的标记化方案,我们采用 L 标记化方案,这种方案后接的和附属词都是从主茎中分离得出。 我们尝试使用三个不同的针对词干词的预处理单词配置:(1)表面,词干的表面是由最小的曲折词素组成的;(2)词元,词干词是减少他们的词元引用形式,举个动词的例子来说,男性第三人称单数的完成时;(3)词干,就是表面减去屈折语素,这种配置能导致非适当的阿拉伯语词汇(按信息检索) ,表 1 说明了这三种配置方案的例子。 特点:我们采用的产品特征主要有两种:独立的语言特征和形态特征。 独立的语言特征:这种特性已经被应用于各种各样的 究。 域:如下(009) ,我们用一个特征来表明句子归属的文档的域。 正如前面所提到的,每一个句子都有一个文档域手动的标签与之关联。 独特性:如韦伯等其他人(2004)应用的一个独特性。 即单词,发生在我们的语料库的的绝对次数小于五,就替换为令牌“独特”。 们对 于等于 4 的所有可能的组合进行试验。 形容词:对于主观分类, (我们在一个句子中根据 添加一个有形容词特征的来表明是否有任何形容词存在于我们手动创建的极性词典中) ,我们按照布鲁斯·韦博(1999 年)中添加一个具有二分特征的形容词,不论这些我们手动创建的形容词是否能在句子里创造出来极性词典。 对于情绪分类,我们应用两个特性,积极性的形容词和消极性的形容词,在一个句子中的任何一个二分特征表明是积极性的形容词还是消极性的。 态学特征: 现出了非常丰富的形态系统,它是商业的,凝集的,基于派生性和屈折性的。 我们明确了人、状态、性别、时态、外貌、和数字的形态特征模型。 我们不适用 息,我们假设我们模型中是未评论的的文本。 法:两级分类过程在目前的研究中,我们采用两级分类方法。 在第一个阶段(即主观的) ,我们建立一个二分分类器从主观性容器中分出客观的,第二阶段(即情感)我们采用二分分类法从 区分出 们忽视试验中的中立信息。 我们使用一个 持向量机)分类器,( 2008)。 我们尝试各种各样的核心程序和参数设置使线性内核产生最好的性能。 我们用存在向量运行实验:在每个句子矢量中,每个容器的值都是二进制的,不是 0 就是 1(不管有多少次特性发生)。 实验条件:我们首先使用 3 个词形归并的全部运行实验,并应用各种各样的 合甚至迭加其他性能设置表面,引理,枝干。 形态特征(即变形)仅仅添加了枝干设置。 独立语言特性(即从下面的设置加入到引理和枝干+语素设置,这是三个设置中,附着词素就是在句子向量中保持独立特性的分裂词。 3 结论和评价我们把我们的数据 80%划分用于 5 层交叉检验,20%用于测试。 相对于实验测试数据,这80%用作运行数据。 我们有两个设置,一个开发环境(,一个测试设置(。 在开发环境中,我们运行典型的 5 层交叉检验,就是我们锻炼四层改善测试第五层,然后取平均值。 在测试设置中,我们仅仅和开发环境中产生的最好的配置一样。 在测试方式中,我们仍然只运行前四层但是我们的测试数据是唯一的,平均在不同的运行范围。 值得注意的是,测试数据大于任何给定的开发环境数据(总体数据的 20%用于测试,16%。 )。 我们用 )报告结果。 此外,对于测试,我们的报告上仅仅只有在 面的实验。 下面,我们仅仅报告在 及它们的组合上最好的执行结果。 每种情况中,我们的基线是训练机中的大部分分类。 观性在所有的词元化设置中,枝干是最好的,执行 (g+2g) ,表面 (1g+2g+3g) ,引理 (g+2g)。 另外,添加屈折形态学特性提高了分类(g+2g as is F。 对于语言独立性,we DJ In 立特性有助于分类和引理,但是会伤害 2 表明,尽管。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。