(接上页)小编:为什么要给例句加注标签在《语料库的制作与日语研究》中我们详细介绍了如何利用免费软件来制作日语语料库和如何使用语料库。但如果有了自己的语料库就可以不受时间、地点和可
1.1为什么要给例句加注标签在
《语料库的制作与日语研究》中我们详细介绍了如何利用免费软件来制作日语语料库和如何使用语料库。但如果有了自己的语料库就可以不受时间、地点和可否上网等条件的限制,随时随地根据学习和研究的需要检索例句
的确,与手工收集例句相比,使用语料库检索例句不仅可以提高收集例句的速度,而且还可以解决文献体裁涵盖面小的问题。由于基本上可以根据自己的研究需要进行各种各样的检索并收集各种各样的例句,这就从根本上解决了例句不足的问题
但是,学会了制作语料库并非大功告成,收集到了数以千计或数以万计的例句也并非意味着研究已见光明。还有一项非常关键和非常重要的、同时也是非常令人头痛的工作在等待着我们,那就是如何分析收集来的例句和从收集来的例句中找到研究的线索
以前我们说过②,无论从事什么样的研究,基本上都有两个方法。一个是归纳法,一个是演绎法。使用语料库进行研究,基本是以归纳法为主,即从大量的例句中去归纳和发现规则或规律。而问题是应该如何去归纳和发现规则或规律。
比如,在20个人中,有5个人是兄弟姐妹的关系,即一家人。其他皆为与这家人、同时也与其他人无关的人。这时,大家都会用自己的大脑对20个人进行分类,然后在脑内进行各种各样的排列组合,最后辨别出这5个人来①本书在论述标签问题时,有的时候使用“标注标签”,有的时候使用“加注标签”。两者在本书中视为同义词,只是根据文章的行文需要有所选择而已。另外,在先贤的研究中,会出现各种不同的说法,比如加注标签”“标注标签”“赋予标记”“加标签”“赋标”等。这些术语指的都是同一种现象,所以,本书不作严格区分②参见于康:《日语论文写作—方法与实践》,高等教育出版社2008年版;于康:《现代日语语言学丛书语法学》,高等教育出版社2012年版
日语加连檬签样与对20个人进行分类,依据的是区别特征。这些区别特征实际上就是一种标签。给每个人标注上各种各样的标签,然后再对这些标签反反复复地进行各种各样的排列组合,最后找出具有相同特征的标签,以此来认定具有兄弟姐妹关系的个人。
由此可见,归纳例句和从例句中发现规则或规律比较有效的方法是给研究对象加注各类标签,通过对标签的不断分类和排列组合,剔除无用的信息,最后归纳出具有上位概念意义的特征来。这个特征就是具有能产性和普遍解释意义的规则或规律
对研究的对象进行分类实际上就是一种合并同类项的工作。类型相同者定会具有相同的特征,这个特征也就是用来证明自己不同于其他、并具有区别意义的条件。
合并同类项需要分类依据,只有同类的项目才能合并。在不断地合并同类项的过程中,区别特征会越来越清晰和显著。分类需要依据标记,只有相同的标记才能证明其为同类。这个标记就是我们所说的标签当研究对象的数量不太多时,可以依靠大脑来给对象加标记,并用大脑来
对标记进行筛选和分类,最后实现合并同类项。但是,当对象的数量庞大时,由于大脑的记忆力有限,就无法快速准确地对研究对象进行分析和分类了比如,如果需要在1万个人中找出具有父子关系的人,用大脑来进行分类和归纳就很困难了。此时,需要给1万个人加注各类标签,然后使用电脑对这些标签进行分类和统计,最后归纳出所有具有父子关系的人来。
要想使检索出来的例句活起来,即从检索出来的例句中顺利地归纳出规则或规律来,给例句加注标签是一个必不可少的研究步骤。通过对标签的归纳和统计,可以发现通常依靠目视无法发现的问题和意想不到的规则或规律。这样就可以大大地提高研究的速度和深度,使枯燥无味的研究变成一种乐趣。
1.2标签的种类
与日语研究和日语教学相关的语料库基本可以分为3大类。一类是日语语料库,一类是偏误语料库,一类是翻译语料库。日语语料库和偏误语料库属于单语语料库,翻译语料库属于双语或多语语料库。无论哪类语料库都需要加注标签,以此来提高分析问题和解决问题的速度和深度。
标签的种类会因研究领域以及研究目的的不同而有所不同。研究语言用的标签通常可以分为两个大类
语料库与标签
①注明例句出处的标签
②注明例句成分的标签例句出处的标签指的是注明
例句来自何处的标签。比如作者姓名、性别、年龄、身份,刊登的报刊、杂志、书籍以及体裁等信息。例句成分的标签指的是注明例句中各类句子成分性质的标签,比如词汇、语法、句法、语义、语用和篇章、话语等信息。
例句出处的标签中,日语语料库需要标注作者的姓名、性别、作品名、刊登的刊物、出版单位、出版时间、文章的体裁等信息。
偏误语料库由于以学习者的作文为主,通常需要标注作者的姓名、性别、年级、学习日语的时间、留学的经历和时间、文章的体裁等信息。
翻译语料库由两个小类构成:一个是标准翻译语料库,一个是翻译习作语料库。标准翻译语料库指的是原文与译文都是由正式刊行或出版的文章或书籍构成的语料库。翻译习作语料库指的是原文为正式出版物、而译文为翻译作业的语料库①。在标准翻译语料库中,需要标注译者的姓名、性别、作品名、刊登的刊物出版单位、出版时间、文章的体裁等信息。在翻译习作语料库中,需要标注译者姓名、性别、年级、学习日语的时间、留学的经历和时间、作品名、文章的体裁等信息
在例句成分的标签中,日语语料库、偏误语料库和翻译语料库都可以标注词汇、语法、句法、语义、语用和篇章、话语等信息。加注标签时有两个方法:一个是穷尽加注法;一个是部分加注法。穷尽加注法指的是不仅给例句加注词汇、语法句法、语义等标签,同时还加注语用、篇章和话语等标签。部分加注法指的是根据研究的需要在词汇、语法、句法、语义、语用和篇章、话语等标签中,选择最需要的标签给例句加注
无论是采用穷尽加注法,还是部分加注法,都取决于读者的研究目的和加注标签的时间。穷尽加注法和部分加注法各有利弊。穷尽加注法可以相对地一劳永逸,但需要漫长的时间。部分加注法有的放矢,对症下药,可以大大缩短加注的时间,但由于只能“有的放矢和对症下药”,所以,当标签的种类不能满足研究的需要时,就需要再加注二次性或三次性的标签。
实际上,穷尽加注法并非能够真正达到穷尽,还会有很多注意不到的变数。
在加注标签的过程中,二次加注标签和三次加注标签往往是不可避免的。
①标准翻译语料库和翻译习作语料库的名称并不精准,属于暂时的叫法。因为,标准翻译语料库中的译文未必都是正确的译文,也会包括误译,而翻译习作语料库中的译文未必都是错误的译文,也会包括确的翻译。只不过标准翻译语料库中的文章属于正式出版物,翻译习作语料库中的文章属于非正式出版物,而且,翻译习作语料库中误译率会远远大于标准翻译语料库,所以姑且暂用此名
论文查重免费入口 论文降重 论文查重是怎么查的
当前网址:http://www.paperaa.com/news/1109.html