畅选网回复:您好,感谢使用畅选语料库!
首先为您解释一下本语料库的设计思路:我们认为语料从根本来讲,是在无数的语言材料中出现的样本。而语料库是这些样本的固定范围的集合,并不能代表全部的语言范畴。因此,我们认为通过语料库研究某个词汇或用法,是通过检索词汇用法在一定语言范围中出现的概率,以此来判断该词汇或用法的一些意义和特性。因此,在语料库本身只是一个范围而不是所有语言范畴的前提下,检索500篇或2000篇,和检索全部的意义差别并不是很大,都是在一定范围内的出现概率。
其次,我们语料库的检索,是以文章为对象,在整个语料库中随机抽取的。也就是说,您选择2000篇,就会在语料库中随机抽取的2000篇文章,从中检索您需要的关键词样本(一篇文章中所有出现该关键词的语料,我们都会为您列出)。为了避免单次检索引起的出现概率误差,您可以使用“更换样本,再检索一次”的功能,进行多次检索,将几次的检索结果进行统计,罗列数次的出现概率或计算其平均值,也许会是一个较为科学的数据支撑。
我们在制作语料库的过程中,也借鉴了日本国立国語研究所的小纳言、中纳言コーパス等语料库,比如小纳言是固定展示500条语料结果,并且每次检索结果都是固定不变的。我们也是觉得这样不能为研究提供太多的数据支撑,因此才采用了目前的这种随机抽取的检索方式。
最后,再次感谢您提出的意见和建议!以上是我们一点浅薄的认识,希望能够与您进一步地交流,深入探讨语料库如何能够在语言研究中发挥更大的作用。方便的话请加我们的服务QQ:386456103。同时,我们也是希望通过搭建一个平台,通过大家的努力,共同打造一个属于我们中国日语学界自己的语料库。
Nov 15, 2014 11:57:08 PM