语料帮助

畅选在线日语语料库使用说明

1    关于畅选语料库及其检索系统

  • 畅选在线日语语料库为杭州畅先信息技术有限公司自主研发的在线日语语料检索系统。供各大院校日语专业师生及广大日语爱好者使用。
  • 畅选日语语料库致力于成为书面日本语的缩影,通过严谨的样本来源选取,获取准确的语料原始样本。样本的来源主要为书刊、报纸、文集、国会记录、法律议案等官方网站或专门网站。通过本网站自主研发的网页搜索引擎软件,对目标网页进行自动分析及内容抓取,确保内容与原出处一致,可供用户在日语研究时参考使用。
  • 语料库中所含语料的基本内容信息已展示在检索结果中,如:作品出处、发表时间、作者等。
  • 为确保关键词前后文脉的完整性,语料样本采用原始语料的完整文本方式进行存储。搜索时,通过畅选网自主研发的实时分词检索引擎,对所查关键词进行实时分词处理。该方法避免了传统语料库分词预处理可能带来的谬误或缺失,可最大程度地获取准确的检索结果。
  • 检索系统以全角假名及汉字为基本单位,并支持各种UTF-8字符集的文字、标点符号及英文字母。
  • 主要特色:
    • 完全免费,收录多达47万篇,共计32.6亿字海量名家名作、新闻、国会记录及法律议案等原始语料样本;
    • 在线即时搜索,无需安装软件。使用方便简单,界面友好,上手迅速;
    • 文学作品、新闻及会议记录等语料样本均来自于权威官方网站,语料完整准确;
    • 与用户合作,根据用户要求,定制专属语料库,为用户进行语言学研究提供强大的技术支持。

2    使用方法

  • 【Step 1】第一步:注册成为网站用户。在任意页面的右上角,点击免费注册,即可进入注册界面。通过简单的信息填写,即可成为畅选网的用户。

  • 【Step 2】第二步:注册后请登陆,访问日语语料库首页(入口在网站首页的最下方),在搜索框中填写关键词进行语料检索。

3    检索方法及结果

  • 基本检索
  • 系统支持单个关键词或双重关键词进行检索,在搜索框内输入一个或两个关键词(用空格间隔),系统即会检索出含有关键词的例句;
  • 由于语料库规模达数十亿字,为保证检索速度,检索会在随机选取的500篇原始语料样本范围内进行,并展现其中50篇的检索结果。如其中未找到您所需的语料样本,可点击“更换样本,再检索一次”链接,直到找到所需语料样本。或者可直接进入“高级”,增加检索条件后可更精确的定位样本范围,提升检索效率;
  • 检索关键词默认使用【新聞ニュース】语料库,可通过切换搜索框前的下拉框,选择【文学文庫】、【国会会議録】等语料库进行搜索;
  • 检索结果中主关键词以红色加粗字体展现,副关键词以绿色加粗字体展现。如主关键词在例句前后文脉中出现多次,非本次检索基准位置的主关键词也会展现绿色加粗字体;
  • 检索结果默认展示主关键词前后文脉各150字,用户可在高级检索界面自行调整,最大支持前后各150字;
  • 如输入两个关键词进行检索,则两词之间的关系默认为有前词并且有后词;
  • 检索结果的展示顺序为随机排列。【国会会議録】由于语料样本的来源中未提供发表日期,以收录本语料库的日期作为其发表日期,敬请各位用户谅解。
  • 高级检索
  • 支持多条件精确检索,如作者、作品名、作品年代等,具体如下:
  • 主关键词:主关键词,其他搜索条件均以主关键词为基准。即只有在样本中找到主关键词,副关键词及其他条件才生效。支持假名、汉字、英文及符号;
  • 活用形:紧跟主关键词的活用形,用于检索如动词活用形等语法样本。如主关键词为“出張”,活用形可填写:す|し,即用“|”符号间隔各种活用形,可检索到含有“出張す”和“出張し”的语料例句。
  • 副关键词:副关键词,在主关键词出现的前提下,可定义与主关键词之间的关系进行搜索;
  • 前后文脉字数:以主关键词为基准,出现在主关键词前后文脉的字数。前后文脉最长字数各为150字;
  • 语料库:可选择不同的类型的语料库进行语料搜索,如【文学文庫】、【国会会議録】及【新聞ニュース】。网站会不断增加各类型的语料库,欢迎各位用户提出想法和需求,我们会尽力满足。
  • 两词关系:支持关键词一(前词)与关键词二(后词)之间的多种关系查询,具体如下:
  • 前词并有后词:两词同时存在,在例句中的出现位置不分前后;
  • 有前词无后词:只出现前词,不出现后词;
  • 前词之后有后词:两词均出现,且后词出现在前词之后的位置;
  • 前词之前有后词:两词均出现,且后词出现在前词之前的位置;
  • 前词之后有后词且间隔小于:后词出现在前词之后几个字以内的位置,具体字数可设置,最大不超过150个字;
  • 前词之前有后词且间隔小于:后词出现在前词之后几个字以内的位置,具体字数可设置,最大不超过150个字。
  • 篇名:可输入所知的篇名进行模糊检索。例如,输入“源氏”,则检索范围为题目中含有“源氏”的作品文章;
  • 年代:可输入具体起止年份进行检索。例如:填1970年至1982年,则检索样本的范围为发布时间在1970年至1982年间的文章。请注意前后两个年份必须都填写,该条件才能生效;
  • 样本范围:可选择本次选择的样本数量。样本数量可能影响检索速度,如超过2000篇,检索可能需等待较长时间;
  • 作者:支持同时选择多个作者条件。作者按姓名发音排序,可根据五十音图分行选择。可支持多作者条件同时检索。
  • 检索结果
  • 检索结果默认每页展示20条语料,支持翻页查看。
  • 点击搜索框后的“语料搜索”按钮,可对搜索框内的关键词重新搜索,但上一次高级搜索的条件将会清空。如想保留上一次检索的条件,可点击“更换样本,再检索一次”连接,具体请见下条;
  • 在搜索框下方,显示检索到的例句数量,如“本次共查询到 534 条记录”。该记录数为本次随机抽取50篇样本中符合条件的例句数量。可点击后方“>>更换样本,再检索一次”链接,用同样条件再检索一次,无需再到高级搜索中输入条件。
  • 如检索没有得到结果,可尝试以下方法:
    • 该关键词出现频率较低,再试试手气。点击“更换样本,再检索一次”链接,保留上一次的搜索条件再检索一次;
    • 样本太多不好找,我要精确检索。点击“高级搜索”链接,增加其他条件,缩小检索范围;
    • 关键词过于生僻或输入有错误,请更换关键词再进行搜索。

5    免责声明

  •     畅选语料库及其检索系统版权为杭州畅先信息技术有限公司所有,本公司只提供检索服务,不承担检索结果及内容所产生的一切版权及法律责任。如内容中存在违反法律或侵害版权的情况,请及时通知我公司,我们会第一时间进行处理。