翻译教学语料库规模化建设的大数据解决方案
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP 18; H 059

基金项目:

上海外国语大学校级规划项目(2021114015);上海外国语大学专项课题(2022zxkt22)


The Scalability Challenge in Translation Corpus Building and a Big Data Solution from an Interdisciplinary Perspective
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    翻译教学中基于平行文本的双语平行语料库建设,本质上是译者根据自身需求进行方案设计、语料收集和语料管理的过程。目前受限于现有翻译技术手段和经济条件,翻译教学中难以规模化建设此类语料库。通过以大数据自动化采集的方式,引入人工智能领域的Python技术与PostgreSQL数据库系统,来解决目前建立大规模教学语料库的难题。为了完整呈现规模化建库过程,借用政府公文类翻译的真实案例,详细描述了建库方案设计、语料收集和语料管理等操作步骤,分析了各步骤中存在的自动化难题以及新技术介入的契机。部分技术细节与源代码也在文中公开,以期为大规模建设教学语料库提供一个切实可行的解决方案。

    Abstract:

    In translation teaching, students regularly prepare “parallel texts” for a new translation project and build these linguistic materials into database, or a reference corpus. This corpus requires a relative high volume of data in order to be effective due to no ideal solution provided by available product/service-oriented translation technology. This article aims at this scalability challenge and introduces an interdisciplinary approach by combining Python and PostgreSQL. The automation challenges in processes like corpus design, data collection and corpus management are addressed by applying these technologies. The entire large-scale corpus building process is presented in detail with relevant Python and PostgreSQL source code disclosed.

    参考文献
    相似文献
    引证文献
引用本文

赵政廷,柴明熲.翻译教学语料库规模化建设的大数据解决方案[J].上海理工大学学报(社科版),2024,46(5):403-412.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-06-14
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2024-10-28
  • 出版日期:
文章二维码