- 收藏
- 加入书签
“一带一路”背景下连云港《西游记》文化平行语料库的构建
摘 要:本文主要论述了连云港《西游记》文化双语平行语料库的构建思路与方法,以实例详细说明了双语平行语料库的构建步骤及注意重点,涵盖双语平行语料库的构建与设计、语料的采集与整理、校正与完善、切分与对齐、语料库的存储与检索、语料库的后期维护,并初步讨论了语料库的应用场景,如翻译研究、文化研究等,同时概述了未来连云港《西游记》文化平行语料库的发展前景。
关键词:连云港,《西游记》文化,平行语料库构建,翻译研究,文化研究
一、引言
连云港是江苏省历史文化名城、海上丝绸之路申遗城市,有2200多年的建城史。其是《西游记》的文化起源地,以“淮口巨镇、东海名郡”著称,是一座山、海、港、城相依相拥的城市,有东海第一胜境之称。
连云港拥有与《西游记》相关联的丰富的历史人文资源,明代文学大师吴承恩创作的《西游记》中描述的许多景物都与连云港有着密切的关系。《西游记》中的花果山的原型就在连云港。吴承恩在《西游记》中将孙悟空老家安排在东胜神洲傲来国,国中的花果山就是孙悟空的诞生地。随着“一带一路”的持续推进,连云港作为拥有绚烂的物质文化遗产和非物质文化遗产的港口城市,值得我们仔细梳理并做好对内对外的宣传。
二、建设连云港西游记文化平行语料库的必要性
语料库是一个大型电子存储数据库,它收集大量文本,对其进行采样、组织并以特定格式存储。借助计算机强大的计算和搜索能力,研究人员可以利用计算机进行语言理论研究。根据收集的语言数量不同,语料库可大致分为单语、双语和多语种语料库。双语语料库,也叫平行语料库,是指双语平行语料库,作为语料库的一种,由原文及其对应的译文组成,比较两种语言的异同,进行广泛和广泛的对比。实用可用于研究翻译教育,利用双语词典进行研究和编纂也具有重要价值[3]。事实上,平行语料库对于翻译研究和地域文化的推广具有重要意义。为了促进地方文化的推广和城市的国际化,许多城市都创建了适应地方文化的双语平行语料库[4],这是因为存在较大的文化差异,可以作为参考的内容有限。在“一带一路”背景下,连云港作为“一带一路”的重要节点城市和“新亚欧大陆桥”起始地,《西游记》文化是其非常重要的地域文化。然而,连云港市的诸多《西游记》文化资料的翻译存在语言错误、语用错误、文化错误、专有名词翻译不一致等翻译问题[5],阻碍了地方文化和《西游记》文化的传播。为促进连云港地方文化的发展建设,培养本土文化翻译人才,有必要建设连云港《西游记》文化平行翻译语料库。
三、连云港《西游记》文化平行语料库的构建
连云港《西游记》文化双语语料库属于专门的双语平行语料库,其采集和处理方式与一般语料库不同,许多语料需要专家进行核对验证,以确保语料准确无误。建设该语料库的总体流程包括:语料库设计和构建、语料采集和整理、语料校正与完善、语料切分与对齐、语料存储与检索等步骤。
(一)语料库的构建与设计
连云港《西游记》文旅平行语料库的构建是对文化和旅游两个领域的语料的系统整合。《西游记》中花果山上的标志性景物均在连云港的花果山上。花果山上的水帘洞、娲遗石、七十二洞、唐僧崖、八戒石、九龙桥、三元宫,有的出自大自然的鬼斧神工,有的则出自人的巧夺天工。这些名胜古迹,许许多多都成为吴承恩笔下栩栩如生的肖像。为了确保此类语料的准确性和可靠性,通常需要语言专家参与其中。此外,语料库的存储、管理和检索也是构建过程中重要的一环。最终,我们将得到一个丰富、系统、准确的连云港《西游记》文旅平行语料库,为相关领域的研究和应用提供有价值的语言资源。可以说《西游记》文化遗产的类型非常丰富,体量也颇具规模,因此有必要对《西游记》文化遗产进行系统的梳理,对其特色和多样性特点进行系统分析,整理出相关的文化遗产清单,对语料库进行总体设计,形成以汉语为原语,以英语为译语,原语文本与译语文本的相互对照,通过加工形成句子层面对齐并标注的《西游记》文化汉英双语平行语料库。
(二)语料的采集与整理
文旅相关双语语料库的语料采集与整理是构建该语料库的基础步骤。语料采集可以从各种渠道获得,如网络上的旅游攻略、评论、景点介绍等;旅游杂志、报纸等印刷媒体;旅游机构的官方网站;个人旅游日记等。,同时还需要保证来源多样且为官方的正规资料。因此,本语料库中所包含的语料主要来自以下几个来源:1.国家旅游局、江苏省旅游局官方网站对花果山的中英介绍资料;2.正规出版社出版的相关中英双语书籍;3.官方纪录片的中英文本资料;4.连云港市政府印刷的《西游记》文化及花果山中英观光册介绍;5.连云港花果山景区宣传册、旅游宣传册、展板的中英对照资料。
语料整理需要将采集的语料进行语言学上的分析和预处理,包括语言翻译、分词、词性标注、命名实体识别等步骤。这些步骤都是为了方便语料的分析和使用,提高语料的质量和可用性。
最终,经过整理后的语料应该是一份结构化的、易于使用的双语语料库,具有良好的质量和数据格式,可以用于各种自然语言处理任务。
在完成语料的初步采集后,需要对原始资料进行初步的汇总整理。国家旅游局和市旅游局官方网站的资料需要去除图片格式和网站链接,然后将其存储为统一的Word文档格式。正规出版的书籍、政府印发的宣传册等印刷品需要扫描并转换为Word文档。展板的中英对照等资料需要转写为Word文档,官方纪录片的中英文语料也需要统一转写为Word文档。这些工作可以使用文本处理软件或OCR图片文字识别等软件完成。
(三)语料的校正与完善
语料库中语料的校正与完善是提高语料库质量的重要步骤。对资料完成初步的采集整理后,二次筛选纠错的工作非常重要。首先,语料库中语料可能存在语法错误、拼写错误、语义错误等问题,因此需要进行语料的校正。校正可以使用人工方法,如请相关专家进行审核,重点处理语言性错误、语用性错误以及文化性错误,保证中英文本的质量。保留《西游记》文化资料中翻译质量优异且可使用的资料,去除翻译质量欠佳且无法修正的原始资料;也可以使用自动化的方法,例如使用自然语言处理工具对语料进行语法分析和语义分析。
其次,语料库中语料可能不全面,缺少某些重要信息,因此需要进行语料的完善。完善可以通过补充缺失的信息,比如地点介绍、历史背景、游玩攻略等;也可以通过对语料进行分类和整合,比如按照目的地进行分类,方便使用者查询信息。语料库搜集的语料不仅要准确,也要多元化、多方来源[6],可以使用比例、分层、均衡相结合的方式对语料进行抽样,使入库的语料具有代表性。
(四)语料的切分与对齐
语料切分与对齐是语料库构建的重要步骤,对于保证语料库的质量和效率具有重要意义。如果语料切分不当,可能导致语料结构不清,信息不完整;如果语料对齐不当,可能导致语料信息不一致,配对出现误差。因此,在语料切分与对齐过程中,应该注重细节,确保语料库的准确性和可靠性。本文使用Tmxmall作为对齐工具,此工具人际交互界面友好且逻辑层级简单,用户可以方便地对语料调整对齐,大大提升语料文档的对齐效率。使用 Tmxmall 作为对齐工具时,需要注意以下几点:1.语料格式:Tmxmall 要求语料的格式必须符合 Tmx 标准,否则可能无法正常工作。因此,在使用 Tmxmall 前,需要确保语料的格式符合 Tmx 标准。2.语料质量:Tmxmall 只能对齐质量较高的语料,如果语料中存在大量的错误,则可能无法得到准确的对齐结果。因此,在使用 Tmxmall 前,需要确保语料的质量较高。3.对齐设置:Tmxmall 支持设置多种对齐参数,如匹配算法、匹配阈值等。如果对齐设置不当,可能导致对齐结果不理想。因此,在使用 Tmxmall 前,需要仔细研究对齐参数,确定最合适的对齐设置。
(五)语料库的存储与检索
双语语料库可以存储在多种数据库中,具体的存储方法取决于所使用的数据库。以下为使用 MySQL 作为存储介质的例子:
1.建立数据库:在 MySQL 中创建一个名为 “bilingual_corpus” 的数据库,用于存储双语语料。
2.建立表:在 “bilingual_corpus” 数据库中创建一个名为 “segments” 的表,用于存储双语语料的每一对对齐的段。表中需要包含以下字段:
·id:表的主键,自动生成。
·source:原文。
·target:译文。
·creation_date:该段语料的创建日期。
3.存储语料:使用 INSERT 语句向 “segments” 表中插入双语语料,如下所示:
INSERT INTO segments (source, target, creation_date)
VALUES (‘Hello, world!’, ‘你好,世界!’, NOW());
4.检索语料:使用 SELECT 语句从 “segments” 表中检索双语语料,如下所示:
SELECT * FROM segments;
这条语句将返回表中的所有语料。可以使用 WHERE 子句限制检索结果,如下所示:
SELECT * FROM segments WHERE source LIKE ‘%world%’;
(六)语料库的后期维护
双语语料库的后期维护包括以下几个方面:
1.数据清洗:定期根据国家、省、市政府机关及部门的最新规范及表述对语料库中的语料进行语言学分析,删除重复的语料、语法错误的语料和不合法的语料。
2.数据更新:对语料库中的语料进行定期更新,以确保语料库中的语料是最新的。
3.数据补充:根据连云港市《西游记》文化发展情况不断补充语料库中的语料,以确保语料库中语料的数量和多样性。
4.数据备份:定期备份语料库,以防止数据丢失。
5.系统维护:定期维护存储和检索语料库的系统,以确保系统的稳定性和高效性。
上述维护操作通过自动化脚本、人工操作和第三方工具来实现。双语语料库的后期维护是一项重要的工作,因为语料库的质量直接影响到语言模型的效果。
四、结语
连云港《西游记》文化双语语料库的建立,能够推动当地文化融入高校的大学英语等相关教学与研究中,为相关教学科目提供所需的语料,促进产学研的有效结合。这也有助于培养出能用准确流畅的英语传播地方文化的人才,是高校大学英语等课程对当地文化的社会价值的体现。该语料库为连云港《西游记》文化提供翻译范本,可以提高连云港《西游记》文化的外宣译文质量,规范汉英表达,培养地域文化的翻译人才,并最终为翻译者、外语教学单位、翻译公司等共享资源,为储备海外翻译人才提供一些规范。最终目的是通过建立规范的连云港《西游记》文化双语语料库,准确地向世界传播连云港悠久的历史文化,推动连云港走向国际化。
作者简介:张传钰,性别男(1990年8月),民族汉,籍贯江苏省省连云港市,研究生学历,讲师职称,研究方向:翻译,翻译学,教学法
基金项目:2022-2023连云港市社会科学基金项目研究成果:“一带一路”视域下连云港旅游翻译语料库构建研究(基金号:22LKT0087)