展会官网(预登记)
/
/
/
人工智能翻译要准确,技术不是最关键——深圳市人工智能行业协会
分类导航 Nav

人工智能翻译要准确,技术不是最关键——深圳市人工智能行业协会

  • 分类:新闻动态
  • 作者:
  • 来源:
  • 发布时间:2021-04-20 09:25
  • 访问量:

【概要描述】巴别塔的典故,对世界上各种语言和种族的出现提供了解释。虽然因特网的出现,让“地球村”的梦想不再在地理空间上遥不可及,但语言理解和文化背景却成了沟通世界的最大障碍,又活着使梦想骨感起来。

人工智能翻译要准确,技术不是最关键——深圳市人工智能行业协会

【概要描述】巴别塔的典故,对世界上各种语言和种族的出现提供了解释。虽然因特网的出现,让“地球村”的梦想不再在地理空间上遥不可及,但语言理解和文化背景却成了沟通世界的最大障碍,又活着使梦想骨感起来。

  • 分类:新闻动态
  • 作者:
  • 来源:
  • 发布时间:2021-04-20 09:25
  • 访问量:
详情

那时,人们联合起来建造希望通向天国的高塔,为了阻止人类的计划,神让人类讲不同的语言,使人彼此无法交流,计划因此失败了,人从此各奔东西深圳市人工智能行业协会。

 

巴别塔的典故,对世界上各种语言和种族的出现提供了解释。虽然因特网的出现,让“地球村”的梦想不再在地理空间上遥不可及,但语言理解和文化背景却成了沟通世界的最大障碍,又活着使梦想骨感起来。

 

好啊,各大搜索引擎纷纷推出人工智能翻译。

 

人工智能翻译这条赛道上,巨人们都无法跨越的“坎”

 

作为垂直搜索产品,人工智能翻译由于其清晰的落地应用场景,引起了各巨头的关注

 

在2016年,GNMT技术(谷歌的神经网络机器翻译技术,模仿人类大脑的神经思维模式)被全面部署到谷歌的翻译系统中,谷歌随后宣称其人工智能翻译系统的翻译质量误差降低了55%-85%,并在网页翻译和手机翻译中广泛使用了该技术。

 

在国内,百度在那时已经研究出了实用的SMT技术(统计机器翻译),但得知NMT横空出世后,便迅速调整方向转向NMT技术的研发,于是百度将BNMT应用于翻译。虽然百度初译速度较慢,但百度当时的反应也证实了NMT的价值。

 

搜狗、阿里、腾讯等公司也纷纷部署NMT领域,推出了多个基于神经网络的在线翻译和手机应用程序,在智能翻译领域持续发力。作为国内搜索引擎行业的二哥,360搜索也同样专注于人工智能领域与其他巨头的较量,为了与去年上线的360英文搜索“双剑合璧”,它推出了基于NMT的360翻译深圳市人工智能行业协会。

 

但无论是谷歌还是BAT,它们的智能翻译都不能取代人工翻译,因为翻译还必须考虑用户的情感和文化背景。自2016年起至今的两年间,对大量语料的深度学习逐渐成为人工智能开发的必修课,也成为巨头们布局人工智能翻译无法逾越的“坎”。

 

360翻译的深度学习调度平台就是在这样的背景下卯足了劲,在深度技术和语料挖掘方面下了苦功。为了充分发挥360搜索在新闻信息方面的优势,360的英文搜索还与微软旗下的搜索引擎Bing展开了技术合作,从而使360人工智能翻译后坐拥大量的中英网络语料,使其在理解语境方面更显地道。此外,360翻译还采用360 NMT独家研发的技术。

 

但是它仍然只是刚刚开始。

 

搜索引擎平台不约而同发力NMT,为何物?

 

无论是外国的谷歌,还是国内的搜索巨头百度,搜狗,360等等,都将NMT作为人工智能翻译的标配,将翻译的重点放在中英互译上,这是非常有趣的现象。人工智能翻译真的是一块肥肉吗?使任何人都不愿掉队。

 

数据显示,全球共有73个国家,超过10亿人将英语作为官方语言,而世界上使用人数最多的汉语则是中英互译本身的基础市场,可以吸引大量用户的关注。NMT为何要发力,这要从人工智能翻译人类语言的方式说起,包括三个方面:一是基于规则的机器翻译;二是基于实例的机器翻译;三是基于统计的机器翻译。深圳市人工智能行业协会第三类是SMT和NMT,它们都是从文本中自动学习翻译模型,结合大数据来输出翻译结果。

 

然而,SMT和NMT之间存在明显的差异。语料库使用的语料统计模式是平行语料库,其翻译的准确性与语料的丰富程度呈显著正相关,但存在翻译结果过于分散、片面生硬、语法语义混乱等缺陷。模拟人类神经网络构造的NMT模型,NMT以一句话作为基本处理单位,其优点是具有较好的语感,可以减少SMT在“形态学、句法、词序”等方面的错误翻译。NMT技术上恰巧能有效地弥补SMT的不足。而且随着语料的不断增加,人工智能翻译的精确度也大大提高深圳市人工智能行业协会。

 

人工智能翻译引入NMT技术后,能否准确识别“语境”?

 

搜狗同传翻译在某国际会议上,宣称其神经网络机器翻译技术已经达到了临界点,并正在进行大规模的商业推广。不过,搜狗的同传还是在国际会议上引起了争议,结果并不令人满意。即使在正式场合也能应付自如的搜狗,在非正式场合又该如何应对呢?通常中英交流都是以口语的形式进行的,对“语境”的理解要比“语法和词汇”困难得多。下面我们将讨论几组声明(以下分别是搜狗、360搜索、百度和谷歌四个主要平台的对比)。

 

分组一:把膝盖给我。请看这句网络常用语各个翻译平台的翻译水平

 

谷歌:办公软件myknee。

 

360:express my admiration。

 

百度:办公软件myknees。

 

搜索狗:Giveme my knee。

 

调查结果显示,搜狗、百度、谷歌都倾向于将字面意思翻译成词的表意,并未结合特定的文化背景,而360对该网络用语的解释多为地道。

 

诗歌组二选自杜甫《登高》。因为诗歌中的意象主要是由多种意象构成的,所以译者是否能反馈这种情感就不得而知。

 

“登高”一词的原始摘要:

 

风急天高猿啸哀,白鸟归渚碧沙。

 

英语翻译:

 

有意思的是,在将各自翻译的英文翻译成中文时,任何一个平台都无法还原。而且,在英中360诗歌的中译英中,360能够结合“语境”处理诗中的意象要素,搜狗翻译表达了“悲怆”的情感,而百度翻译和谷歌翻译则完全是单纯地破坏了诗的美深圳市人工智能行业协会。

 

三:新闻,选红网。语体简洁正式,但所涉及的元素较多,对语法要求较高。

 

据长沙市住房和城乡建设委员会网站消息,2018年5月23日,长沙共有两个项目获得了预售许可证,均位于雨花区,分别是万境蓝山和创元时代。

 

翻译:

 

在同一新闻片段中,出现了四种不同的翻译。同一句话,各字的重点都不一样,比如首句的“长沙市住房和城乡建设委员会”,360的译文更显得专业,更符合常理,“长沙市”只是一个补充词,而搜狗、百度和谷歌的译文“长沙市”则是一个硬地名。特别值得一提的是,从具体语境来看,“五矿万境蓝山”和“创世纪时代”都是楼盘名称,应该用拼音来翻译,只有360才能辨认出这三个字,搜狗、百度和谷歌三家都在“矿”、“创世纪”、“创世纪”和“创世纪”上纠缠不清。

 

三组数据中,360以“语境”为基础进行逻辑分词,虽然也有做得不到位的地方,对于诗歌这类复杂的情话来说无法准确传达,但在“流行语”上优势明显;而谷歌和百度基本上都是以词组为基础进行断句,因此,翻译也是一词一词,尤其对于古诗词的理解,谷歌更显得忧心忡忡深圳市人工智能行业协会。

 

人工智能翻译存在的问题主要体现在三个方面:一是机器翻译应对语言规则不统一的口语有困难;二是人工智能翻译结合文化语境理解困难,无法解析出深层情感;三是针对较长的段落和较复杂的语境,常常出现语法问题多、语句错误发生率高等问题。

 

人工智能翻译要“地道”,关键不在于技术

 

译界老将何恩培曾经说过:“机器翻译一直是人工智能领域中公认的难题之一。而语言背后所蕴涵的多元文化和复杂的社会属性,注定了语言规则无法规律性。但中国有句老话:勤能补拙。对人工智能翻译来说,最难的不是技术,而是对“语境”的理解,人工智能翻译能力的高低在这一点上集中体现为平台喂料的资源状况。人工智能翻译能否“地道”,主要取决于以下因素。

 

一、培训数据库内容总体质量水平

 

因此,信息资源整合能力决定了翻译的准确性程度。不管是BAT,还是360,搜狗,有道等,都在关注内容生态建设,搜狗拥有腾讯微信入口搜索,360占据了安全领域的数据源。但这不可能是一个完全开放的系统,没有哪个系统能够整合整个互联网的资源,各个平台的培训数据库各有侧重,人工智能翻译特点各异,比如360翻译侧重于地道的口语和流行语,百度翻译则显得宽泛而全面。

 

开放平等的中外数据交换,或可促进人工智能深度学习

 

在国内竞标中,竞标双方的合作相对困难,但中外数据交流是最佳的互补。于是,百度推出了英文搜索产品,360则与微软必应进行了技术合作。另外,与国家边界的相互翻译也变得更加有意义。所以,中外数据合作,也许对文化背景数据积累有很好的补充,也是拓展深度学习语料最直接的方法深圳市人工智能行业协会。

 

三、要准备大量的网络语言和口语材料

 

除诗歌具有深厚的文化底蕴外,网络语、口语也是一种与地域文化最接近的语言形式,搜索引擎由被动搜索转向主动、基于用户兴趣的内容推荐引擎,这对于构建口语语料训练模式是一次不错的尝试。

 

尽管说人工智能翻译要能准确识别“语境”还需要很长时间,但技术在不断进步,360翻译能开始揣摩语句背后的情感和思想,对于日常沟通来说是个很好的开端。也许,我们会因为这个离“地球村”的梦想更远一点!

 

关键词:

imgboxbg
联系客服
联系我们
在线咨询 QQ交谈
GAIE小助理 GAIE小助理
邮件: mkt@saiia.org.cn
客服热线 0755-88917464 工作时间: 9:00 - 19:00