新闻

科研动态

首页 >> 新闻 >> 科研动态 >> 正文

观点速递 | 语言数据是智能语言服务的关键要素

发布日期:2023-11-27    作者:王立非      点击:

       2023年11月17日,北京市经济和信息化局和北京市财政局联合发布《2023年北京市高精尖产业发展资金实施指南(第三批)》。其中,重点试点之一是鼓励企业开展数据资产入表活动,对于数据资源首次实现入表且入表金额大于100万元的,可以对企业为实现数据资产入表所发生的数据质量评价、数据资产评估和第三方审计等服务费用予以30%的补贴,同一企业数据资产入表补贴最高不超过50万元。由此可见,数据资产成为数字经济的核心生产要素。语言数据是数据资产的一种,已成为智能语言服务必不可少的核心要素。

  一、语言数据的定义与分类

  语言数据是指以语言为主要信息载体的数据,包括文字、音频、视频等形式,包含语言的各种属性,如词汇、语法、句式、语义、语用等。一段文字、一段录音的对话、一个视频中的讲解等都可以被视为语言数据。在人工智能领域,语言数据常用于训练自然语言处理模型,如机器翻译、语音识别、文本分析等。

  语言数据的范围非常广泛,它包括但不限于以下几种形式:

  1. 文本数据:这是最常见的语言数据形式,包括书籍、文章、博客、社交媒体帖子、电子邮件、短信等。

  2. 语音数据:例如电话通话、语音指令、音频书籍、广播、访谈录音等。

  3. 视频数据:包含语言信息的视频数据,如电影、电视节目、在线教学视频、新闻报道、会议录像等。

  4. 多媒体数据:图片、图表、表格等多媒体数据中包含的语言信息。

  5. 生物语言数据:如人类的大脑神经反应等。

  这些数据可以用于各种目的,如研究语言学、开发语言处理软件、训练机器学习模型等。

  二、语言数据的产业价值

  语言数据具有数据要素的价值:

  1. 预测价值:通过对大量语言数据的分析,可以发现规律和趋势,从而进行预测。例如,通过分析社交媒体上的公众舆论,可以预测某一产品或政策的公众接受度。

  2. 描述价值:语言数据可以反映现实世界的状态。例如,客户的评论和反馈可以帮助企业了解其产品或服务的实际表现。

  3. 决策价值:语言数据可以支持决策制定。例如,通过对市场调查问卷的文本分析,可以帮助企业做出更好的营销决策。

  4. 创新价值:语言数据可能隐藏着未知的信息和知识,挖掘这些信息和知识可以推动创新。例如,通过对大量科学文献的文本挖掘,可能发现新的科研趋势和研究方向。

  5. 社会价值:语言数据可以反映社会现象,对社会学研究和公共政策制定有重要价值。例如,通过分析网络上的舆论,可以帮助政府了解公众对某一政策的态度和需求。

  6. 教育价值:语言数据可以用于语言学习和研究。例如,语料库是语言学研究的重要工具,语言学者可以通过对语料库的研究,了解语言的规律和特性。

  三、语言数据开发和利用的方法

  语言服务企业采集、保存、开发和利用好语言数据需要通过以下几个步骤:

  1. 采集:采集语言数据的方法多种多样,包括但不限于网络爬虫、API获取、用户提交等方式。需要注意的是,在采集过程中应当遵循相关法律法规,尤其是数据隐私相关的法律法规。

  2. 处理与清洗:原始的语言数据通常需要经过一系列的处理和清洗,如去除噪声数据、填补缺失值、标准化等,使之适合后续的分析和利用。

  3. 存储:有效的数据存储不仅要保证数据的安全性,也需要便于数据的检索和利用。一般可以使用关系型数据库、非关系型数据库或数据仓库等技术进行数据存储。

  4. 分析与挖掘:通过统计分析、机器学习、深度学习等手段对数据进行分析和挖掘,以获取有价值的信息和知识。

  5. 利用:将挖掘出的知识应用到实际语言服务业务中,如优化搜索算法、提供个性化推荐、改进自然语言处理模型等。

  6. 数据保护:在语言服务过程中要遵循相关法律法规,尤其是数据保护法规,确保数据的隐私和安全。

  四、语言数据的评价标准

  评估语言数据的质量通常考虑以下指标和标准:

  1. 准确性:语言数据的正确性和准确性是最基本的评价标准,包括语法和拼写是否正确,语音的发音和语调是否准确等。

  2. 完整性:好的语言数据应该没有遗漏或缺失。例如,在对话数据中,应包括整个对话过程,不能只有一部分。

  3. 可用性:语言数据应该是可用的,即它能够有效地用于特定的任务或目的。例如,如果数据用于训练机器翻译模型,那么应包括源语言文本和目标语言的正确翻译。

  4. 多样性:为了训练更完善的模型,语言数据应该具有多样性,涵盖各种不同的主题、风格和语境。

  5. 更新性:语言不断发展和变化,优质的语言数据应该能反映当前的语言使用的最新情况。

  6. 代表性:语言数据应该能代表特定的语言社区或用户群体。

  7. 可靠性:语言数据的来源应该是可靠的,能够信任数据的真实性和准确性。

  8. 符合伦理:收集和使用语言数据应遵守相关的伦理原则,尊重数据主体的隐私权和知情同意权。

  五、语言数据带来的机遇与挑战

  语言数据对语言服务行业带来的机遇主要包括:

  1. 知识洞察和预测:通过对语言数据的深度分析,企业可以洞察出趋势、模式和关联,进而进行预测和策略制定。2. 服务优化:语言数据可以帮助语言服务提供者改进和优化其服务,如提高翻译质量、优化搜索结果等。3. 产品创新:基于语言数据的深度挖掘和分析,可以推动语言服务产品的创新,如开发出新的自然语言处理工具和应用。4. 个性化服务:通过分析用户的语言数据,企业可以提供更个性化、更贴合用户需求的服务,如个性化推荐、定制化内容等。

  然而,语言数据也存在一些挑战,如:1. 数据质量不准确、不完整或过时的数据可能会影响服务质量和决策效果。2. 在收集、存储和使用语言数据的过程中,需要充分考虑数据安全和用户隐私的问题。3. 大量的语言数据需要大量的存储空间、强大的算力和复杂的算法进行处理。4. 法律法规:随着数据保护法规的日益严格,企业需要更加小心地处理用户数据,避免违规的风险。5. 伦理问题:如何在尊重个人隐私和实现商业利润之间找到平衡,是一个需要考虑的伦理问题。

  本文为国家语委科研重大项目“新时代中国特色语言管理理论建构研究”(ZDA135-16)和北京市社会科学基金重点项目“一带一路”语言服务便利度测量模型构建与应用(20YYA002)的相关成果。

  (作者简介:王立非,北京语言大学教授,国际语言服务研究院院长,国家语言服务出口基地首席专家,上海财经大学特聘教授,华北科技学院特聘兼职高层次专家)