李宇明：人机共生时代的语言数据问题_语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

李宇明：人机共生时代的语言数据问题

http://www.newdu.com 2025/11/20 09:11:12 爱思想李宇明参加讨论

    内容提要：人类不断创造各种语言技术以辅助语言应用、改善语言生活，从结绳记事、表意图画到文字的创制、印刷术的应用、广播影视的普及，而今进入了以互联网和语言智能为代表的现代语言技术阶段。“人-人”直接交际方式逐渐减少，“人-机-人”的间接交际方式成为常态，未来正在进入为人类配备AI助手的“人机共生”时代。以ChatGPT为代表的语言大模型是人类语言技术发展到今天的高峰，显示了大数据、特别是语言数据的强大功能；而语言大模型在语言表达中所表现出的知识缺陷，是网络上缺乏专门领域、特殊人群、特殊场景、非通用语种等“特域数据”造成的。数据，包括语言数据，已成为新科技发展的关键要素和现代经济的生产要素，必须通过法律法规、规范标准对数据进行管理，通过数据市场促进数据的生产、流通和利用，通过数据公司有规划地集聚“特域数据”以有效弥补网络数据之缺，通过语言智能教育来促进公民具有适应AI助手的能力，通过就业市场预测机制及时将劳动力转移到新技术催生出的新岗位。数据管理应宽严适度，既要尽力促进语言智能发展，又要保证技术向善，使其在伦理学的轨道上前进。
    关键词：语言技术语言数据语言智能 AI助手语言伦理

    人类的语言发展和语言应用，是与语言技术相依相伴、相辅相成的。人类不断创造着语言技术，利用语言技术促进语言应用，同时也促进着语言自身的进步、人类语言能力的进步和社会进步。而今语言技术已经发展到语言智能阶段，“人-机-人”交际成为主要交际方式，具有一定“语言能力”的“AI助手”开始进入人类生活，人类正在进入“人机共生”的新时代①。
    理想状态下，语言智能的发展应由数据和规则“双轮驱动”，但当前主要是由大数据“单轮驱动”，数据成为新科技发展的关键要素和现代经济的生产要素。而这些大数据中，80%是语言数据，故而语言数据问题就成为“人机共生”时代的重要科学问题和经济生产问题。本文简要回顾人类语言技术的发展历程，着重讨论语言数据的管理、网络数据缺陷的弥补及数据伦理学等问题，以加深对ChatGPT（Chat Generative Pre-trained Transformer）等语言大模型背景下的语言数据问题的认识。
    一、人类语言技术的发展 语言技术，是对语言和语言活动进行辅助、加工的各种技术。这里的语言是广义的，是“超语”（translanguaging）②意义上的，不仅指人类用于交际和思维的最为重要的符号系统，也包括各种音标、手语、数理符号与公式、交通标识、手机用表情包等语言衍生品，这些语言衍生品可以配合或时常配合语言发挥功能。这里的语言活动是指由“编码、输出、传递、（翻译）③、输入、解码、贮存、反馈”等环节构成的交际过程，或者说是“听、说、读、写、译”等基本语言行为。
    （一）语言技术概念的提出
    早在2001年，李葆嘉在南京师范大学推动成立了语言科技研究所，创办了语言科学及技术系，“语言技术”成为一个科学问题并进入中国的高等教育人才培养体系。2010年，第23届国际计算语言学大会（International Conference on Computational Linguistics，COLING 2010）在北京召开，笔者在开幕式上做了《语言技术改善语言与社会》④的致辞。当时就认识到：语言技术不仅提高语言的使用效率，还影响语言文字的面貌及其发展走向，促进语言学的发展。随着社会的发展，往往能够以语言技术为基础形成社会职业与产业，成为社会经济的重要分支。由语言应用、语言教育和语言技术等而产生的经济，可以称为“语言经济”。深入考察语言技术对语言生活和社会发展的影响，可以考虑建立“语言技术学”。之后的十几年里，笔者又陆续发表了《不同媒介的语言特征与网络语言的发展》《语言技术对语言生活及社会发展的影响》《语言技术与语言生态》等论文，探讨语言技术的历史发展及未来走向，探讨语言技术对语言、语言运用、语言生态、语言使用者和社会的影响。
    （二）语言技术发展的几座里程碑
    据研究，两河流域的楔形文字是人类最早创制的文字，距今约有5500年⑤。文字发明之前，人类一直处在口语时期，声波是语言的载体，口、耳、脑是三大语言器官，“人-人”直接交际是基本的交际方式。当时人类发明了结绳记事、表意图画等语言技术，用来辅助语言记忆⑥。文字的产生使语言有了光波这一新载体，有了书面语；手、眼因书写和阅读也发展为语言器官，笔墨纸砚等很多材料可以用于制字、承文；语言交际方式出现了“人-M-人”⑦的间接交际。
    中国古代的雕版印刷及宋代发明的活字印刷，是制字印书领域的语言技术。印刷术西传得到西方工业化加持，发展为铅字印刷。直到20世纪80年代末激光照排技术的出现，才结束了铅字印刷的历史⑧。大约1400余年的印刷术（包括激光照排技术），改变了文字面貌和制字方式；书籍可以快速印刷，打破了知识垄断；报纸把当下的新闻、信息及时向四方传播，形成媒体舆论；为教育普及创造了条件，为民族的语言认同提供了帮助。
    19世纪与20世纪之交，科学家发明了无线电传输技术，并利用无线电传输语言信号，电报、电话、广播、电视、电影等开始出现。音像技术及有声媒体，使语言又拥有了“传声传影”的电波媒介物。电波并不排斥声波和光波，而是把这两种传统的语言媒介物电波化。在电波新媒介物的条件下，语言功能、特别是口语功能得到放大，口语语体快速发展起来；具有听说观看功能的电子产品成为语言交际的新装备，语言产业有了新形态；随着有声媒体的日常应用，以标准音为标志的国家语言得到迅速普及；在国际上有影响的外语，借助有声媒体传遍全球，形成了国际语言学习、语言应用的新格局。
    20世纪下半叶人类最大的发明是互联网，以海底电缆和通信卫星为主纲构造了网络新空间。网络空间孕育了电子邮件、短信、微信、公众号、短视频等语言交际的各种新媒体；传统媒体也都迁移网上，新旧媒体迭代共存、相互融合，多模态的融合媒体逐渐成为承载语言的常态。用笔写字的机会遽减，键盘打字、屏幕选字、耳朵听书的机会骤增；信息传递是“超语言”的、点对点的、碎片化的，专注阅读、深度思维、集中注意力显得十分宝贵；语言生态将发生重大变化，将来只有少数语言保留在通用交际领域，多数语言只能退出生活交际领域，甚至只能成为学术研究、博物馆存留的对象。
    语言智能从机器语言翻译开始，之后与互联网相互助力、联袂发展，至今已能从事自动翻译、智能写作、信息检索、信息抽取及自动摘要、社交聊天等多种语言活动，ChatGPT等语言大模型是其发展的一个新高峰。语言智能的发展使语言不再是人类独有，而是人与机器所共同拥有；人需要与智能机器进行语言合作，需要获得AI助手的帮助，人的语言能力将要重新界定；社会进入“人机共生”的时代，语言数据跻身于生产要素的行列。
    （三）“人-M-人”间接交际的媒介（M）
    语言技术尚处于快速发展中，将来还定会有新的语言技术出现，并更加全面、更加深刻地影响人类的语言生活，如人们经常谈论的虚拟现实技术、元宇宙、人脑与电脑对接等，就可能产生新的语言技术。仅就上述的一些里程碑式的语言技术发展来说，对语言生活的影响也是广泛而深远的，“人-M-人”间接交际中的交际媒介M，其不同形态反映着语言技术的发展历程，也反映着语言生活的变化。交际媒介M主要有如下7类：
    M1：绳结、表意图画等。是人类最早的语言技术，是文字产生之前的原始语言技术产品。
    M2：书写等技术及书写产品。文字是人类最重要的、使用至今的语言技术。印刷术产生之前，文字主要是手制而成，包括书写、泥板制字、甲骨契刻、钟鼎浇铸、碑石雕凿等。
    M3：印刷术及印刷书籍。印刷术及印刷而成的书、报、杂志等。
    M4：音像技术、音像物品和音像产品。用于个人交际的音像物品主要有收音机、电视机、银幕等，还有唱片、录像带、电影胶片等。音像产品主要是广播、电视、电影的节目等。
    M5：网络媒体技术、网络媒体用品及网络媒体产品。用于交际的主要网络媒体用品是电脑、手机和键盘、鼠标等。网络媒体产品主要是网络各种媒体及其内容。M2、M3、M4等传统媒体也可以通过网络来呈现。
    M6：语言智能产品，包括各种语言智能软件和有语言能力的机器人。
    M7：未来的语言技术产品。
    二、人机共生的时代
    2013年4月，有65个国家和地区参展的德国汉诺威工业博览会提出了“工业4.0”的概念，自此人们认为，人类正在进入第四次工业革命时期。第一次工业革命开创了“蒸汽时代”（1760-1840年），人类由农耕文明向工业文明过渡；第二次工业革命开创了“电气时代”（1840-1950年），电力、钢铁、铁路、化工、汽车等重工业兴起，石油成为新能源；第三次工业革命开创了“信息时代”（1950-），全球信息和资源交流更为迅速，大多数国家都被卷入全球化进程中；而今正在引发的“第四次工业革命”，人工智能、机器人技术、虚拟现实、量子信息技术、可控核聚变、清洁能源、生物技术等是其技术突破口，人们用“数字时代”“智能时代”或合而称为“数智时代”来描述第四次工业革命即将开创的新时代。
    语言智能是人工智能皇冠上的明珠，也是人类五千余年来语言技术发展的结晶。就“人-M5/M6-人”交际来说，都是“人-机-人”的交际。随着网络、特别是移动网络的发展，随着“人-机-人”交际运用于广泛的场域和人群，人们对这种交际方式产生了一定程度的依赖，或许多场域（如医院缴费、银行取款、高铁出行等）对这种交际方式具有了“强迫性”，人类交际就进入了“人机共生”的时代，甚至也可以说是整个人类社会进入了“人机共生”的时代。这也可以作为第四次工业革命所开创的时代命名，与“蒸汽时代”“电气时代”“信息时代”并称。
    （一）AI助手
    人类的发展史就是制造工具、运用工具、改良工具的历史，工具就是人类生产、生活的助手。人工智能就是人类的“AI助手”，相对助手而言，被助者可以称为“助主”；语言智能就是具有语言能力的AI助手，人类就是语言智能这一助手的助主。
    百度负责人李彦宏在“2021智能经济高峰论坛”⑨致辞中表示，未来十年人工智能领域将有8项关键技术会实现从量变到质变，从而深刻改变社会。这8项关键技术是：自动驾驶、数字城市运营、机器翻译、生物计算、深度学习框架、知识管理、AI芯片、个人智能助手。
    李彦宏把“个人智能助手”列为关键技术是颇具慧眼的。“人-M6-人”交际方式逐步普及，M6的语言能力逐步提升，M6的角色将从与人简单对话合乎逻辑地发展为人类的“AI助手”。未来的一个时期，人工智能的发展就是为人类配备AI助手，首先从一些特殊行业、特殊人群、特殊场景开始。事实上，无人驾驶汽车、儿童玩伴、机器客服、机器人播音员、手语数字人等各种AI助手，已经进入人类的生活域和工作域。合格的AI助手应当具备三个基本条件：
    A.一定的智慧
    B.特定行业、人群、场景的助理能力（包括知识与行动能力）
    C.一定的语言能力
    就人工智能而言，当前人们关注较多、用力较勤的是A与B两个方面，但是相对忽视、其实也困难较大的是C。没有一定的语言能力，AI助手就不能说是称职的。播音、解说、礼仪主持、陪护、客服、咨询、教育、翻译、导引（导游、导医、导购等）等领域的AI助手，语言能力更为重要。AI助手的语言能力主要包括三个方面：
    C1.母语能力。AI助手具有助主的母语能力，能够用助主的母语与助主交谈。在中国现实语言生活中，母语能力的概念可以稍作扩充，相当于“中华民族的语言能力”；就汉民族来说，母语能力包括普通话和方言等“双言能力”；就少数民族来说，母语能力包括国家通用语言和民族语言等“双语能力”。
    C2.翻译能力。帮助助主利用不同语言、不同文化获取信息、验证信息、传播信息。
    C3.话语能力。根据情景较为得体地进行对话，一般应具有日常语体、正式语体的“双语体”能力，最好也能掌握典雅语体，具有“三语体”能力。
    （一）ChatGPT等语言大模型
    1950年“图灵测试”的提出，标志着语言智能研究的开始，经过70余年发展出ChatGPT这样的语言大模型。2022年11月30日，美国人工智能研究实验室（OpenAI）集多家早期研究成果，推出ChatGPT；2023年3月15日，又发布了GPT-4，四个半月就连升几级。冯志伟、张灯柯、饶高琦指出，ChatGPT利用转换器模型的编码器和解码器，从语言大数据中获取丰富的语言知识，能够模拟人的语言行为，生成人类可以理解的文本，并结合上下文语境给出恰当的回答，甚至还能做句法分析和语义分析，帮助用户调试计算机程序，写计算机程序的代码，达到了很强的自然语言生成能力⑩。
    ChatGPT问世半年多来，在全球产生了巨大反应，人们在惊叹中或小心防范，或积极拥抱，或两者兼之。第一，小心防范。担心ChatGPT对世界带来严重的副作用，探究它，限制它。2023年3月22日，生命未来研究所向全社会发出《暂停大型人工智能研究》的公开信，因担心ChatGPT给人类带来的安全问题，呼吁所有人工智能实验室立即暂停比GPT-4更强大的人工智能系统的训练，暂停时间至少为6个月，据说这封公开信已有包括马斯克等在内的上千名科技知名人士和AI专家签名。在学术界，包括《自然》（Nature）在内的一些期刊规定大模型不得被列为文章作者，仅可出现在致谢或参考文献中。澳大利亚、印度、英国等国及中国香港地区的多所大学也曾限制学生使用ChatGPT。《暨南学报（哲学社会科学版）》《天津师范大学学报（基础教育版）》等刊物，要求暂不将语言模型工具列为单独或共同署名作者。
    第二，积极拥抱。世界各国都争先恐后开发语言大模式，生怕失去发展机遇。我国已经发布的语言大模型有百度的“文心一言”、科大讯飞的“星火”、华为的“盘古”等80余款，人称“百模大战”。早在2023年3月，英国的牛津、剑桥、布里斯托、爱丁堡等8所罗素大学成员曾宣布禁止使用ChatGPT，而今态度大变，为了抓住生成式AI带来的全新教育和发展机遇，现在24所罗素大学成员又宣布解除ChatGPT的使用禁令，推出了详细的使用原则，帮助学生、研究人员在学习、工作中更好地使用生成式AI。2023年以来，《人民日报》先后刊载《加快发展新一代人工智能》《大模型的竞争，是国家科技战略的竞争》等文，认为人工智能是新一轮科技革命和产业变革的重要驱动力量，大模型是新型基础设施的关键底座之一，大模型的竞争是国家科技战略的竞争；加快发展新一代人工智能，事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题，加速大模型与实体产业的深度融合，不断提升国产大模型的核心竞争力，为我国人工智能产业的发展注入更强的动力。
    第三，既发展又规范。2023年7月10日，中国国家互联网信息办公室、发改委、教育部、科技部、工信部、公安部、国家广电总局等7部门联合发布《生成式人工智能服务管理暂行办法》，共5章24条，制定这一办法的目的正如第一条所言，是“为了促进生成式人工智能健康发展和规范应用，维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益”。相对于欧盟的“强监管”态势和美国的“宽容”态势(11)，中国的态度还是较为温和、适中的。
    ChatGPT等语言大模型的风头仍盛，学界和社会到处都是语言大模型的话题。如《语言战略研究》2023年第2期就率先发表了冯志伟等的《从图灵测试到ChatGPT——人机对话的里程碑及启示》，第4期发表李宇明《“人机共生”的时代》卷首语，并有《语言智能》专栏，专栏中有4篇文章都是谈论或涉及语言大模型。再如《中国外语》2023年第3期卷首是胡壮麟的《ChatGPT谈外语教学》，其《改革论坛》专栏由5篇文章构成，都是谈论ChatGPT的。目前的讨论已基本处于理智状态，主要是从不同方面考察语言大模型的能力，探讨如何用其益避其害，过好人机共生时代的语言生活。
    三、语言大模型的数据问题
    以ChatGPT为代表的语言大模型，是从大数据中获得语言智能的。饶高琦、胡星雨、易子琳指出：“与一般语言模型相比，大模型的训练语料规模巨大，参数急剧膨胀。GPT-3的参数规模达到1750亿，GPT-4已突破万亿，悟道2.0和Switch Transformer则达到了惊人的1.75万亿和1.6万亿。”(12)
    （一）语言大模型的语言表达
    目前对语言大模型的考察表明，语言大模型的语言表达有两个显著特点。第一，语言表达上基本能做到文通字顺。从词语到句子再到篇章，都较规范、流畅，很少语病。这说明语言大模型可以通过大数据习得词法、句法和章法的基本规则。时下的语言教学，包括第一语言教学、第二语言教学（包括外语教学）等，主要强调语言规则的学习，相对忽视语言交际的实践活动，而学习效果，特别是第二语言的学习效果，远不如语言大模型的表现。这或许表明，现在的语言学习理论和语言教学实践都有值得反思之处，需要参考语言大模型“大数据习得”的情况再行完善。
    第二，语里内容的表达上，虽然滔滔不绝但常有令人不能满意之处，如：虽然正确但却无用的空话套话，不切合语境没有具身感受的话，缺乏常识的外行话，甚至是不符合事实的胡乱编造(13)。凡是贫乏的、离谱的话，多是“数据缺陷”造成的，饲喂给语言大模型的数据多是“通用数据”，比较缺乏专门领域、特殊人群、特殊场景、非通用语种的“特域数据”。
    （二）语言数据及其类型
    由上述语言大模型的语言表达特点来看，语言大模型成长为AI助手已具有较好的基础，但是说话还需要更加切实和负责任。当前，语言大模型接触的数据基本都是从网络上获取的，这些数据80%以上是语言数据，因而也可以说，语言数据是语言大模型发展的关键。认识这一点可谓有“语言意识”，如果能够全面认识语言数据的特性、理性而充分地利用语言数据推进语言智能的发展，则可谓有“语言觉悟”。
    李字明、王春辉将语言数据定义为“以语言符号体系为基础构成的各种数据”，并从“超语”的视角将语言数据细分为五类(14)：
    A.语言学科数据（Linguistic data）。指语言符号系统本身的各种数据，如语音、语汇、语法、语篇等，也包括文字、标点符号、音标等。
    B.话语数据（Discourse data）。也可以称为“言语数据”，指在语言交际中产生的口语和书面语等各种数据。
    C.语言衍生数据（Language derived data）。语言的社会属性、生存状态、媒介装备、文化影响等相关数据。
    D.人工语言数据（Artificial language data）。利用语言（文字）而设计的特殊符号系统，以及运用这些特殊符号而产生的各种数据。比如盲文、手语、电报代码、旗语、灯语等。
    E.语言代码数据（Language code data）。指生活中、科技活动中使用的各种代码和科技语言，如科技符号、公式、图表、音乐曲谱、计算机编程语言等，还有身份证号码、红绿灯、各种标记、网络文本中的表情包等。
    目前，语言大模型所使用的数据主要是话语数据（B）和部分语言代码数据（E），也会把其他类型的语言数据作为“特域数据”进行处理。以往，语言数据是人们用以研究语言及社会问题的资源；由于语言智能等数字技术的发展，语言数据已成为推进科学进步的关键要素；而当数字技术成为推动经济发展的重要力量时，语言数据也就转变为推进经济社会发展的生产要素。
    2019年10月召开的中国共产党十九届四中全会把数据与“劳动、资本、土地、知识、技术、管理”并列为第七大生产要素，可以通过市场“按贡献取酬”。2020年3月30日，《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》（简称《意见》）发布，主要对土地、劳动力、资本、技术、数据等要素的市场配置提出了要求。李宇明在讨论“数据时代与语言产业”时认为，数据具有生产要素性质的论述是重大的理论创新，体现着对信息化社会的本质认识，是在数字经济快速发展背景下经济制度的与时俱进(15)。《意见》在“数据是生产要素”的判断之下做出生产要素市场化的安排，不仅为数据作用的充分发挥创造了有利的市场配置的体制机制与环境，而且也加固、加深了“数据是生产要素”的认识。
    这里所涉及的数据不完全是语言数据，但事实上主要是语言数据。随着语言大模型的发展和AI助手的配置，在人机共生的时代认识数据的生产要素性质、特别是语言数据的生产要素性质，意义重大。
    （三）语言数据的管理与开发
    科学管理与开发大数据，包括语言数据，更好地促进语言智能发展，推进人机共生社会的进步，必须处理好语言数据管理、语言数据补缺和语言数据（语言智能）伦理三个方面的问题。
    1.数据管理问题
    语言数据管理的实质是如何对待语言数据这种生产要素的问题，其根本目的是鼓励语言数据的生产、流通及合理运用。语言数据管理的内容很多，要者有三：
    第一，探索建立相关的法律法规。
    语言数据、语言智能对人类社会意义重大，为保证其顺利发展，且避免各种负面作用，必须及时建立相关的法律法规。但是语言数据、语言智能都是快速发展、影响面广且又深远的新事物，对其认识还较有限，所订法律法规的合适性也较难把握。而目前国内外都有些立法尝试(16)，我国应及时了解国际状况，结合本国实际积极进行立法尝试。
    立法态度上应宽严相济，既鼓励发展又顾及规范。操作上应积极而谨慎，可以从某些领域、某些地区的法规开始，可以从规章开始，可以从试行办法开始，在实践中逐渐升级完善。立法进度上应小步快跑，对已有规定要及时评介、及时修订，补缺纠偏。立法精神上需特别重视“数据安全”“数据公平”“数据流动”等问题，大力推进除敏感数据之外的公共语言数据的开放共享，尽力解决数据垄断和“数据孤岛”等问题。
    第二，建立语言数据市场。
    作为生产要素的语言数据，只有快速流动、公平交易才能较好地发挥作用，也才能推进数据的生产和使用。认识不同种类语言数据的价值，研究处在不同加工阶段的语言数据的价值，以便于数据定价；明确数据产权、制定数据交易规则，以便于数据市场的有序运行。
    第三，建立健全相关标准体系。
    标准体系是语言数据生产、加工、运用、交易等规范高效进行的重要保证。语言数据的标准体系建设应当注意如下几点：（1）过程全覆盖。要覆盖到数据采集生产、建库标注、淘洗脱敏、贮存、交易、开发利用等全过程。（2）统筹兼顾。兼顾语言数据的标准与其他数据的标准；兼顾科学研究和生活生产两大领域；兼顾数据产业、数据用户、国家团体等相关方的权益。（3）标准衔接。注意标准与法律法规、数据市场的衔接；重视产业标准、国家标准、国际标准之间的关系和相互转化转用。此外要看到，标准体系建设不能一蹴而就，亦非凭空造阁，要注意对已有标准的总结，对相关标准的借鉴，“开门办标准”，协商定标准。
    2.数据补缺问题
    语言大模型的数据主要来自互联网，而当前使用的主要是传输到互联网上的一些高质量的语言数据，如书籍、报刊、学术论文、网络百科（如维基百科等），随后也可能开发利用网络上的一些其他数据。网络数据的增长速度虽然很快，但是远远赶不上语言大模型的“吞食”速度，有人预测网络上的高质量数据可能在25年内就被用尽，网络上的低质量数据在40年内也将枯竭。如果没有新的数据来源，没有新的算法出现，语言大模型到那时也就会停下前进的脚步(17)。
    本文最关心的是网络语言数据的另外一个问题，即目前网络语言数据的类型主要是正规语言，其数据内容基本上是通用领域的，比较缺乏专门领域、特殊人群、特殊场景、非通用语种等“特域数据”。正因如此，语言大模型在谈到“特域”问题时便显得知识贫乏、说话离谱。应当看到，如果从AI助手的角度看，语言大模型的这种表达缺陷甚至是不能容忍的，因而AI助手是严重不称职的。因而，解决“特域数据”问题就显得特别重要。
    进一步分析会发现，互联网上的“特域数据”是无法较快增长、甚至是难以“自然增长”的，因为这类数据是难以系统搜集的，即使有了一些这类数据，也不一定能传输上网，为语言大模型所用。比如早期的儿童语言数据、失能老人的生活数据、急诊室医患交流的数据、某种没有文字的民族语言数据等。例如2020年，“战疫语言服务团”为研制《抗击疫情湖北方言通》(18)，搜遍网络也查不到多少医患交流的语言数据，医患交流是常见的语言生活现象，但竟然是网络上的稀见数据。
    解决“特域数据”问题，需要考虑：（1）要把“特域数据”收集放在发展战略的高度来认识，需要引起方方面面的重视，需要采取优先性的有效举措，甚至需要进行社会动员。（2）根据社会发展需要和语言智能发展规律，确定特域数据的收集顺序，从急需特域到其他特域。比如可以从产业入手。据统计中国目前有31个制造业大类、609个小类，拥有全球产业门类最齐全、产业体系最完整的工业体系。可以动员各产业集聚数据，解决本产业的语言智能问题(19)。（3）特域数据收集，难度大，工程量大，工期长，见效慢，仅靠科学研究式的专家小团队操作是不够的。笔者1985年起记录自己女儿的语言发展，还动用了全家力量，历时六年多；2017年才将资料整理完毕，约百万字，2019年正式出版，前后持续34年(20)。近来为配备“儿童AI玩伴”，笔者又提倡从儿童出生起就全天候收集多模态的儿童语料，遴选了多名新生儿父母兼语言学者作为语料搜集人，并动员他们的家族亲友支援，但仍是力不从心，收效甚微。由此笔者认识到，特域数据收集需要数据公司担当，专家介入指导，进行工程性操作。（4）通过数据市场促进“特域数据”收集，发挥“特域数据”效用。只要是不涉及安全、隐私的数据，都应鼓励其进入数据市场。
    3.数据/智能伦理问题
    语言数据的采集利用，语言智能的研发及语言智能产品的社会应用，都有一系列的伦理问题，需要研究，需要解决。饶高琦就提出要给智能写作的快马套上科技伦理的笼头(21)。对待语言数据与语言智能，的确是既要促其向上，亦要促其向善。推进语言数据生产和语言智能的进步，是为“向上”，保证语言数据、语言智能行进在伦理学的轨道上，是为“向善”。
    语言数据领域的伦理学问题，主要是：（1）数据搜集时，要保证数据来源者的合理权益，包括知情权、隐私权及合理的经济诉求等；（2）保证数据生产、加工、交易等环节各贡献者的合法权益；（3）数据运用的安全；（4）国家的数据安全。
    语言智能领域的伦理学问题，主要有两方面：（1）投入社会运用的语言智能产品，包括AI助手，做事、说话要符合社会公德，保证其“与人类友好”。比如在智能产品的语言服务中，不能有种族歧视、地域歧视、性别歧视、年龄歧视等；用于未成年人的语言产品，不能涉及暴力、色情等儿童不宜的内容。（2）建立就业市场预测机制。语言智能的社会应用对劳工市场会产生剧烈影响。世界经济论坛最近指出：因为AI技术的出现，2027年之前全球劳工市场将陷入前所未有的“动荡”，8300万个职业岗位将消失；当然，数据产业、语言智能、AI助手等的发展也会带来大量新的职业、新的产业，未来5年新增的工作岗位将达到6900万个(22)。预测机制的功能，就在于对可能消失的职业提前预警，以便及时进行劳动力转移；同时，对催生的新职业进行预告，及时进行劳动力培训，包括调整职业院校和大学的培养专业，以满足新职业的用人需求。
    四、结语
    人类的语言应用一直是在语言技术的加持下进行的。经结绳记事、文字、印刷术、音像技术、网络技术等漫长历程，而今已经发展到语言智能阶段，“人-人”交际让位于“人-机-人”交际，一个人机共生的时代已经到来，具有一定“语言能力”的“AI助手”即将进入人类的生活域和工作域。网络技术之前的语言技术，主要影响人类文化事业的发展，而今的语言技术则将全方位地影响人类社会。
    语言智能的发展在当前是由数据、特别是语言数据推动的。数据、特别是语言数据，不仅是科技进步的关键要素，而且也是经济发展的生产要素。管理好语言数据，特别是建立语言数据法律法规、语言数据市场、语言数据标准体系，弥补网络上特域数据的短板，成为语言智能发展的关键。在促进语言智能“向上”进步的同时，还要及时促其“向善”，处理好伦理学问题，为语言智能这匹飞马装上伦理学的马嚼子，不让其做损害人类之事。
    语言智能的下一步发展，就是为人类配备AI助手，首先是为社会最需要的专门领域、特殊人群、特殊场域配备AI助手。这些专业领域、特殊人群、特殊场域的语言数据积累，成为重要的科学任务乃至社会生产任务。AI助手的所助者是助主，在大力发展AI助手的做事能力和语言能力的同时，也要特别关注助主使用助手的能力，防止一些特殊地区、特殊人群被“信息边缘化”。要通过现代语言技术的教育与训练，使公民具有使用优秀AI助手的能力，成为优秀助主(23)。
    国家在这方面的使命，就是既拥有优秀的助手，又拥有优秀的助主。实现这一“双优”目标，除了本文讨论的问题之外，还需特别重视中文语言资源的建设，据饶高琦、胡星雨、易子琳的数据，GPT-3的训练语料语中，英文语料约为92%，其他语种的语料根据数量依此为法文、德文、西班牙文、意大利文、葡萄牙文、荷兰文、俄文、波兰文、罗马尼亚文、日文、芬兰文，中文语料仅为0.16%(24)。要让大语言模型懂中国事情，说中华语言，助中国助主，必须建设高质量的中文语料数据，包括专业领域、特殊人群、特殊场域的数据。面向人工智能和AI助手的数据建设与管理，中国的语言学更应有所作为。
    注释：
    ①与本文相关的内容，曾经在以下会议（论坛）上作过学术报告：1.《人工智能（AI）助手的发展与语言学》，华中科技大学“荆楚语学大讲坛”第11期、华中师范大学“桂子山人文论坛310期”（2022年10月9日），厦门大学外文学科新百年系列高端学术论坛（2023年3月26日）；2.《“人机共生”的时代》，“世界人文之路”名师讲坛第326讲（2023年5月11日，北京科技大学外语学院）；3.《语言智能与语言数据》，“新疆首届数智时代语文教育”高端论坛（2023年6月17日，新疆大学）；4.《语言智能大模型与语言数据问题》，“第九届中国语言政策及语言规划学术研讨会”（2023年7月15日，云南财经大学）。李建涛、王琪、张振达为论文的撰写、演讲提供过帮助，特此感谢。谨以本文祝贺母校华中师范大学建校120周年。
    ②参见李宇明：《人类进入超语时代》，《语言战略研究》2023年第1期。
    ③括号，表示非必有环节。
    ④参见李宇明：《语言技术是一门学问》，《语言文字报》2010年9月8日，第1版。
    ⑤参见周有光：《世界文字发展史》（第三版），上海：上海教育出版社，2011年；胡明扬：《语言与语言学》，武汉：湖北教育出版社，1985年；沃尔特·翁：《口语文化与书面文化：词语的技术化》，何道宽译，北京：北京大学出版社，2008年；尤瓦尔·赫拉利：《人类简史——从动物到上帝》，林俊宏译，北京：中信出版社，2014年；丹尼丝·施曼特-贝瑟拉：《文字起源》，王乐洋译，北京：商务印书馆，2015年；李宇明：《语言技术对语言生活及社会发展的影响》，《中国社会科学》2017年第2期。
    ⑥参见加里·乌尔顿：《印加结绳符号》，孙立新译，北京：商务印书馆，2020年。
    ⑦M，表示媒介，是“媒”的汉语拼音首字母，也是英语media（媒介、媒体）的首字母。
    ⑧参见王立军：《宋代雕版楷书构形系统研究》，上海：上海教育出版社，2003年；张秀民：《中国印刷史》（上、下卷），韩琦增订，杭州：浙江古籍出版社，2006年；张树栋等：《中国印刷通史》，北京：印刷工业出版社，1999年。
    ⑨参见李文：《“2021智能经济高峰论坛”举行聚焦产业智能化》，2021年7月29日，光明网，https://it.gmw.cn/2021-07/29/content_35038557.htm，2021年7月29日。
    ⑩参见冯志伟、张灯柯、饶高琦：《从图灵测试到ChatGPT——人机对话的里程碑及启示》，《语言战略研究》2023年第2期。
    (11)早在2021年4月21日，欧盟就提出了《人工智能法案》，在长达两年多的修订讨论中，又遇上了ChatGPT等生成式语言大模型的出现。2023年6月14日，欧盟议会以499票赞成、28票反对通过了《人工智能法案》。据高璇颖的观察，欧盟对生成式人工智能的发展态度相对谨慎，其法案的核心是避免其过快发展造成社会风险和对社会秩序的影响。欧盟的这种强监管态势是一贯的，过去几年中欧盟先后颁布的《人工智能白皮书》《欧洲通用数据保护条例》《数字服务法案》《数字市场法案》《数据治理法案》等，也都基本上是这种态度。美国在生成式人工智能的探索上明显走在世界前列，其监管姿态则更多的是鼓励，如：2016年美国白宫发布《为人工智能的未来做好准备》《国家人工智能研究与发展战略计划》《人工智能、自动化与经济》等报告，即是如此。参见高璇颖：《欧盟〈人工智能法案〉创造监管标准，“沙盒技术”可更好兼顾AI创新》，2023年7月18日，财新网，https://shuzijingji.blog.caixin.com/archives/268937，2023年7月18日；2023年1月，美国国家标准与技术研究院发布《人工智能风险管理框架》，在降低人工智能带来的风险、提高人工智能可信度等方面做出了指导，但仍是在非强制性的建议层面。
    (12)参见饶高琦、胡星雨、易子琳：《语言资源视角下的大规模语言模型治理》，《语言战略研究》2023年第4期。
    (13)参见袁毓林：《人工智能大飞跃背景下的语言学理论思考》，《语言战略研究》2023年第4期；冯志伟、张灯柯、饶高琦：《从图灵测试到ChatGPT——人机对话的里程碑及启示》，《语言战略研究》2023年第2期；饶高琦：《大模型时代语言智能应注重科学基础和社会应用》，《语言战略研究》2023年第4期；饶高琦、胡星雨、易子琳：《语言资源视角下的大规模语言模型治理》，《语言战略研究》2023年第4期。
    (14)参见李宇明、王春辉：《从数据到语言数据》，《语言战略研究》2022年第4期。
    (15)参见李宇明：《数据时代与语言产业》，《山东师范大学学报（社会科学版）》2020年第5期。
    (16)参见陆俭明：《顺应科技发展的大趋势语言研究必须逐步走上数字化之路》，《外国语》2020年第4期；高璇颖：《欧盟〈人工智能法案〉创造监管标准，“沙盒技术”可更好兼顾AI创新》，2023年7月18日，财新网，https://shuzijingji.blog.caixin.com/archives/268937，2023年7月18日。
    (17)参见“未尽研究”：《“耗尽”人类语言：ChatGPT还有多少数据可用？》，2023年2月7日，虎嗅网，https://m.huxiu.com/article/787292.html?type=text & visit_source=home_page & collection_id=139，2023年2月7日。
    (18)参见李宇明、赵世举、赫琳：《“战疫语言服务团”的实践与思考》，《语言战略研究》2020年第3期。
    (19)参见佚名：《大模型的竞争，是国家科技战略的竞争》，2023年7月6日，中国经济网，www.ce.cn/xwzs/kj/202307/06，2023年7月6日。
    (20)参见李宇明：《人生初年——一名中国女孩的语言日志》（上、中、下卷），北京：商务印书馆，2019年。
    (21)参见饶高琦：《给智能写作的快马套科技伦理的笼头》，《光明日报》2019年12月24日，第2版。
    (22)世界经济论坛（World Economic Forum，简称WEF），亦称达沃斯论坛（Davos Forum），自2016年起开始发布《未来就业报告》，通过追踪变革步伐，描绘未来就业和技能格局。本文的数据来自于世界经济论坛2023年5月1日发布的第四版报告，着眼于2023-2027年这一时间跨度。参见世界经济论坛：《2023未来就业报告》，2023年4月30日，https://cn.weforum.org/reports/thefuture-of-jobs-report-2023/future-of-jobs-data-explorer,The World Economic Forum,2023年5月1日。
    (23)关于语言智能教育，参见周建设、薛嗣媛：《论语言智能教育》，《语言战略研究》2023年第4期。
    (24)参见饶高琦、胡星雨、易子琳：《语言资源视角下的大规模语言模型治理》，《语言战略研究》2023年第4期。
     (责任编辑：admin)

上一篇：杜敏：训诂阐释学建构的学科基础与价值
下一篇：安志伟：从春联中感受汉语魅力

李宇明：人机共生时代的语言数据问题

http://www.newdu.com 2025/11/20 09:11:12 爱思想 李宇明 参加讨论

http://www.newdu.com 2025/11/20 09:11:12 爱思想李宇明参加讨论