评论 > 存照 > 正文

洪子伟:它,正加速华语文明崩解

作者:

在墙内,大量符合北京意识形态的文本被用来训练Chatbot,成为十亿网民的知识来源。

中共国长期箝制言论,却又垄断了全球华语出版市场。在墙内,大量符合北京意识形态的文本被用来训练Chatbot,成为十亿网民的知识来源,而网民贴文复成机器学习的素材,形成劣质资讯的恶性循环,加速华语知识封闭化与极端化。墙外,用华文训练ChatGPT也出现偏误,易使全球华语人受北京政治狗哨影响。由于语言会限制知识取得管道与内容诠释,台湾应加速“英语与母语”双语教育,以维护开放多元之民主价值。

大型语言模型的军备竞赛

近来ChatGPT, Google Bard, Meta Llama等大型语言模型的军备竞赛在商业著作权、教育学术伦理、政治宣传、选举干预、社会平等上引发疑虑。过去以Twitter训练的Microsoft Tay在24小时内学会厌女与种族歧视。Meta BlenderBot3花一周学到反犹太、川普式极端言论。ChatGPT则指出白人男性才能成为优秀科学家。斯坦福大学教授也示警 Chatbot会冲击人与人的信任关系。重之以安全疑虑日增,硅谷业界更公呼吁开暂停超过GTP-4技术之模型开发6个月,以免竞赛失控。

相较英语,华语训练模型争议更大:华语资料多样性低且品质堪虑。许多标记的原始资料皆为审查过的文本。(美联社)

然而相较英语,华语训练模型争议更大:华语资料多样性低且品质堪虑。许多标记的原始资料皆为审查过的文本。美国之音报道,用华语询问天安门事件时,ChatGPT回复“中共国政府没有发布相关信息,所以我们不能切实了解情况”。自由亚洲电台询问ChatGPT有关达赖喇嘛白纸运动时发现偏北京叙事观点。路透社更指出,百度Ernie bot拒绝评论涉及习近平的提问。中共国言论审查,已降低华语知识原创与多元。这些文本训练的AI无可避免反映中共意识形态与偏误,造成“垃圾进,垃圾出”。在“理想状况”下,阿里巴巴的通义千问、百度文心一言会被训练产生如新华社般官宣内容。但现实是,机器学习总有意外结果,常复制或极端化既有之偏误。

华语文明先天不足、后天失调

华语文明先天不足,几千年历史却从未发展出“民主”与“科学”。蔡元培认为,科举制度比罢黜百家更有效箝制思想,将知识份子全吸引到科举这座“独木桥”来。科举看似择优取才,但因试题以儒家经典为主,使实际筛选到的人都是最符合君王意识型态者。陈独秀鲁迅更批判儒家与封建皇权的共生关系。正因语言和思想密不可分,故胡适倡议文化革新“全盘西化”的首件大事,就是改革语言推动“白话文运动”。

华语文明更后天失调。中共长期钳制言论自由,大量文本受官方与作者自我审查以符共党思想。“习总加速师”上台后,华语审查与政治宣传变本加厉,压制独立思考与批判言论,致使中共国科技发达,科学精神阙如。2020年李文亮根据医学证据示警却被官方强迫签悔过书,无异于十七世纪宗教法庭令伽利略写忏悔书。纽约时报更指出,中共国年轻一代正失去表达自我的能力。中共国华语知识的创新与多元,较之百年前五四运动不进反退。德先生与赛先生依旧被拒于墙外。

恶性循环的人机互动

不幸的是Chatbot的出现,使华语先天不足后天失调的困境更加严峻。人在训练机器,但机器也在训练人。数位极权下人工智能内容生成(AICG)的人机互动,恶性循环乃无可避免:大量经审查文本被喂给AI,AI的输出则成为十亿网民的知识来源,网民的意见内容复成机器学习素材。长此以往,使墙内的知识循环囚困在封闭回路,渐如死水。加速华语文明崩解。拥有全球12亿活跃用户的微信,更透过演算推荐系统,让客制化的洗脑与大内宣投放更精准有效。作为第二大语言,华语的知识单调化与极端化对人类文明非好事。

封闭知识对民主多元的戕害

语言预设世界观,人类也不断将文化价值编码进语言。华语过去受封建儒教影响,当代则受中共价值主导。全球14亿华语人口以繁体书写者约占2%,不受思想审查者仅1.7%。在美国,简体中文图书在校园占压倒性多数。这些文本影响了五百多万华裔美人的乡愁认同与知识来源。单一化的价值论述除加深刻板印象,易使华人受习近平的政治狗哨与“中华民族伟大复兴”号召。例如澳洲全国63%民众认为中共国是安全威胁,但澳洲华人却仅28%赞同。中共也将言论审查扩展至海外,除邀请台湾教科书出版社访华、诱捕出版社总编辑,更用手机apps监控美国华人言论。近日联邦调查局(FBI)以华语呼吁在WeChat上受到网络跟踪与骚扰威胁的华美人报案,积极打击中共国跨国镇压与海外警察,以维美国国家安全。

中共国以social bot操弄台湾舆论与选举对立。而墙内虽看不到维基百科,北京却积极修改繁体中文词条以渗透学生与年轻人的知识学习。(美联社)

习近平垄断华语知识的全球战略,亦是台湾严峻挑战。牛津大学期刊的认知战研究指出,中共国以social bot操弄台湾舆论与选举对立。而墙内虽看不到维基百科,北京却积极修改繁体中文词条以渗透学生与年轻人的知识学习。在台湾,只懂华语者的网络搜寻与可参阅书籍等知识来源,远较懂英语者少。对华文媒体的外电译文亦无查证能力。在大量简转繁的内容农场入侵下,信念与价值判断易受单一语言操弄。蔡政府2030年双语政策之优点,是将英语提升为通用语以扩展知识开放多元。惟其盲点在未检讨蒋介石殖民时期的华语地位,不利台湾各母语之复振与公平性,无法避免过去以华语为母语之族群的语言特权重演。

废除华语之通用语地位乃大势所趋

台湾本不通行华语。1915年国势调查,台语是全岛82%总人口的母语和87%的通用语(2020年主计处统计,台语仍是86%民众的次要或主要语言)。战后白色恐怖将全岛变成再教育营,台人被改造成中共国人,被迫说华语。“山地语”、“闽南语”等歧视称呼也开始流传,蒋家党禁报禁,较之中共文字狱不遑多让。但台湾民主化后,华语即国语的不义遗绪却未曾检讨,使部分民众仍陷威权时期华语僵化的思考窠臼,不利民主的价值多元与知识开放。中共国数位极权崛起后,更将原本知识沟通与情感交流的语言媒介,转化成假新闻与仇恨动员的武器,逐步侵蚀民主社会赖以运作的互信基础。

因此,与其和中共国在AICG与华语知识体系进行军备竞赛,台湾应从根本做起,以语言改革巩固民主价值。在政府文书、各级学校教材、军队加速以英语为主要语言。利用国际贸易、学术合作、美军协训等契机,逐步废除华语的“通用语”地位。使华语和台语、客语、各原住民语、新住民越语等一样同享平等地位。让台湾民众的资讯网络连上更宽广的全球知识体系,以提高知识经济的竞争力与对资讯战的免疫力。同时善用诸如斯坦福Alpaca7B等开源轻量模型来复振各母语。在可预见未来,方能维护多元创新与包容批判之民主价值。

责任编辑: 李广松  来源:洪子伟 转载请注明作者、出处並保持完整。

本文网址:https://www.aboluowang.com/2023/0504/1897587.html