汉字数字化风暴(编辑修改稿)内容摘要:

一直以任何其他行业都望尘莫及的速度发展,尽管全世界的 科学家们 已经做了半个多世纪的努力,但是,让计算机能和人类自由交流这 一梦想的真正实现依然十分遥远,其中的根本性原因在于计算机不能理解自然语言的内容。 为什么这么说呢。 要让电脑理解我们人类的语言,电脑就必须像人脑一样聪明。 人脑 是什么。 人脑是 世界上最复杂、最高级、最有效、储存容量最大的超级计算机。 你知不知道,人脑 一生中 储存的信息总量 有多少。 我告诉你,与 全世界 所有 图书馆 的 藏书 量信息差不多。 你知道人脑的神经网络容量有多大吗。 说出来你可能不会相信,与全世界的通信网络容量差不多。 人脑的工作效率有多高。 毫不夸张地说,就 像数千万台电脑 在 同时工作一样。 你要知道,一个偌大的中国,所拥有的电脑也 不过数千万台。 计算机的智能水平不要说与人脑相比,就是和动物相比也有天壤之别。 一只狗在百码之外就可以通过你的步态认出你来,然而电脑却甚至连你就在那儿都不知道。 你生气的时候,几乎任何一只宠物都会察觉气氛不对,但是电脑却一片茫然。 甚至连小狗都知道自己做了错事,而电脑还是懵懂无知。 比计算机聪明千万倍的动物尚且只会简单语言,而要让计算机能够完全理解人类 的自然 语言,只能是 个 美好的梦想。 美国、欧洲、日本多家著名跨国公司对 自然 语音识别技术进行了长达几十年的研究,虽 地址:成都市玉沙路 8 号经典坐标 A 座 901 电话: 02866126658 然投入了数百亿美元的资金, 到目前为止,都没有一个成熟的产 品投入到商业应用领域。 与跨国公司动辄就是几千万美元的研发资金投入相比, 汉字数字化 是在没有任何资金支持的条件下开始研究的。 我们中国人找到了 解决语音识别这一世界性难题 的 一个再简单不过的方法 ,这就是 对机器用数字说话。 第三、数字化有着严格的界定 事实上,要实现对机器用数字说话,并不是一件容易的事情。 虽然许多年前,世界上就有科学家预言,数字将是人类与机器沟通和交流的最简单、最直接、最有效的方式,但是,在汉字数码发明之前,没有人能够将这一预言变为现实。 这是因为,如果仅仅是用数字来表示自然语言,那是一件非常简单的事情, 人人都可以提出自己的表示方法。 关键的问题是,一个数字只能表示一个字词,或者说一个字词只能对应一个数字,如果一个数字表示了两个或两个以上字词的话,电脑是无法准确地认定你的意思的。 要知道,如果电脑不能百分之百地正确地理解人类意思的话,所带来的误操作就是不可避免的,而因误操作所带来的后果可能就是灾难性的。 现在,我可以告诉大家,数字化有着严格的界定。 不是将信息简单地用数字来表示就是数字化。 数字化是指将信息转化为数字来复制、贮存、传递和处理。 为了保证信息不失真和丢失,信息与数字之间必须是一一对应的,是可以相互转换的。 例如,将声音和图像转化为二进制数字贮存在光盘中,放映时再将这些数字转化为各种物理量呈现给人们。 数字电话、数字电视、数码相机在机器内部都实现了图像、声音的物理信号与数字信号的相互转换。 由于数字信号在传递、保存、复制过程中不易失真,从而确保了图像、声音的质量。 从这个意义上讲,电报码、区位码就实现了汉字的数字化,还有邮政编码、物品条形码和其它形形色色的数字代码,也实现了汉字的数字化。 因为它们都是用数字编码来表示汉字符号的,同时,每一个数字编码所对应的汉字符号都是唯一的。 但是,电报码也好、区位码也好,它们仅仅 将几千个常用汉字数字化了,并没有将全部汉字数字化,更没有将大量的词语数字化。 最要命的是,电报码、区位码是按照一定顺序给汉字进行数字编码的,汉字的数字编码与汉字的字形、字义、字音之间没有任何联系。 人们使用电报码、区位码只能通过查找和死记的方式,除了训练有素的专业人员外,很难得到普及和推广。 要让汉字数码成为每个人都能够掌握的数字化工具,不仅要求汉字数码做到一个数字只能表示一个汉字或者词语,用专业术语来讲,就是无重码,而且这种表示的方法必须完全规则的,表示的结果必须简洁明了。 第四、数字化带来意想不到的效果 在 使用了几十个字母、数字和其它符号以及制定出一系列编码规则的条件下都还玩不转的汉字编码,要用几个数字来实现,而且还要不重码,规则要简单得人人都能轻松地掌握,这简直比登天还要困难。 也许是太难了,没有人敢往这个方面想,更没有人认为能够实现它。 虽说现在的汉字数字编码方案如雨后春笋一样层出不穷,但它们设计者的初衷无不是仅仅为了解决在手机数字键盘上的汉字输入问题,以至于一提起汉字编码,人们自然就认为是汉字输入法,没有人 意识到汉字编码 在 汉字信息处理 方面还有许许多多非常重要的应用领域,更没有人会想到,汉字编码原来是我国实现 信息化和数字化的最核心技术。 关键问题是汉字编码必须具有唯一性、规律性和简洁性,否则就只能应用于查字和打字,派不上其他用场,更不用说成为信息核心技术了。 现在我们就来看看,将汉字表示成具有唯一性、规律性和简洁性的数码后,究竟会发生什么样的变化。 汉字有上千个音节,同音字、同音词比比皆是,电脑识别起来非常困难。 如果我们能够将成千上万个汉字和词语用十个数字唯一地表示出来,那么, 人类只要通过十个数字符号, 地址:成都市玉沙路 8 号经典坐标 A 座 901 电话: 02866126658 就能够将上万个汉字承载的信息准确无误地传达给机器;机器只要识别出十个数字声音,就能够完全明白上千个音节都难以表 达清楚的人类意思。 人类告诉机器的是一串数字,机器回答人类的是自然语言。 通过这种交互方式,数字在人类与机器之间架起了一座沟通的桥梁。 如果这个设想得以实现,就 足以震撼信息世界里以英文为主的一统天下, 就 足以引发信息 技术 领域里的一场革命。 在这里,我可以十分自豪地告诉大家,这个设想已经实现了。 汉字数码将 数以万计的汉字 表示成 数字 , 还要将数以十万计的词语和句子统统地 表示成 数字,并且 没 有一个重码 ,平均两个数字就表示出一个汉字。 你相信这是真的吗。 当我们尝试着将这个消息发布在网上时,没有一个网友相信这是真的,他们都不约而同地 说我们烧糊涂了。 这不是在做梦,也不是在吹牛,这是一个 客观存在的 事实, 在座的每一个人都可以见证这个事实。 这个许多人都不敢相信的事实,我们只能称之为奇迹了。 说实话,最初连发明人本人也没预料到会出现如此理想的结果。 一次,我跟一个数学博士谈到这件事,他连声说,很难想象,简直不可思议。 是啊,汉字数码只用了九个数字。 你想想看,一位数字只能表示出九个字词,两位数只能表示出八十一个字词,不用说编码要有规则了,就是挨着编码,而且不留任何空隙,即使是四位数顶多也只能表示出六千多个汉字,连新华字典上的汉字都表示不完。 第五、数 字化超越微软视窗操作系统 提起美国微软公司,人们自然就会想到它是世界软件业的巨无霸,其富可敌国的强大实力,无人可以与之抗衡。 一谈到中国的软件企业,最有趣的话题无非是哪家软件企业可能成为中国的微软,哪个软件精英可能成为中国的盖茨,很少有人敢说要超越微软,即使宣称挑战微软,也只是说说而已,因为我们没有那个技术实力可以与微软相抗衡,更不用说微软十分超强的商业能力了。 今天,在中国的西部,居然有人宣称要挑战微软视窗,这已不是说说而已,而且是像模像样的,还拿得出核心技术作为杀手锏,实在是胆大包天,或者说是不知天高地厚。 不过,引人关注的是,这个来自四川的“大熊猫”能够与来自美国的“恐龙”过招吗。 当然,建立在汉字数码基础之上的数字化操作方式才刚刚诞生,还是个襁褓中的婴儿,凭目前的实力,显然无法与微软视窗操作系统过招。 正如像微软视窗操作系统最初因为 太糟糕 了而被 业界 嘲 讽 一样 , 数字化操作系统从成长壮大到被人们所接受,也是需要经受住时间考验的。 但是,新生事物具有强大的生命力,这是任何力量都扼杀不了的。 有人会说,数字化操作方式最多只是个可实施的方案,连个像样的演示模型都没有,怎么能够与庞大的视窗操作系统相提并论呢。 从表面上看, 微软视窗系统庞大而且功能强大。 但是,只要我们深入到微软视窗系统的技术核心,你就会发现,微软视窗操作系统的原理其实是很简单。 它的图标无非就是一个个浮动的控制按钮,只不过我们不是用手、而是用鼠标来按下这些控制按钮。 它将若干个图标放在一个控制面板上,与将若干个控制按钮做在机器的一个控制板上,并没有实质上的区别。 要说有区别的话,就是机器的控制板上只容纳得下少数几个控制按钮,而微软的视窗可以容纳得下很多控制面板,每个控制面板又能够容纳得下更多控制按钮。 这样,装有视窗系统的电脑就能做许多许多的事情,成了万能的机器,视窗 系统也就成了无所不包的“大杂烩”。 经过多 年 的不断改进和完善 ,微软 视窗 使电脑 屏幕上显示的内容漂亮多了,窗口、菜单、工具条等都有了美丽 的 外观。 这种 图形用户界面向人们提供了一个良好的视觉空间环境,不仅减轻 了 操作者的记忆负担,而且允许操作者一次开几个窗口、同时做几件事情。 计算机终于发展成为一种工作场所, 从此微软视窗 操作系统风靡 了 全球。 然而,任何事物都不是十全十美的,微软视窗也不例外。 只要我们冷静地分析一下,就会发现微软视窗存在着许多软肋,我们且不去说这个庞大系统带给人们等待、死机、病毒等 地址:成都市玉沙路 8 号经典坐标 A 座 901 电话: 02866126658 等麻烦,至少在以下两个方 面,微软视窗存在着致命弱点: 首先,由于是图形界面,它离不开用于显示图形的显示器,离不开用于操作图形的鼠标键盘,因此,当它被移植到其它数字化产品时,就会遇到巨大的障碍。 就连手机这样有屏幕的数字化产品,那块小小的屏幕已经难以容纳下微软的图形界面,更不用说大量的数字化产品根本就没有屏幕,没有键盘,更没有鼠标。 其次,图形界面难以做到完全声控。 虽然微软视窗也设置了语音控制功能,但是,由于自然语音识别技术的不成熟,它的语音控制功能只能是个附属品,甚至是个摆设,并不能真正地实现语音控制这种人类最习惯、最自由、最直接的 交互方式,人们还必须借助手、而不是用口来进行交流。 在这个界面上实现“君子动手不动口”,仍然是个美丽的梦想。 第六、席卷全球的又一次狂潮 比尔盖茨曾经说过: 工业界应对语音识别技术领域的重大突破作好充分准备,那将是席卷全球的又一次狂潮。 ”我非常高兴地告诉大家,盖茨预言的这次狂潮即将来临,而且这次狂潮将首先出现在中华大地上,中国将成为数字化革命新的策源地。 如果你已经学会了汉字数码,我可以告诉你一个规则,你也不妨利用这个规则作个实验,将微软视窗操作系统的汉化命令统统只用四个数字来表示,看看编码效果怎么样。 你还 可以对各种家用电器、办公设备的操作控制命令用四个数字来表示,再看看编码效果怎么样。 我相信,你会惊讶地发现,很少有重码出现,即使偶尔有重码出现,由于汉语词汇无比的丰富,你可以选择另一个同义词汇来代替,这样就能让这些数字组成的命令都是唯一的。 你知道你这个小小的举动所具有的划时代意义吗。 你是在展现一个历史上从未有过的、令人类耳目一新的人机交互界面。 这是一种更加自然、简单、方便的人机交互界面,我们称之为数字语音界面。 汉字数码将 汉语汉字 转化为机器能够完全识别的数字语音,再将这些数字语音按照一定规则组合成机器能够完 全理解的数字语音命令。 让每个中国人都学会用普通话念准十个数字,或者让电脑去适应各地方言对十个数字的念法,都不是什么困难的事情。 由于汉语的发音响亮清晰,十个数字的声音差别又很大,所以 即使 在有噪声的环境中,电脑也能很容易地准确 识别它们。 普通话有四百多个音节,每个音节又有四种声调之分,电脑识别起来 非常 困难。 为了提高识别正确率,人们必须拿着麦克风讲话,或者把脸贴近电脑讲话。 汉语 语音识别没能让人们的双手空出来做别的事情,也没能让人们在一臂远的距离之外使用电脑。 人们本来对人机对话抱有极大的兴趣和热情,但是,目前这种非 自然、非谈话的状态以及语音识别的频繁出错,往往让任何一个使用者丧失信心。 只是在数字语音技术广泛应用之后,你在使用电脑时才不必正襟危坐、不必全神贯注。 你可以在走来走去的过程中使用电脑,即使你转过身去背对着电脑做些别的事情,或者走到看不见电脑的地方,只要你说的 数字语言 还能够传到电脑的 “耳朵 ”里,你照样可以对电脑发号施令。 第七、信息处理一揽子解决方案 毫不夸张地说,数字语音技术是继计算机技术、网络技术之后又一项可以改变人类生活方式的重大信息技术,数字交互技术可以应用于任何需要人机交互的产品和服务领域。 你认真 地想一想,利用汉字数码方法将汉字信息转化数字信息后,还会发生什么意想不到的效果。 首先,我们使用汉字数码将汉字文件转化为数码文件,这个转换结果是唯一的,所以数码文件就是汉字文件的另一种形式。 由于数码文件的信息形态本身是数字化的,用不着转化为汉字内码。 而在此之前,由于计算机不能直接处理汉字文件,必须在计算机内部通过编码将这些汉字转化为数字,这些数字编码就是汉字内码。 这样一来,汉字数码就可以代替汉字 地址:成都市玉沙路 8 号经典坐标 A 座 901 电话: 02866126658 内码进行汉字信息的传输、存储等处理了。 你可能要问,用汉字数码代替汉字内码有什么好处呢。 我认为,至少有以下五大好处 : 一是统一 了 全球的汉字编码。 现在全球的汉字内码并没有统一,中。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。