乐文书包网

手机浏览器扫描二维码访问

第11部分(第1页)

01(K)条款 的人身上呢?”严格说来,库尔茨的批评在当时是放错了地方——在网络威胁面前立刻感到饭碗不保的不是记者,而是编辑。但短短几年之后,连整个报纸行业也陷入了可怕的财政困境,“谷歌新闻”应对记者职业的消失负间接的责任。通过将用户直接指向具体的在线新闻文章,“谷歌新闻”及其他同样入侵新闻领域的网站扮演了将报纸订户诱拐到电脑屏幕上读新闻的角色,而且让读者将时间主要花在浏览谷歌新闻网站而不是浏览报纸网络版主页。随着印刷版订户的消失,传统上为新闻采访提供资金的广告商也就消失了。报纸网站上在线广告的增加无法完全弥补其印刷版的亏空,报纸行业的临时解雇现象越来越严重。

算法的确需要微调。有一次,一个公司报纸的发行量不知何故登上了商业新闻网页中新闻特写的顶部。还有一次,谷歌冷酷无情的算法在2003年2月1日犯了一个重大的错误,导致了严重的负面后果:那一天,航天飞机哥伦比亚号在返回途中解体,导致全部7名宇航员死亡。由于没有估准这个事件的重要###,算法当天允许这条消息从新闻网站的主页上一度消失。

其他的反常现象也不时出现。2005年,谷歌对它的公式做了调整并申请将其加入到算法专利中,算法可以考虑更多的因素,如新闻机构编制的特写的平均长度,新闻部门的人员数量,报纸自办网站的访问量,接入这个网站的国家的数量等。结果得到了改善,反常现象(几乎)消失了。(新泽西州的一名15岁高中生在2006年写了一则假新闻,称他已经成为谷歌最年轻的雇员,“谷歌新闻”竟然不辨真伪,也收入了这则新闻。)

在组织新闻的竞争中,谷歌的算法和雅虎的人工新闻编辑进行了对决,然而,谷歌并没有取得胜利。它的算法虽然有所改进,但并不意味着已经赶上了雅虎新闻网站的质量。说“谷歌新闻”是一个劣等网站,并不是因为它偶然有一天表现不佳,算法被指犯下了人工编辑决不会犯的错误;“谷歌新闻”的低劣表现在即使是它最好的日子也从未有过“雅虎新闻”指导新闻选择的精益求精的态度。访客数量上的差异也反映出两家的不同由来已久:在开办4年后,“谷歌新闻”的访问量只及雅虎新闻网站的30%,后者仍是Web中最有人缘的新闻网站。在这种情况下,当算法遭遇人类时,人类获胜。

新闻的###质决定了新闻并不能显示出算法随着数据的增长而自动日益复杂化的真正威力。在网站中,维护人员赋予算法的是一种额外的高明之处:一旦它们在自己的网页中加入在其他网站上发现的新闻网页的链接,就可以对Web网页进行检查。谷歌“蜘蛛”搜集的页面越多,算法所集中的链接就越多,它赖以做出的判断就越具权威###。但具体到新闻,由于算法只能对新闻的组织进行判断,却不能将成千上万的人阅读新闻时所做的判断搜集起来,因而,算法对新闻而言,其智慧就赶不上它在搜集新闻报道时所达到的那种引人注目的高度。而新闻报道又有时效###,先出者不断被后出者所替代,这就使得算法缺乏考察用户点击率的数据基础,所以它就不能持续地保持敏锐的判断力。

独步天下的谷歌算法(10)

“谷歌新闻”不能作为算法的成果展示柜,但这个项目的中等成绩并没有使谷歌对公司的创立使命产生怀疑。“算法”在Web网页搜索方面是如此之强,即使它在执行其他任务时相对失败,也都被谷歌之外的绝大多数观察家们忽略了。谷歌就是这样享受着各种实验所带来的乐趣,而当一些实验结果不如人意时,也不必因担心形象受损而烦恼。

在将“算法”推向新领域的另一个项目中,结果比预想的要好,这就是计算机在历史上所处理的最困难、最难协调的问题——语言翻译。为了进入这个领域,谷歌在2003年初组建了一个课题小组,让他们在所谓自动翻译或机器翻译的领域奋力开拓。他们的努力结出了丰硕的果实。他们开发的“算法”能够完成——至少有时能够完成——符合语句习惯的流利的翻译,这一点令人惊叹不已。同时,它还有效地利用了较为令人失望的谷歌新闻项目中所搜集的新闻报道资料。

机器翻译是计算机先驱们在20世纪中叶首先设想出来的计算机应用领域之一。1953年,哈佛大学计算机实验室的霍华德·艾肯(Howard Aiken)用响亮的声音宣布,他希望不久就可以开始将俄语逐字地译为英语。他以为,将意义从一种语言精确地转为另一种语言会是很容易的,随着计算机功能的增强,文字上的修饰也会成为一个不难解决的问题。翌年,IBM的科学家和乔治敦大学的语言学家推出了一台能够进行俄英翻译的机器,并且开启了机器翻译领域中的一个传统:对翻译质量的过高期待和转换结果控制的力不从心。在一个只有250个单词词汇表的基础上编写的软件,竟然负载了处理政治、法律、数学、化学、冶金学、交通和军事等专业内容的期待。但是,新闻界却被要求相信这一切。

6年之后,IBM公司的Mark I型计算机正在进行原文翻译,这次又是从俄文到英文——反映出冷战中期语言翻译上的当务之急——据说达到了每分钟800个单词的速度,当时的人工翻译速度是一个工作日只有2600个单词。可译出来的文章却不是只需稍加修饰那么简单——一个关于U…2飞行员弗朗西斯·加利·鲍威尔(Francis Gary Powers)的段落的开头是这样的:“它30年费。据它它的所称,它是较老的空军中尉美国。”但是人们仍然对此持乐观态度,而作为“字对字”比对之补充的“句法规则”似乎被完全忽略了。国家标准局成立了一个“机器翻译小组”来研究如何增加对语义和句子结构的理解,以解决所谓“水下山羊”问题(指的是由机器翻译的俄语工程学论文经常将hydraulic ram'液压油缸'译成了“水下山羊”这一现象)。

应用语言学研究改进了机器翻译的质量。1968年,专业翻译公司Systran在巴黎创办,它将成为为其他公司提供机器翻译服务的先行者。这家公司由语言学家来解释复杂的语法。一门语言,又一门语言,公司不断增加能够实现双语互译的语言的数量,到2005年,已经实现了40对语言之间的互译。当谷歌打算提供用原文以外的其他语言显示的Web页面供用户浏览时,它便求助于Systran公司为其后台的机器翻译提供技术支持,使谷歌的网页可以根据用户的具体要求进行动态显示。当然,各语种之间的翻译水平并不平衡,在最好的情况下,它也只能转达源文件中的梗概。符合语言习惯的段落仍旧难以表述。但这个缺陷似乎是机器翻译与生俱来的:任何算法也不能代替人工翻译。。 最好的txt下载网

独步天下的谷歌算法(11)

但是,Systran建立在规则基础上的技术只是机器翻译的一种形式。另外一种不同的方法——IBM的研究者在20世纪90年代展示出其前景的——被称为统计机器翻译。它代表了告别以规则为基础的方法而转向人工智能研究的大趋势。它不是建立在人工拟定的语言规则基础上,而是建立在由软件自己开发的翻译模式基础上。由于软件接收了数以百万计的由人工完成的译文组成的文件——例如在加拿大议会用英语发表的演讲及其官方法语译文。这个软件注重寻找句型、对比词汇和短语,从A语言的第一段第一句以及它在B语言的相对应的句子开始。仅仅对照一组文件,推导出来的结论当然少得可怜。而一旦对照的文件达到数百万组,那么一种语言中的句型和短语在目标语言中具体用什么方式表达,就可以根据统计材料推导出来。统计机器翻译是谷歌研究人员在2003年初才开始研究的方法。

谷歌采用联合国的多语种文件作为训练材料,向它的算法输入了2000亿个单词并让这个软件算出了每一对语言之间配对的句型。这个结果是显而易见的。谷歌的说英语的程序员虽然不具备阅读汉语或###语的能力,也根本不懂汉语或###语的语音、语义或语法,但他们却设计出了一个能够自学的算法,它可以提供准确的、有时甚至是相当流利的译文。在2005年的一次会议上,谷歌第一次公开地讨论了它所进行的工作。为了证明统计机器翻译能够处理足够大量的翻译文本资料,特意用###语报纸上的一段新闻提要的两种英文译本进行了演示。第一种译文由以规则为基础的Systran软件提供,它将那段###文显示为“阿尔卑斯山白色的新出场的磁带注册为咖啡批准拉登”;第二个来自谷歌刚刚问世的程序,它显示了一段完全不同的译文:“白宫证实有新的本·拉登磁带存在。”

谷歌的翻译算法在记者招待会这类有人监控的场合表现似乎令人印象深刻,证明它在独立的测试中也站得住脚。的确,它的表现非常之好。2005年,谷歌第一次参加由国家标准与技术研究所主办的机器翻译软件年度竞赛,这个赛事吸引了来自大学、公司、政府实验室和商业软件制造业的研究人员。谷歌在有11个入选者参加的阿(###语)译英比赛中名列第一(IBM名列第三,Systran名列第七),在有16个参赛者的汉译英比赛中也名列第一(IBM名列第六,Systran名列第十二)。这对一个新手来说是个不错的成绩。

在这次比赛中,基本的测量手段是将机器制作的译文同被视为“黄金标准”的人类翻译家提供的参考译文进行比照。从0到1的得分情况表明机器翻译与人工翻译的吻合度——1表示完全吻合。分数是一个最直接的计算问题,它由评估软件自动完成,减少了人工评判的主观###。同样的软件也曾被用在比赛之外。研究人员可以对算法进行微调,将测试文件输进去,马上就可以看到,在翻译质量可测量的改进中,结果是否发生了变化。

谷歌不仅利用双语平行文本建立了一种翻译模式,它还用软件创造了单语种的“语言模式”,对由翻译模式制作的任何译文进行润色,使之更加流畅。“算法”在大量具备专业水准的文献中寻找句型,进而教会自己识别哪些是地道的英语表达方式。恰巧,谷歌已经在它的服务器中使用了一个这种类型的文集——由“谷歌新闻”所检索的报道。即使“谷歌新闻”的用户总是被导向新闻机构的Web网页,但谷歌仍将贮存的新闻副本馈送给它自己的算法。人们偶然发现,这个经专业手法润色的文本宝库——截至2007年4月已经收集了5亿字——是个使用起来极其方便的训练用文集,绝对适合于教会机器流畅地使用英语。。 最好的txt下载网

独步天下的谷歌算法(12)

如果你所从事的是将全世界的信息组织起来的职业,那么,在某个领域学到的东西总会在另一个领域里得到实际应用。如果说谷歌的统计机器翻译项目得益于谷歌旗下其他部门的工作,那么它也以各种方式回报了这些部门的恩惠。研发单一语言的统计技术模型转过来为研发任一语言的发音监测软件提供了便利(这个软件的监测范围包括了哪怕是新近出现的名人姓名的发音),它无需经过人工编辑之手,也无需借助词典,只要给“算法”输入足够分量的公开发表的文章,就绝对可以让它掌握正确的发音。能使它做到这一步的技术保障就是对出现频率的统计分析。

谷歌使用的搜索程序也得到了由研发团队使用的计算部件的极大帮助。由该领域的许多学术研究者使用的一套数据(由语言数据联盟Linguistic Data Consortium提供)有52亿个单词。但谷歌可以处理大得多的集合,如仅仅从它所索引的网页中抽取出来的单词就达到了2×1012个。“我们没有更好的算法,”谷歌的彼得·诺维奇说,“我们只是有更多的数据。”

为了给单句找到最好的译文,谷歌的算法搜索了上百万可能的短语组合。硬盘不适合作为保留数据随时备查的中介,只有随机存取内存(RAM,random access memory)才最合适。随机存取内存存量巨大是非常必要的——谷歌供人随时查考的正是这巨大的存量。统计机器翻译很适合于分布在数千台机器中进行,而谷歌的数据中心(虽然最初是为了其他目的而建)的设备就能承受这种计算上的负荷。

有了可以处理任何规模的计算问题的计算基础设施,谷歌的研究者便拥有了一个可以傲视群雄的巨大优势。他们的程序运行之快,在2005年国家标准和技术研究所举行的机器翻译竞赛中已经得到了体现;在2006年的竞赛中,他们又占据了领先地位。在参加阿-英翻译的22个竞赛者中,谷歌的整体成绩排名第一;在参加汉-英翻译的24个竞赛者中,谷歌名列第二(被南加州大学著名的信息科学研究所险胜)。

Systran的主席兼CEO季米特里斯·沙巴塔卡基斯(Dimitris Sabatakakis)不能理解为何统计机器翻译的结果总是超过他的规则基础技术。2005年竞赛结束后,他替以规则为基础的方法作了些辩护,并建议没有雇用以汉语为母语的人员的谷歌不要再玩弄类似花招。就Systran而言,“如果我们没有中国人,我们的系统就可能出现严重的错误”。他不理解,如果没有母语为汉语的人对译文反复检验,谷歌为何能在2005年把Systran彻底打败。但他没有立即报名再次参加比赛:Systran从2006年的竞赛中消失了。2007年没有举行比赛。所以尚不清楚Systran是否已经决定永远不再与统计机器翻译直接较量。

谷歌没有声称拥有最复杂的翻译算法,但它的确拥有一些其他的机器翻译团队所不具备的东西:体量最大的训练数据。2007年,负责机器翻译研究的工程师弗朗茨·奥奇(Franz Och)说:“在自然程序领域有一种著名的说法,‘更多的数据就是更好的数据’。”为什么谷歌一直使用那些从Web网页中搜集的2×1012词汇量的文本?原因就在于:写作质量无从担保,但绝对海量的额外数据对翻译算法质量的改进却是实实在在的。

独步天下的谷歌算法(13)

谷歌在机器翻译方面的成就还不能被说成是获得了足以养活自己的收益。谷歌在服务领域的拓展中所遇到的最复杂的问题就是,许多拓展项目对公司毫无贡献,至少没有直接贡献。尽管如此,机器翻译仍是一个恰当的项目。谷歌并没有急于将它的机器翻译能力投入商业###应用。它的机器翻译团队还只是谷歌实验室的一部分,而且其主要精力都放在研究上。在实验的基础上,团队在2007年为使用谷歌搜索引擎的用户提供了三种语言——###语、汉语、俄语——的英语翻译服务。

随着谷歌的翻译工作不断取得进展,它的翻译结果也远不止于经过了润色和符合语言习惯。当《华尔街日报》的双语(英语、###语)记者萨马德·阿里(Sarmad Ali)于2007年12月在试用谷歌、Systran和另外两个竞争者的阿-英在线翻译服务时,他为这几家公司的翻译结果中的语法错误和语义错误列了一张表,按照错误的程度排列顺序,从“值得斟酌”到“荒唐可笑”都有。

那一年的早些时候,谷歌的奥奇在一个公开的场合谈及机器翻译的结果时,谈到了谷歌最好的一面:这个组织致力于不断开拓信息传播的广度,看不出它对自己的商业利益的关心。他说,如果听众中有人打算亲手?

霸气小厨娘:想吃就挠墙-霸气小厨娘:世子不吃素  所罗门的刺青  疯子、傻子、色情狂  皇后请自重,我真不想代替陛下呀!  逆旅千秋  粉黛未央  [HP、暮光]坦言  超神铠甲大师  网游之修罗传说  时空理论  老猫  忠狗修神记  剑邑天人  全能佣兵  与幸福擦肩  给高富帅当保镖  仙缘剑修  极限梦想之王者归来  西藏的天堂时光  57 废妾惹桃花 妖娆小桃  

热门小说推荐
张三丰弟子现代生活录

张三丰弟子现代生活录

张湖畔,张三丰最出色的弟子,百年进入元婴期境界的修真奇才。他是张三丰飞升后张三丰所有仙器,灵药,甚至玄武大帝修炼仙境的唯一继承者,也是武当派最高者。在张三丰飞升后,奉师命下山修行。大学生,酒吧服务员,普通工人不同的身份,不同的生活,总是有丰富多彩的人生,不同的遭遇,动人的感情,总是让人沉醉不已。武林高手...

悦女吴县

悦女吴县

书名?阅女无限??呵呵,广大银民,请看清楚哦。吴县,这个二十岁的青涩小子,进城上学,居然一不留神,取悦于众多美女,在众女的帮助下,事业也是蒸蒸日上。且看主角如何将有限的生命,投入到吴县的悦女事业中去。蹩脚的猪脚,由一个初哥,逐渐成为花丛高手。...

魔师逆天

魔师逆天

前世孤苦一生,今世重生成兽,为何上天总是这样的捉弄!为何上天总是那样的不公!他不服,不服那命运的不公。自创妖修之法,将魔狮一族发展成为能够抗衡巨龙的麒麟一族,成就一代麒麟圣祖的威名。...

我的极品老婆们(都市特种兵)

我的极品老婆们(都市特种兵)

一个被部队开除军籍的特种兵回到了都市,看他如何在充满诱惑的都市里翻云覆雨...

天美地艳男人是山

天美地艳男人是山

从农村考入大学的庾明毕业后因为成了老厂长的乘龙快婿,后随老厂长进京,成为中央某部后备干部,并被下派到蓟原市任市长。然而,官运亨通的他因为妻子的奸情发生了婚变,蓟原市急欲接班当权的少壮派势力以为他没有了后台,便扯住其年轻恋爱时与恋人的越轨行为作文章,将其赶下台,多亏老省长爱惜人才,推荐其参加跨国合资公司总裁竞聘,才东山再起然而,仕途一旦顺风,官运一发不可收拾由于庾明联合地方政府开展棚户区改造工程受到了中央领导和老百姓的赞誉。在省代会上,他又被推举到了省长的重要岗位。一介平民跃升为省长...

神印王座

神印王座

魔族强势,在人类即将被灭绝之时,六大圣殿崛起,带领着人类守住最后的领土。一名少年,为救母加入骑士圣殿,奇迹诡计,不断在他身上上演。在这人类六大圣殿与魔族七十二柱魔神相互倾轧的世界,他能否登上象征着骑...

每日热搜小说推荐