作业帮 > 作文素材 > 教育资讯

google黑板报

来源:学生作业帮助网 编辑:作业帮 时间:2024/09/23 01:40:33 作文素材
google黑板报作文素材

篇一:Google黑板报之 数学之美

Google (谷歌)中国的博客网志,走近我们的产品、技术和文化

数学之美 系列一 -- 统计语言模型

2006年4月3日 上午

08:15:00

从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。

发表者: 吴军, Google 研究员

前言

也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。

系列一: 统计语言模型 (Statistical Language Models)

Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。

其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。

首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。

给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。

如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在

文本中出现的可能性,也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为:

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

其中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为:

P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…

(当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。)

接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,P(wi|wi-1) = P(wi-1,wi)/ P (wi-1)。

也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(NIST) 对所有的机器翻译系统进行了评测,Google 的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。

现在,读者也许已经能感受到数学的美妙之处了,它把一些复杂的问题变得如此的简单。当然,真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克和他的同事的贡献在于提出了统计语言模型,而且很漂亮地解决了所有的细节问题。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。

我是一名科学研究人员 ,我在工作中经常惊叹于数学语言应用于解决实际问题上时的神奇。我也希望把这种神奇讲解给大家听。当然,归根结底,不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人服务的。我希望 Google 多努力一分,用户就多一分搜索的喜悦。

数学之美 系列二 -- 谈谈中文分词

2006年4月10日 上午

08:10:00

发表者: 吴军, Google 研究员

谈谈中文分词

----- 统计语言模型在中文处理中的一个应用

上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

分成一串词:

中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。

最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。

用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如 “上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代,哈工大的王晓龙博士把它理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性 (有双重理解意思)的分割时就无能为力了。比如,对短语 “发展中国家” 正确的分割是“发展-中-国家”,而从左向右查字典的办法会将它分割成“发展-中国-家”,显然是错了。另外,并非所有的最长匹配都一定是正确的。比如“上海大学城书店”的正确分词应该是 “上海-大学城-书店,” 而不是 “上海大学-城-书店”。

九十年代以前,海内外不少学者试图用一些文法规则来解决分词的二义性问题,都不是很成功。90年前后,清华大学的郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。

利用统计语言模型分词的方法,可以用几个数学公式简单概括如下:

我们假定一个句子S可以有几种分词方法,为了简单起见我们假定有以下三种:

A1, A2, A3, ..., Ak,

B1, B2, B3, ..., Bm

C1, C2, C3, ..., Cn

其中,A1, A2, B1, B2, C1, C2 等等都是汉语的词。那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说如果 A1,A2,..., Ak 是最好的分法,那么 (P 表示概率):

P (A1, A2, A3, ..., Ak) 〉 P (B1, B2, B3, ..., Bm), 并且

P (A1, A2, A3, ..., Ak) 〉 P(C1, C2, C3, ..., Cn)

因此,只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率,并找出其中概率最大的,我们就能够找到最好的分词方法。

当然,这里面有一个实现的技巧。如果我们穷举所有可能的分词方法并计算出每种可能性下句子的概率,那么计算量是相当大的。因此,我们可以把它看成是一个动态规划(Dynamic Programming) 的问题,并利用 “维特比”(Viterbi) 算法快速地找到最佳分词。

在清华大学的郭进博士以后,海内外不少学者利用统计的方法,进一步完善中文分词。其中值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作。

需要指出的是,语言学家对词语的定义不完全相同。比如说 “北京大学”,有人认为是一个词,而有人认为该分成两个词。一个折中的解决办法是在分词的同时,找到复合词的嵌套结构。在上面的例子中,如果一句话包含“北京大学”四个字,那么先把它当成一个四字词,然后再进一步找出细分词 “北京” 和 “大学”。这种方法是最早是郭进在 “Computational Linguistics” (《计算机语言学》)杂志上发表的,以后不少系统采用这种方法。

一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。Google 的葛显平博士和朱安博士,专门为搜索设计和实现了自己的分词系统。

也许你想不到,中文分词的方法也被应用到英语处理,主要是手写体识别中。因为在识别手写体时,单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单词的边界。其实,语言处理的许多数学方法通用的和具体的语言无关。在 Google 内,我们在设计语言处理的算法时,都会考虑它是否能很容易地适用于各种自然语言。这样,我们才能有效地支持上百种语言的搜索。

对中文分词有兴趣的读者,可以阅读以下文献:

1. 梁南元

书面汉语自动分词系统

/demo/LiangNanyuan-JCIP-1987.pdf

2. 郭进 统计语言模型和汉语音字转换的一些新结果

/demo/GuoJin-JCIP-1993.pdf

3.(转 载 于:wWW.zw2.Cn 爱作文网) 郭进

http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf

4. 孙茂松

数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用

2006年4月17日 上午

08:01:00

发表者:吴军,Google 研究员

前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。

自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统:

其中 s1,s2,s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1,s2,s3...。

其实我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音的自动识别。同样,在计算机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。

那么怎么根据接收到的信息来推测说话者想表达的意思呢?我们可以利用叫做“隐含马尔可夫模型”(Hidden Markov Model)来解决这些问题。以语音识别为例,当我们观测到语音信号 o1,o2,o3 时,我们要根据这组信号推测出发送的句子 s1,s2,s3。显然,我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述,就是在已知 o1,o2,o3,...的情况下,求使得条件概率

P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个句子 s1,s2,s3,...

当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成

P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)

其中

P(o1,o2,o3,...|s1,s2,s3....) 表示某句话 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而

P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的句子的可能性,所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身可以一个句子的可能性,得出概率。

(读者读到这里也许会问,你现在是不是把问题变得更复杂了,因为公式越写越长了。别着急,我们现在就来简化这个问题。)我们在这里做两个假设:

第一,s1,s2,s3,... 是一个马尔可夫链,也就是说,si 只由 si-1 决定 (详见系列一);

第二, 第 i 时刻的接收信号 oi 只由发送信号 si 决定(又称为独立输出假设, 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。

篇二:100个Google终极技巧!

1.更加全面地用Google搜索的最好方式是点击高级搜索。

2.它可以让你搜索更加精准的词组,“所有词组”或者是适当的搜索框里输入词组的某一个特定关键词。

3.在高级搜索里你依然可以自定义在一张页面上展示多少个搜索结果,你所寻找的信息语言和文件格式。

4.“搜索以下网站或网域”可以让你通过输入一个顶级域名(如.co.uk)来限定搜索结果。 5 你也可以点击“日期、使用权限、数字范围和更多”的链接以获取更高级的功能。(Google中文直接分条在页面展示。)

6 保存设置,这些高级功能大多也可以在Google首页的搜索框中通过命令行参数来实现

7 Google的主要搜索可以无形地用布尔结构“AND”来结合。你当输入smoke fire - 它表示寻找smoke AND fire.

8 要让Google搜索Smoke 或者fire,只需要输入smoke OR fire.

9 你也可以用 | 来代替OR。如:smoke | fire.

10 像AND 和 OR 这样的布尔结构对大小写非常敏感。他们必须是全部大写。 11 搜索专有名词,然后输入用括号括住的一个或者几个关键词。比如water (smoke OR fire)

12 寻找短语,可以把它们放在引号里。比如:"there’s no smoke without fire"。 13 同义搜索来寻找那些类似的信息,只须在你的关键词臆加一根波浪线,比如:~eggplant.

14 用减号来排除关键词,如:new pram -ebay可以让搜索结果排除来自Ebay的婴儿车信息。

15 像 I, and, then ,if 这类普通词语是要被Google 忽略的。他们被称作停滞词语。 16 而加号却可以让这些停滞词语给包含进来,比如:fish +and chips.

17 如果一个停滞词语被包含在那些作为短语的引用标记中间的句子中时,这些词语是被Google允许的。

18 你也可以要求Google进行简省搜索,试一下:Christopher Columbus discovered *

19 用数字范围功能来搜索数字范围。例如:搜索价位在300英到500英磅之间的索尼电视可以用以下字串:Sony TV £300..£500。

20 通过高级搜索Google认可13种主要文件格式,其中包括Office, Lotus, PostScript, Shockwave Flash 和text。

21 搜索这些文件只需直接使用修饰符 filetype:[文件扩展名]。例如:soccer

filetype:pdf.

22 要排除整个文件格式,只需使用以前我们排除关键词时使用的相同布尔句法:橄榄球 -filetype:doc

23 事实上,只要你的语法正确,你可以混合使用任何布尔搜索运算符。举个例子便是:"sausage and mash" -onions filetype:doc

24 Google也有很多功能强大却隐藏着的搜索参数,例如“intitle” 仅仅只会搜索网页标题(titles).你可以用这个例子试一试:intitle:网页设计

25 如果你只是寻找文件而不是网页,只需用index of 代替intitle:参数。它可以帮助你寻找网络和FTP目录。

26 inurl这个修饰语只会搜索网页的网址,不妨用这个例子试一试 inurl:spices 27 通过 inurl:vien/view.shtml 你可以找到在线的网络摄像头。

28 inanchor这个修饰语非常特别,它仅仅只会寻找那些作为超链接的文本。

29 想知道有多少链接指向一个网站。可以试试这个语法:link:网址 - 比如

link:www.mozilla.org

30 同样的,你也可以通过 related:修饰语来找到Google认为相似的内容。比如: related:www.microsoft.com

31 info:site_name 这个修饰语可以返回关于某特定页面的信息。

32 同样的,在普通搜索后点击"相似网页"可以链接到Google认为相似的页面结果。 33 如果只想搜索某一个风址里的内容,可能用site: 来实现,比如说search tips site:www.techradar.com.

34 上述技巧通过像www.dmoz.org这样的目录网站并动态地生成网址。

35 也可直接进入Google Directory这样的人工挑选出来的数量有限的数据库网站,网址是www.direcory.google.com。

36 intitle和inurl这样的布尔运算符像OR一样在Google Directory中同样适用。

37 当你用Google图片搜索时,用site:的修饰语可以只搜索某一个网站内的图片,比如 dvd recorder site:www.amazon.co.uk。

38 同样的,用"site:.com"只会返回带有.com域名后缀网站里的结果。

39 Google新闻(news.google.com)有他自己的布尔运算符。例如“intext” 只会从一条新闻的主体内容里查询结果。

40 在Google新闻里如果你用“source:”这个运算符,你可以得到特定的新闻存档。比如:heather mills source:daily_mail

41 通过"location:"过滤器你可以等到特定国家的新闻,比如 location:uk

42 同样的Google博客搜索(blogsearch.google.com)也有它自己的句法。你可以搜索某篇日志的标题,比如 "inblogtitle:"

43 Google的普通搜索也可以确实也可以得到精确的结果,不如用"movie:" 来寻找电影评论。

“film:”修饰语效果也一样。

44 在搜索框里输入上映时间,Google会提示你提交你的邮编,然后Google就会告诉你什么时候什么地方将会有好戏上演。

45 如果想要一个专门的电影搜索页面,可以去www.google.co.uk/movies

如果你圈选了“记住地点”后,下次你查询电影放映时间只需要输入电影名字就够了。 46 Google确实在电影方面的搜索上下了些功夫。比如在搜索框中输入“director:<电影名>”你将得到什么结果?你肯定猜到了吧。

47 如果想得到演员名单,如需输入“cast:name_of_film”

18 在乐队名、歌曲名或者专辑名前加上“music:”可以得到相关的音乐信息和评论。 49 如果你在搜索框里输入“weather London”便可以得到伦敦最近四天完整的天气预报。

50 Google也内置了词典,在搜索框里用"define:the_word"试试。

51 Goolge保存了网站过去的内容。你可以直接搜索某个页面在Google服务器里的缓存,相关句法是“keyword cache:site_url”

52 相应的,直接在搜索框里输入“cache:site_url”可以直接进入缓存页面。

53 如果你手边没有计算器,只要记住Google同样内置了这么一个功能。输入“12*15”然后点击搜索试试。

54 Google的内置计算器不但可以转换尺寸还可以理解自然语言。搜索一下“14 stones in kilos”

55 汇率转换也同样适用,试试“200 pounds in euros”

56 如果你知道某货币的代码,将得到更加可靠的结果,例如"200 GBR in EUR" 57 温度呢?Google也没有放过,输入“98 f to c”便可以把华氏转换为摄氏。

58 想知道Google到底有多聪明呢?输入“2476 in roman numerals”然后点击“搜索”就知道了。

59 你也可以保存你的Google使用习惯偏好,只需要在www.google.com/account上注册一个帐号便可。

60 一旦有了Google帐号,不旦可以免费获得一个Gmail帐号,最主要的是可以畅通无阻地遨游于Google的世界。

61 登陆你的Google帐户,通过“iGoogle”你还可以个性化你的Google主页。

62 在“iGoogle”上点击”Add a Tab”来添加多个内容模块,Google会根据你添加的甩有模块来自适应整个页面。

63 “iGoogle”允许你为主页更换模板,点击”Select Theme”便可改变现有的默认主题。 64 有一些”iGoogle”主题会随着时间的改变而改变,比如”Sweet Dreams”就是一个随着白天到夜晚的更迭而改变的一款主题。

65 点击”Try something new” 下面的”More” 就可以看到一个更加完整的Google网站列表和一些新的功能。

66 “Custom Search”帮助你为你自己的网站建立一个Google牌的搜索引擎。

67 另外,那张列表还忘掉了一个很有用的服务“Personalised Search”,不过你可以通过访问www.google.com/psearch来使用它。(一个保存你搜索记录的服务——译者注)

68 这个页面列出了你最近的搜索,并按特定分类来区分他们,点击”pause” 就可以阻止Google记录你的搜索历史。

69 点击”Trends”可以看到你最访问的网站,你最搜索最多的条目以及最常点击的链接。

70 个性化搜索同样包括了一个书签服务,它帮助你在线保存书签并可以在任何地方获取他们。

71 更方便的是,你可以在”iGoogle”上添加一个书签模块来添加或访问它们。

72 你知道你还可以搜索Google返回的结果么?滑到搜索结果页面底部便可以找到那链接。

73 在你的查询后面附加你的邮编便可以搜索本地信息。

74 找地图?只需要在搜索关键词后面多写一个”map”,比如“Leeds map”

75 Google搜索图片(这里指直接在Google首页而不是Google Map页面,译者注)非常简单,只要你在关键词后而多写个“image”,你就会在搜索76 结果的顶部看到相关的图片结果。

77 神奇的是Google图片搜索可以识别人脸,在浏览器地址栏搜索结果页面网址后面添加“&imgtype=face” 确定后Google会过滤掉所有不是人的图片。

78 想关注股市行情?只需要在”stock:”后面填上公司的股票代码便可以得到从Google财经返回的结果。

79 在Google的搜索框中输入航空公司或者航班号可以获得相关的航班信息。 80 现在几点了?在地点前面加上“time”可以得到任务地方的时间。

81 你也许已经注意到了在输入关键词时Google会交替提示你的拼写,那内置的拼写检查在起作用。

82 你可以在关键词前加上”spell:”来直接调用Google的拼写检查功能。

83 点击”I’m Feeling Lucky” (手气不错)可以直接访问关键词搜索第一个结果的网页。 84 输入基于统计的查询关键词,比如population of Britain,在结果顶部Google会告诉你它的答案。

85 如果你看到的搜索有非英文结果,点击”Translate this Page” 可以看到由Google帮你翻译的英文内容。

86 你也可以搜索国外网站的内容,点击语言工具,然后选择你想要Google帮你翻译查询的国家。

87 语言工具的另一个特色是可以帮你翻译一些可自由剪贴的文本字块。

88 这里也有一个区域,你可以直接输入网址,并让Google翻译成你想要的语言。

篇三:数学黑板报

爱因斯坦说:“兴趣是最好的老师。”学生对数学的内在兴趣,是学习数学的强大动力。如何在教学中激发和培养学生的学习兴趣,并使兴趣得以持久,进而转化成学习的动力, 我认为应该从以下几个环节入手: 1、理解学生、关心学生,让学生亲其师,信其道。

2、培养学生课堂上的参与意识

3、“成功”与“愉快”,让每一位学生尝到成功的喜悦。 4、创设问题情境,设置悬念,让学生在积极的情感中求知。

一、猜一数学名词:

1、 五四三二一(倒数) 2、 每份一样多(平均数) 3、 手算 (指数)

二、打一成语:

1、3/4的倒数 (颠三倒四)

2、1的任意次方(始终如一)

3、2,4,6,8,10(无独有偶)

作文素材