|
|
Google分词算(suàn)法(fǎ)值得我们(men)好好研究一下。Google的搜索结果页(yè)(SERP)与搜(sōu)索关键(jiàn)字(zì)的(de)相关性,明显大于百(bǎi)度(dù),这是因为Google把搜索(suǒ)关(guān)键字都拆分(fèn)成最基本的词(cí)组和单字后,在根据(jù)相关性(xìng)去匹配数(shù)据库的(de)中内容,而且Google拆分后的最基本词(cí)组,完全(quán)是(shì)根据(jù)词典里的词组匹配(pèi)的,也是(shì)说(shuō)它符合国家语言文字(zì)工作委员会(huì)的规范和标(biāo)准的,这(zhè)只限于普通词组(公众人名、著名品(pǐn)牌名)。
实例1:测(cè)试(shì)Google是否有专(zhuān)业名(míng)词库
在Google搜索(suǒ)“搜(sōu)索(suǒ)引擎关键字(zì)”,Google会(huì)把这个关键字短(duǎn)语(yǔ)拆分为“搜索—引擎—关键(jiàn)—字”,这是(shì)因(yīn)为“搜索(suǒ)引擎”和(hé)“关键字”都是网络专业词组,可(kě)能(néng)Google没有专业词组库(kù),所(suǒ)以就被拆分成了“搜索—引(yǐn)擎—关键—字”。
实例2:测试Google拆分长关(guān)键字
在Google搜索“他舅WAP流(liú)量(liàng)统计分(fèn)析”,Google把这个关(guān)键字短语拆分为(wéi)“他(tā)—舅—wap—流量—统计(jì)—分析”六部分,“WAP”是(shì)一个英文词组,包括(kuò)Google和(hé)其他(tā)搜索(suǒ)引擎一般是不拆分英(yīng)文(wén)词组的(de)(就算它(tā)不(bú)是英文单词),“流量”、“统计”、“分析”都是符合国家语言规范(fàn)的标准词组,“他舅”只(zhī)是中国(guó)老百姓一个口头称谓用(yòng)语,不(bú)符(fú)合国家语言规范,在词典中根本就查不到这,所以Google就把(bǎ)“他舅(jiù)”拆分成了两个单字。
实例(lì)3:测试品牌名是否被Google收(shōu)录为词组
在Google搜索“海尔冰(bīng)箱(xiāng)”、“惠普电脑(nǎo)”、“华(huá)为通讯”、“美的电器”,“五粮液酒”,“夏利汽车”、“北京同仁堂”这七个都(dōu)是著名的(de)品牌,结果是“海尔”、“惠普”、“华为”、“五粮液(yè)”、“同仁(rén)堂(táng)”都(dōu)是单独(dú)的词组,没有被拆分(fèn)为单字,“夏利”、“美的”这(zhè)两个(gè)品牌却(què)被拆分成了单字。不是所有品牌都能被Google作为一个词组收录(lù)进品牌词库,Google有(yǒu)自(zì)己的收录标准的。
实例4:测试(shì)Google是否(fǒu)会拆分成语(yǔ)
下(xià)面我们搜索一(yī)下韩乔生(shēng)的(de)经典名句(jù)“迅雷不及掩耳之势”和(hé)“山清水秀丽”,结果“迅雷不及掩(yǎn)耳之(zhī)势”这个短句(jù)被拆分成(chéng)了“迅雷—不(bú)及—掩(yǎn)耳盗铃—之—势”,“迅雷”是(shì)一个(gè)符(fú)合汉语言规范(fàn)的标准(zhǔn)词组,不是指下载(zǎi)工具那(nà)个“迅雷”,“不(bú)及”也是一个词组,“掩耳盗铃”也(yě)是符合国家语言规范的成语,“之势”不是标准(zhǔn)词组,所以就被拆分为两个单字。“山清水秀(xiù)丽”被(bèi)拆分为了“山清水(shuǐ)秀(xiù)—丽”,“山清(qīng)水秀”是一个成语没有拆分。Google把成(chéng)语作(zuò)为几(jǐ)个基本词组,不会进一步拆分。
实例5:测试(shì)普通之(zhī)间是否有权重(chóng)高低之分
搜索“山河水灾”这个(gè)关(guān)键字短语,结果(guǒ)Google拆分为(wéi)“山河”和(hé)“水灾”两(liǎng)个词组(zǔ);然后搜素“山河水(shuǐ)灾情”这(zhè)个关键字短语(yǔ),结(jié)果(guǒ)Google拆分为(wéi)“山河”、“水”、“灾情”三部分,“水”字(zì)没有和“灾”组成词组,反而(ér)“灾”和“情”组成了词组(zǔ),这说“灾情”这个词的权重高于“水灾(zāi)”的权重。这说明词组(zǔ)之(zhī)间也是有权重之分的。
根据实例测(cè)试推断:Google会(huì)把(bǎ)搜索的(de)关键字(短语)拆分为最基本的词组(zǔ),这些普通(tōng)词组都是符合汉语言规范的标准词组(zǔ),不像百(bǎi)度那样收录“人(rén)造名词”。Google的词组大致(zhì)可分为(wéi)普通名(míng)词(cí)、地名、人名等几类,关键字(短(duǎn)语(yǔ))都(dōu)是从左向右,按权重高(gāo)低拆分(fèn)。这些词组权重从低到高依次(cì)如下:人名<普通词组<地名<成语(yǔ)<领(lǐng)导人名(míng)字。进一步测试品牌(pái)名和人名的权重是一样,都是(shì)最低的,这只是一个大致顺序,因为(wéi)同一类(lèi)词组还会根据日常使用的频(pín)率进一步的分级,每一级的分配不同的权重,所以(yǐ)同一类词(cí)组之间也(yě)有权重高低之分。
|
|