Entries Tagged as 'powerset'

百度词典寒酸上线

今天百度产品线中新的一员“百度词典”上线了。这个产品对应的应当是谷歌翻译,但是比较起来,百度词典真是有些寒酸。百度词典目前仅支持中英和英中互译,不支持网页翻译,而且特别提醒,文字最好在1000字以内。

百度词典翻译结果由金桥翻译提供。多说一句,在长句翻译里,无论是哪一家的翻译目前只能当作游戏看待,因为在语言学研究没有长足进展的情况下,在已有的语言学成果没有完全应用的情况下,机器翻译是不可能做的好的。微软收购Powerset也不会促进live search明显改善搜索质量。

baidu-dictionary

(消息来源:cnBeta)

Powerset:让英文维基百科更有效的搜索

powerset-homepage

尽管Google对于Powerset不屑一顾,尽管前两天还有powerset资金链断裂将被出售的传闻,不过今天它却发布了一个展示(showcase)版本,我们终于可以全面的体验一下powerset了,虽说它的搜索范围仅仅局限在英文维基百科

感官上最大的区别是,powerset终于脱离了powerset labs时代的填空式搜索,只要在搜索框中填写词或句子就可以搜索了。在搜索框下面有一些现成的例词、例句,可以先看一下。我选择了这个“who did google acquire(google收购了谁)” ,来看看搜索结果,见下图。

powerset-google-small

与一般的搜索结果最明显的不同之处在于,powerset在搜索结果的上方又多了一个自己整合的结果,可以理解为这是powerset认为这些结果百分之百是你想要的,当然,并不是搜索任意词句都能得到这些结果的。不过,谁说不能做到呢?这些经过整合的结果为用户节省了大量时间,当然,这些结果还很不完善,比如居然没有youtube、doubleclick。于是还要到下面的搜索结果中去找。

这些搜索结果把关键词都用黄色色块突出出来了,不过仔细看的话,不光是google、acquire以及who所代表的公司名字,还有bought,这充分体现了语义搜索的魅力,它不是和关键词的一一对应,而是使搜索条目和文章的意思对应,这也是为什么powserset的工作比传统搜索引擎要难得多,它索引网站的速度也慢的多。

除了英文维基百科外,powerset还整合了freebase的资料,这让我想起了雅虎正在做的searchmonkey项目。比如搜索obama(奥巴马)。

powerset-freebase

才知道奥巴马出生在火奴鲁鲁(Honolulu)。

继续期待powerset做的更好,希望投资集团们在支援一下这群有梦想的人。

更新:Powerset已被微软收购,加入Live Search团队,但是双方都没有透露收购的金额,传言为1亿美元。

Powerset Launches Showcase For User Search Experience

(via Techcrunch) Today marks another milestone for San Francisco based contextual search engine Powerset. They’ve launched a showcase for their user search experience - effectively the search engine minus the web crawl. For now, Powerset queries only Wikipedia and augments results with data from Freebase. Read more.

Google对自然语言搜索嗤之以鼻

Google调研总监(a director of research at google)Peter Norvig 接受了Technology Review的采访,其中一段是谈到对自然语言搜索(整句搜索)的看法,这是Powerset们正在努力研究的事情。下面是采访的原文:

TR: Companies such as Ask and Powerset are betting that the future is in natural-language search, which lets people use real, useful sentences instead of potentially ambiguous keywords. What is Google doing with natural language?

PN: We think what’s important about natural language is the mapping of words onto the concepts that users are looking for. But we don’t think it’s a big advance to be able to type something as a question as opposed to keywords. Typing “What is the capital of France?” won’t get you better results than typing “capital of France.” But understanding how words go together is important. To give some examples, “New York” is different from “York,” but “Vegas” is the same as “Las Vegas,” and “Jersey” may or may not be the same as “New Jersey.” That’s a natural-language aspect that we’re focusing on. Most of what we do is at the word and phrase level; we’re not concentrating on the sentence. We think it’s important to get the right results rather than change the interface.

TR的问题是powerset们认为未来将是整句搜索取代语义指向不明确的关键字搜索,google怎么看。

PN的回答是,google关心的重点是在词汇和短语水平,他们认为如何把词排列对应到用户想搜的意思上是最重要的。他们不认为整句搜索是多么大的进步,举了一个例子,搜索“法国的首都是哪儿”并不比搜索“法国的首都”更高明。

PN的回答也许让很多支持自然语言搜索的人感到不舒服。但是他说出了一个事实,人们对句子规则的研究还是裹足不前,映射到机器语言上来,更是对自然语言难以理解,因此机器语言的研究只能是局限在词和短语的水平。

当然他举的例子太偏颇了,比如搜索“how many times Man Utd. had beaten Arsenal in history” 和搜索“What is the capital of France”可不是一个量级的事,后者希求的只是一个答案,而前者则可能包括比分、进球数、哪项赛事等多重信息。

这就是自然语言的可怕之处。

Google won’t do natural lunguage search in the near futrue

Peter Norvig,director of research at Google,answered some questions in the Technology Review Q&A.One sector is about the natrual language search.The original texts are on the above.

Peter’s answer maybe not so comfortable for someone who is keen to the natrual language search technology,but he tells a truth.Natural language is so complicated for the linguistic study right now,and more complicated for the artificial intelligence.So google’s emphasis is at the word and phrase level.

Powerset小试牛刀

Powerset的“自然语言搜索(natural language search)”概念早已名声在外。前几天终于得到了测试的机会。这个2008年将要推出的搜索引擎,如今搜索的范围还仅限于英文版wikipedia。搜索的项 目还局限于“引用(quotes)”、“商业(business)”、“艺术(the arts)”、“体育(sports)”。
所谓的自然语言搜索还不能做到把自然的语言直接输入搜索框,比如“布什什么时候下台”,现在的搜索方式还是设定好的“填空式”提问,比如quotes:
who did () praise?
who did () criticize?
who criticized ()?
what did () say about ()?
……
再比如sports:
who did () sign?
what record did () break?
who beat/defeat ()?
商业和艺术的选项也是这样的方式。虽然是填空式的问句,但是显示的结果并不一定包含填到搜索框里的所有词,而是根据问句的意思来显示答案。比如who criticized (president bush)?搜索的结果有的就不包括president这个词,而只是george w.bush。这也正体现了自然语言搜索的魅力。
powerset在球队的历史战绩时非常好用,比如,who beat (arsenal)?所有打败过阿森纳队的比赛就都会呈现出来。

Powerset还有一个powermouse的功能。这实际上不是一个搜索功能,他是一个展示功能,展示powerset的运行方式,我想也是对powerset未来发展的展示。这个功能是由三个搜索框构成的:
something connection something
这其实就是powset的思维方式,现在的填空式搜索就是在已经给出connection,并由用户给出一个something来查找另一个something。而成熟的powerset应当是由用户自由的给出其中的两个要素来查找第三个要素。
总的感觉是,powerset小试牛刀,表现不错,期待中。

  • Partner links