Entries Tagged as '数据分析,Metric'

两天,谷歌浏览器超越Opera

这两天到处都是谷歌浏览器(Google Chrome)的消息,这种氛围会在短时间内推动谷歌浏览器的市场占有率达到第一个峰值。但是当我看到下面这个图表的时候,还是感到很吃惊。

clicky-chrome

这是一个叫Clicky的网页流量分析服务提供的数据,有超过45000个独立网站使用它们的分析服务,Clicky可以统计访问这些网站的用户所使用的浏览器的类型。短短两天时间谷歌浏览器居然已经达到2.471%,已经超过了Opera浏览器。

当然,随着这股热度的逐渐消退,谷歌浏览器的成长速度会放缓;但是也不一定是这样,没准儿会出现用了都说好,结果有越来越多的人使用。另外,毕竟这只是来自45000多个网站的统计结果,局限性很大。

让浏览记录判断你是男是女

对于一个网站来说,访问者的性别比例很少有1:1的,那么总有是女性用户多一点、还是男性用户多一点的问题。如果一个人长期浏览的网站都是男性用户居多,那么这个人是男性的几率也就比较大,甚至可以根据所访问网站的男女用户比例来判断出这个人的性别几率。这个网页提供了一个小工具,点击“start analyzing my browsing history”这个按钮,就会根据你的电脑上的浏览记录,得出一份你“是男是女”的报告(IE浏览器可能会比较慢)。比如下面是我的报告的截图。

它判断我有64%的几率是男性。可以把这个小工具看作是一个游戏,但是也可以看作是一个研究网站用户性别比例的工具。比如,youtube的男女比例是1,刚才还说男女比例很少有1:1的情况呢。图中未显示的两个中文站点,优酷网的男女比例也是1,土豆网是0.85,看来土豆网的用户当中,女性要偏多一些。

需要注意的是,这个小工具依据的数据来自于Quantcast前1000位的网站访问情况,只是美国用户访问最多的前1000位的网站。如果有更多中文站点的数据就更好玩了。

Browser history analyzer guesses your gender

(via Webware) Mike Nolet of blog Mike on Ads has put together a fun little diversion that gives your browser history a quick once over and cross-references it with sites on the Quancast top 1000. Using the gender ratio on each site (according to Quancast) it will cobble together an overall percentage of what gender it thinks you are based on those results. Read more.

十大民生,十大城市

不同的城市,由于发展的情况不同,老百姓关注的民生问题也不尽相同。那么,哪些民生问题在哪些城市最受关注呢?我们不知道,但是可以从搜索当中窥其一斑。即,大家关心什么,那么搜索的某一项民生问题的词汇就多。Google trends可以告诉我们关于某个词汇的搜索趋势,而且可以显示搜索这个词汇最多的十个城市。

我选取了“买房、买车、找工作、商场、餐馆、医院、旅游、结婚、户口、生孩子 ” 等10个词,用google trends来搜索一下,看看对应的哪些城市搜索的多。当然,结果肯定不是说这些民生问题在这些城市就最突出,原因是多方面的,比如关键词的选择:找工作也可以用“求职”代替,搜索出来的城市和排位可能就很不一样;另外,google在中国毕竟使用的用户还少,不过百度现在没有类似的功能,只好将就了;再有就是结果是一个动态变化的过程。

1. 买房。十大城市依次是:上海、北京、深圳、天津、苏州、沈阳、杭州、南京、无锡、宁波。

maifang

2. 买车。十大城市:呼和浩特、太原、北京、乌鲁木齐、淮南(huainan)、青岛、郑州、上海、苏州、南京。

3. 找工作。十大城市:泉州、太原、淮南(huainan)、南昌、长沙、青岛、北京、郑州、兰州、哈尔滨。

4. 商场,反映购物需求。十大城市:北京、深圳、厦门、上海、重庆、广州、苏州、南京、沈阳、天津。

5. 餐馆,反映“食”的需求。十大城市:上海、北京、深圳、天津、杭州、武汉、南昌、福州、厦门、成都。

6. 医院,反映看病的需求。十大城市:上海、北京、杭州、深圳、广州、南京、武汉、天津、宁波、苏州。

7. 旅游。十大城市:海口、上海、昆明、厦门、北京、成都、杭州、宁波、无锡、深圳。

8. 结婚。十大城市:上海、无锡、北京、杭州、宁波、天津、苏州、深圳、福州、南京。

9. 户口,结婚时需要考虑户口,生孩子后也要考虑户口。十大城市:深圳、上海、北京、厦门、广州、天津、苏州、杭州、宁波、南京。

10. 生孩子。十大城市:青岛、济南、北京、石家庄、沈阳、泉州、太原、深圳、福州、淮南(huainan)。

可以总结的有趣的东西不少,比如,海口在这十大民生问题当中,只在旅游一项入围,为别的事操心很少吧,真幸福。福州好像真的是很有福,入围的三项民生问题分别是餐馆、结婚、生孩子。

大家也可以试着搜索一下自己感兴趣的东西。

音乐的长尾

Terry策划、各家音乐网站支持完成的“2008互联网音乐调查报告”已经出炉了,尽管这份报告最终的有效样本只有2411份,但也是近期看到的最有说服力的、关于在线音乐的用户行为的报告了。大家可以到Terry的网站下载完整的报告。这里我只摘录一些关于音乐的长尾的内容。

可以想见的是,既能搜索、又能在线收听、还能下载的搜索引擎是用户欣赏在线音乐的主要途径,调查的结果是近70%的用户每周都会使用音乐搜索引擎。但有些出人意料的是,64%的用户反映他们在使用音乐搜索引擎的过程中经常找不到自己需要的歌曲。见下图。

竟然有如此多的用户需求没有得到满足。报告分析说,是音乐搜索引擎“较低的用户获取成本使得它能占据市场的主导地位;由于音乐搜索中的内容大多为绝大部分的主流中文音乐和少量的主流英文音乐,所以这数据也可以反映在线音乐消费者具有对非主流的中文音乐和更多英文音乐内容较大的需求”。

那么再来看看用户对于非主流的中英文音乐的认知情况如何,调查选择了8支来自中国(包括内地、香港、台湾)、日本和欧美国家的独立乐队,结果用户表现出的熟识程度绝对不低。见下图。

music-long-tail

调查结果是:“喜欢这8支乐队的消费者最高占据24%的比例,最低6%。相对而言,消费者对欧美和港台的独立音乐接受度较高;尽管有部分乐队有超过60%的消费者并不了解,但对8支乐队均不了解的仅占了总体的1/4左右。”

好了,文章就到这里,至少有一个东西是明确的,国内的用户对于非主流的中英文音乐有着相当的需求,这条尾巴很长。谁来抓这条尾巴呢?谷歌音乐搜索?

Gapminder World:各国数据视觉化比较

这两天我们介绍的将数据视觉化的服务比较多,Gapmider World也属于这种类型。这个网站的上的数据都是各国的发展情况,比如人口、教育、出生率、能源消费、二氧化碳气体排放等等。有趣的是,我们不仅可以在一张图里直观的比较各国在某一领域内的发展差距,还可以动态播放一个国家在某一领域的数据变化,比如中国的二氧化碳排放量从1950年到2004年的变化。见下图,原图链接

gapminder-world

在右侧的国家列表里可以选择某个国家,蓝框所示的地方选择要查看的数据,图中就会显示这个国家这项数据的变化情况,点击Play就会动态播放这个国家历年数字的变化。而且其他国家在当年的数据也会显示出来,鼠标指向这些不同的圈时,就会显示是哪个国家,具体数字是多少。

Gapminder World很适合研究人员、老师和学生来用,可以非常方便的查找资料和演示。

Google Trends增加网站比较,与Alexa/Compete不完全竞争

Google Trends是大家很熟悉的产品了,它可以呈现两(几)个词在google搜索中的热度,也就是搜哪个词的人多,搜哪个词的人少。现在它又增加了网站之间比较的功能,叫作google trends for websites。我们试着比较一下百度和QQ。见下图,点击看大图。

baidu-qq-small

Google的结论是,QQ的流量基本上一直大于百度。在对比图的下面,还有访问该网站(图中是百度)的地区来源(regions)、访问这个网站的也访问(also visited)、搜索这个网站的也搜索(also searched for)等3项数据。

对于google进军网站流量分析市场想必不会招致不信任,因为google可能比现在这个领域内的参与者——比如AlexaCompete——都更能掌握更加准确的网站访问量数据,因为它有着每天巨量的搜索,把流量导入到各个网站。这比几百万的通过浏览器插件、或者付费给用户以共享网络浏览信息要全面的多。

除了搜索这个强项以外,google还有analytics这个得天独厚的产品,它每天都在监测着巨量的网站的流量;从3月开始,google analytics给用户提供了一个选择,即向google的其他产品开放数据,看来和google trends增加网站比较也有关系。

另外,google还宣称综合了第三方数据和消费者委员会资料(consumer panel data)。

不过,google的这个网站比较和alexa/compete还只能产生不完全竞争。在图中我们只能看到横坐标的时间,和纵坐标的独立IP访问数;还没有页面浏览量百万人口到达率等指标。

不过既然开始做网站比较了,推出这些数据也是早晚的事。有消息说,Firefox也会推出类似产品,数据自然是来源于火狐浏览器的用户的访问习惯(匿名的)。

更新:必须登录google后,才能看到纵坐标,我刚才因为没有登入所以没有看到纵坐标。另外,这里没有google自己的数据,不知道是不是为了避嫌。

更新2:google旗下网站比如youtube、blogger、picasa的数据也没有。

Google Faces Off With Compete, Alexa, Comscore, Quantcast (And Soon Firefox)

(via TechCrunch) Google has just introduced Google Trends For Websites, a new tool that lets users take a peek at the traffic data from sites around the web. The new feature pits Google against a number of well-established players in the traffic data space, including Compete, Comscore, Alexa, and a host of others. Read more.

Digg年轮

diggDaysOverlap

上图就是Digg年轮了。把数据视觉化总是那么迷人,尽管并不能一下在看出很多意思。Digg年轮出自Chris Harrison之手,所用的数据是从2007年5月24日到2008年5月23日,digg每天的10大推送新闻。推送的数量决定了年轮的宽度,颜色则是这个新闻所属的种类。不过Harrison并没有详细说明哪种颜色代表哪一类。

这些数据又被按照年、月份及星期进行了排序,上图反映的是一周当中每天的文章分布状况,并不能一下获得更多信息,只是周二和周四的圈圈要大一些。如果能够获得原始的图片的话,还是应该能得出很多有用的结论的,比如热门文章所在种类的变化,反映了digg用户群体及趣味的变化。

Harrison还有很多的视觉化作品,比如关于圣经当中的人名及地名等等,大家可以到这里观看。如果你想和他交流的话,这是他的电子邮件chris.harrison@cs.cmu.edu。

Visualizing Digg: Tree Rings 

(via ReadWriteWeb) …Digg Rings is the latest in a series of awesome visualization projects from Harrison, and it displays a year’s worth of Digg data in an absolutely stunning manner. These are interactive visualizations like those from Digg Labs, but they’re equally beautiful and would make one heck of a poster. Read more.

Facebook应用:只是为了好玩

数据分析公司FlowingData做了一件非常“有意义”的事,它把Facebook平台上的 23160个应用,划分为22大类,比如“just for fun”、“gaming”、“food and drink”等等,具体见下图。结果你猜怎么着,9601个应用只是 “just for fun”,比重超过41%。紧随其后的是“gaming”和 “sports”,数量都分别超过了2000,“chat”也很靠前。由此可见,绝大多数Facebook应用的目的是为了好玩。我不觉得这些东西“没有意义”,毕竟娱乐是大家的需要。

facebook-app

Study reveals shocking truth: Most Facebook apps are silly, pointless

(via webware)

The world of social networking may never be the same.

A new study from number-crunching firm Flowing Data did some eye-opening work recently, dividing 23,160 Facebook applications into 22 categories. A whopping 9,601 of them fall into Facebook’s “just for fun” category, followed by “gaming” and “sports” with over 2,000 each. In other words, the majority of Facebook applications are goofy time-wasters. Read more.

Worldmeters:这个世界的实时统计数据

现在世界的总人口是多少?今年全世界生产了多少辆汽车?排放了多少二氧化碳气体?消费了多少石油?打了多少吨鱼?一连串的问题,都可以在Worldmeters找到数据,而且这些数据是实时更新的。包括的大类有世界人口、政府与经济、教育和媒体、环境、食品、水、能源、健康等8个大类,每个大类又由许多统计项目构成,具体请看下图。Worldmeters的数据来源都是非常可靠的,具体可以看这里

worldometers

Worldmeters-world statistics updated in real time.

未来属于互联网,属于社群应用

摩根斯坦利(Morgan Stanley)发布了一份长达72页的互联网趋势报告,内容涵盖了社群网站的地位,用户的行为,手机、笔记本等硬件销量,互联网和网线网络的用户增长等等。总体的感觉是社群站点将在人们的网络生活中占据主导地位,相应的硬件设备和无线网络接入也会迅速增长。我们来简单看几页报告,完整的报告嵌在最后。

top10-change

这是根据Alexa数据排列的10大流量网站,05年的时候只有Myspace排到了前10位,到了今年,前10位中已经有7家社群网站了。

connectivity-changing

上图中左边这个图表显示的是各种类型网站的用户时间份额,其中社群网站占到了16%,而3年前还不存在这一类别。右边这个图表是说人们更愿意用社群站点联系,还是依靠传统一点的email。对比的人群是15-24岁的一组,44岁以上的一组,结果在年轻的一组当中,38%的人选择了社群站点,选择email的占23%。年轻人的习惯决定了互联网的未来。

important

这张图表反应的是个人对信息来源重要/非常重要的百分比排行,面对的是17岁以上的人群。结果选择互联网的占到80%,大大超过了传统的电视、广播和报纸。

下面是这个完整的报告。


Morgan Stanley’s March Internet Trends Report: Social Applications Dominating

(via techcrunch) Morgan Stanley’s Internet Trends report from last month takes a big turn from previous reports - the focus is nearly 100% on social applications and how they are taking over the Internet. Read more.

  • Partner links