尽管已经存在许多关于Google Analycs常用过滤器设置或正则表达式的博文,但我仍旧狠心的写了这篇文章,主要基于三点考虑:
1、对不明白正则表达式的童鞋,进行简单的扫盲
2、介绍下过滤器与正则表达式之间的关系
3、最重要的是,需要它消除后期分析中我们之间的隔膜。
图一:Google Analytics正则表达式的使用
什么是正则表达式?
正则表达式作为网站分析的必要技能,在对流量来源、访客属性、访客行为、页面内容以及指标完成等进行高级细分时,显得尤为重要。
正则表达式,是包含字符、数字和通配符的字符串。正则表达式设置后,主要用于搜寻匹配或捕获符合该表达式的一些字符,是信息查找与提取的方式之一。
正则表达式中的通配符,是一些用于设置信息匹配与捕获规则的特殊符号,每一个通配符有其特有的含义与作用,在运行时会被执行对应的操作。
以下是最常用的通配符及其用法:
. 匹配所有单个字符 例如:表达式 . 表示寻找任意一个字符
* 匹配以前的 0 个或多个项目 例如:表达式 .* 表示不寻找或寻找任意多个字符
+ 匹配以前的 1 个或多个项目 例如:表达式 o+ 能寻找到god中的o或good中的oo
?匹配以前的 0 个或 1 个项目 例如:表达式 a? 表示不寻找或寻找一个a
() 将括号中的内容记为项目 例如:表达式 (an)?表示不寻找或寻找一次an字符串
[] 匹配此列表中的 1 个项目 例如:表达式 [abc(xy)]?表示不寻找或寻找一次abc(xy)中的任意1个字符或xy字符串
- 在列表中创建范围 例如:表达式A-Z a-z 0-9 分别表示所有大字母、所有小写字母、所有数字
| 或 例如:表达式 a|(bc) 表示寻找a或者bc
^ 匹配到字段开头处 例如:表达式 ^a 表示寻找出现在字符串最开头的a
$ 匹配到字段结尾处 例如:表达式a$ 表示寻找出现在字符串最后面的a
作为以上所有字符的转义字符 例如:表达式 ? 表示寻找一次?字符
工欲善其事必先利其器,以上正则通配符是学好网站分析的必备武器。呐,还木有掌握的童鞋,下班回家就有家庭作业要做了哦
正则表达式在Google Analytics中的应用
熟悉Google Analytics的童鞋都清楚,它之所以被全球80%以上的站长青睐的原因,除了免费因素外,最主要的是它功能强大,其中自定义细分功能是它的必杀技之一。
然而实施细分,除了使用精确匹配(Exactly matching)、包含(Containing)、以开头(Begins with)、以结尾(Ends with)等简单细分匹配模式外,我们还可以用匹配正则(Matching RegExp)模式,进行自定义匹配。在Google Analytics中,正则表达式主要用于过滤器设置、高级细分、查找、自定义报告的数据过滤、自定义信息中心小部件的数据过滤。
常用过滤器的正则表达式设置
正则表达式的设置,遵循简短、精确与高效原则,非必要时尽量避免.*全部匹配。Google Analytics过滤器包括排除、包括、大/小写、搜索/替换几种类型。以下是常用的过滤器设置:
一、排除内部访问IP
若排除单个IP,直接将它填入过滤模式即可;若排除IP地址段,可使用Google IP地址段过滤模式工具,生成对应的过滤模式。
图二:排除内部IP访问流量
二、设置报告中完整页面URL
跨域跟踪后,一般需要设置页面完整URL(域名+URI),以避免报告生成时文件名重复的情况。具体的设置如下:
图三:获取页面完整URL地址
三、仅包含单个域名流量
跨域跟踪后,想对单个域名流量情况进行分析,可在预定义过滤器中,对域流量进行限制,填入想包含的目标域名即可。
图四:仅显示单个域名流量
常用的过滤器设置,就介绍上面几个了。关键在于掌握正则表达式常用通配符的使用,会渔了就会有鱼了,是吧?