在awk里可以这样使用正则:
#截取 a.cn?fr=1211 中的1211if(match(url,/fr=[0-9]+/) > 1){ fr = substr(url,RSTRART + 3, RLENGTH - 3 )}#截取 a.cn?ct=test 中的testif(match(url,/ct=[a-zA-Z]+/) > 1){ fr = substr(url,RSTRART + 3, RLENGTH - 3)}
这样就导致一个需求:复用这些相似的代码 (我终于也培养成了代码洁癖 T_T)那么最先想到的是写成函数,到处调用。首先是功能模块:
# 文件: logic/parser.awk# 功能: 从str里找到指定的标记,并返回这个整个或部分标记# 参数: str 需要搜索的字符串# flag 查找的字符串# offset 偏离量,调用时不传递的话当作0来使用# 返回值: 匹配上的字符串function getflag(str, flag, offset, __ARGVEND__){ if(match(str, flag) > 1) { return substr(str, RSTART + offset, RLENGTH - offset) } else { return "" }}
然后是调用:
@include logic/parser.awkurl = "a.cn?fr=1211"fr = getflag(url, "fr=[0-9]+", 3)
看起来很美妙,代码终于变得干净了,起初看起来也都能工作,但是很快会发现使用这个模块的程序会内存泄漏,我之前也知道awk低于3.17的版本会泄漏,但是这个泄漏,也不一定总是发生,某次特意去测的时候就没有发现,当我逐次注释代码时终于发现:当程序里只有一个getflag调用语句时没有泄漏(似乎倒是不在乎在循环里调用多次),但多于一个调用语句,就发生了内存泄漏了,因为这种问题比较难排查,所以记录一下,用作将来的参考