生物信息学基础教程第4讲:正则表达式教程内容摘要:

ed ‘s/^.//g’ sed ‘s/COL\(…\)//g’ sed ‘s/^\///g’ AWK教程 —— 文件模式提取教程 AWK简介  Linux下的 awk有三个版本: awk、 nawk、gawk,一般所说的 awk是指 /bin/awk,也就是 gawk (GNU awk)  awk的功能:  基于指定规则从文件或者字符串中分解抽提信息  基于指定的规则输出数据 awk的三种执行方式 1. awk *option+ ‘awk_script’ input_file1 *input_file2 …+ 2. 将 awk_script放入脚本文件并以 !/bin/awk –f 作为首行,并赋予该脚本可执行权限,然后在 shell下调用该脚本名称执行 awk_script的内容: awk_file input_file 3. 将所有 awk_script放入一个单独的脚本文件,然后用awk –f awk_file input_file(s)执行脚本 awk脚本的组成  可由一条或多条 awk_cmd组成,两条 awk_cmd之间一般以 NEWLINE分割  awk_cmd由两部分组成: awk_pattern { actions }  awk命令的一般形式 awk ‘BEGIN , actions awk_pattern1 , actions … awk_patternN ,actions END , actions ’ input_file 其中 BEGIN 和 END模块是可选的 awk脚本的运行机制 1. 如果存在 BEGIN区块,执行其中的 actions 2. 从输入文件中读取一行,称为读入一条记录 3. 将读入的记录按照分隔符( FS/IFS)分割为多个字段,依次为 $1, $2, …., 而 $0表示整条记录。 4. 将当前输入记录与 awk_pattern相比较,如果匹配则执行 actions,如果不匹配则跳过读入下一条记录,重复执行 3, 4,直到文件尾 5. awk把输入文件的数据读入内存,然后操作内存中的输入数据副本,不会修改输入文件的内容 6. awk总是输出到标准输出,如果需要输出到文件,可采用重定向 awk_pattern的格式 1. 正则表达式 /regexp/ ① 通用的正则元字符 : [] ^ $ . | () * ② +是 awk特有的元字符,匹配其前的单个字符一次以上 ③ ?也是 awk特有的元字符,匹配其前的单字符 0/1次 举例: awk ‘/*\$0\.[09][09+.*/’ input_file 2. 布尔表达式 “ ==”,“ ”, “~ /regexp/”,“ amp。 amp。 ”, “ ||” 举例 ① awk ‘$3 ~ /*^d+/’ input_file ② awk 39。 ($1 10 ) amp。 amp。 ($2 10) {print ok}39。 input_file actions的格式  actions是对 awk读取记录进行的操作  actions由一条或多条语句或命令组成,语句之间用分号分隔 awk命令 ① print “$1= ”, $1 ② printf:与 c语言的 printf类似 ③ next:读取下一条记录并处理 ④ nextfile:读取文件列表的下一个文件 ⑤ exit: awk停止执行并跳出。 如果有 END存在,awk会执行 END的 actions awk语句  赋值语句 awk 39。 BEGIN ,x=1。 y=3。 x=y。 print x= x。 y= y ‘ awk 39。 BEGIN。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。