生物信息学基础教程第4讲：正则表达式教程

范文 2025-04-21 1° 格式：PPT大小：204.00KB页数：38价格：30

生物信息学基础教程第4讲：正则表达式教程内容摘要：

ed ‘s/^.//g’ sed ‘s/COL$…$//g’ sed ‘s/^\///g’ AWK教程 —— 文件模式提取教程 AWK简介  Linux下的 awk有三个版本： awk、 nawk、gawk，一般所说的 awk是指 /bin/awk，也就是 gawk (GNU awk)  awk的功能：  基于指定规则从文件或者字符串中分解抽提信息  基于指定的规则输出数据 awk的三种执行方式 1. awk *option+ ‘awk_script’ input_file1 *input_file2 …+ 2. 将 awk_script放入脚本文件并以 !/bin/awk –f 作为首行，并赋予该脚本可执行权限，然后在 shell下调用该脚本名称执行 awk_script的内容： awk_file input_file 3. 将所有 awk_script放入一个单独的脚本文件，然后用awk –f awk_file input_file(s)执行脚本 awk脚本的组成  可由一条或多条 awk_cmd组成，两条 awk_cmd之间一般以 NEWLINE分割  awk_cmd由两部分组成： awk_pattern { actions }  awk命令的一般形式 awk ‘BEGIN , actions awk_pattern1 , actions … awk_patternN ,actions END , actions ’ input_file 其中 BEGIN 和 END模块是可选的 awk脚本的运行机制 1. 如果存在 BEGIN区块，执行其中的 actions 2. 从输入文件中读取一行，称为读入一条记录 3. 将读入的记录按照分隔符（ FS/IFS）分割为多个字段，依次为 $1， $2， ….，而 $0表示整条记录。 4. 将当前输入记录与 awk_pattern相比较，如果匹配则执行 actions，如果不匹配则跳过读入下一条记录，重复执行 3， 4，直到文件尾 5. awk把输入文件的数据读入内存，然后操作内存中的输入数据副本，不会修改输入文件的内容 6. awk总是输出到标准输出，如果需要输出到文件，可采用重定向 awk_pattern的格式 1. 正则表达式 /regexp/ ① 通用的正则元字符 : [] ^ $ . | () * ② +是 awk特有的元字符，匹配其前的单个字符一次以上 ③ ?也是 awk特有的元字符，匹配其前的单字符 0/1次举例： awk ‘/*\$0\.[09][09+.*/’ input_file 2. 布尔表达式 “ ==”，“ ”, “～ /regexp/”，“ amp。 amp。 ”， “ ||” 举例 ① awk ‘$3 ~ /*^d+/’ input_file ② awk 39。 ($1 10 ) amp。 amp。 ($2 10) {print ok}39。 input_file actions的格式  actions是对 awk读取记录进行的操作  actions由一条或多条语句或命令组成，语句之间用分号分隔 awk命令 ① print “$1= ”, $1 ② printf：与 c语言的 printf类似 ③ next：读取下一条记录并处理 ④ nextfile：读取文件列表的下一个文件 ⑤ exit： awk停止执行并跳出。如果有 END存在，awk会执行 END的 actions awk语句  赋值语句 awk 39。 BEGIN ,x=1。 y=3。 x=y。 print x= x。 y= y ‘ awk 39。 BEGIN。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

标签：信息学基础教程生物

生物信息学基础教程第4讲：正则表达式教程

相关推荐

密码登录

账号注册