生物信息学基础教程第4讲:正则表达式教程内容摘要:
ed ‘s/^.//g’ sed ‘s/COL\(…\)//g’ sed ‘s/^\///g’ AWK教程 —— 文件模式提取教程 AWK简介 Linux下的 awk有三个版本: awk、 nawk、gawk,一般所说的 awk是指 /bin/awk,也就是 gawk (GNU awk) awk的功能: 基于指定规则从文件或者字符串中分解抽提信息 基于指定的规则输出数据 awk的三种执行方式 1. awk *option+ ‘awk_script’ input_file1 *input_file2 …+ 2. 将 awk_script放入脚本文件并以 !/bin/awk –f 作为首行,并赋予该脚本可执行权限,然后在 shell下调用该脚本名称执行 awk_script的内容: awk_file input_file 3. 将所有 awk_script放入一个单独的脚本文件,然后用awk –f awk_file input_file(s)执行脚本 awk脚本的组成 可由一条或多条 awk_cmd组成,两条 awk_cmd之间一般以 NEWLINE分割 awk_cmd由两部分组成: awk_pattern { actions } awk命令的一般形式 awk ‘BEGIN , actions awk_pattern1 , actions … awk_patternN ,actions END , actions ’ input_file 其中 BEGIN 和 END模块是可选的 awk脚本的运行机制 1. 如果存在 BEGIN区块,执行其中的 actions 2. 从输入文件中读取一行,称为读入一条记录 3. 将读入的记录按照分隔符( FS/IFS)分割为多个字段,依次为 $1, $2, …., 而 $0表示整条记录。 4. 将当前输入记录与 awk_pattern相比较,如果匹配则执行 actions,如果不匹配则跳过读入下一条记录,重复执行 3, 4,直到文件尾 5. awk把输入文件的数据读入内存,然后操作内存中的输入数据副本,不会修改输入文件的内容 6. awk总是输出到标准输出,如果需要输出到文件,可采用重定向 awk_pattern的格式 1. 正则表达式 /regexp/ ① 通用的正则元字符 : [] ^ $ . | () * ② +是 awk特有的元字符,匹配其前的单个字符一次以上 ③ ?也是 awk特有的元字符,匹配其前的单字符 0/1次 举例: awk ‘/*\$0\.[09][09+.*/’ input_file 2. 布尔表达式 “ ==”,“ ”, “~ /regexp/”,“ amp。 amp。 ”, “ ||” 举例 ① awk ‘$3 ~ /*^d+/’ input_file ② awk 39。 ($1 10 ) amp。 amp。 ($2 10) {print ok}39。 input_file actions的格式 actions是对 awk读取记录进行的操作 actions由一条或多条语句或命令组成,语句之间用分号分隔 awk命令 ① print “$1= ”, $1 ② printf:与 c语言的 printf类似 ③ next:读取下一条记录并处理 ④ nextfile:读取文件列表的下一个文件 ⑤ exit: awk停止执行并跳出。 如果有 END存在,awk会执行 END的 actions awk语句 赋值语句 awk 39。 BEGIN ,x=1。 y=3。 x=y。 print x= x。 y= y ‘ awk 39。 BEGIN。生物信息学基础教程第4讲:正则表达式教程
相关推荐
tion Time to Market Clinical I, II, III Manufacturing Research Development 投資條件 Term Sheet(I) • 特別股股利 (dividend) • 董事席次 (Board Seats) • 表決權 (Voting Right) • 資金動用權 (Escrow Account) • 清算權 (Liquidation
章、复制处理印章)。 • 标志的使用:我省目前继续按照 《 吉林省畜禽肉品品质检验印章管理规定 》 、 《 吉林省 〈 畜禽肉品品质检验合格证 〉 管理规定 》 及 《 吉林省商务厅 卫生厅 工商局 牧业局关于加强畜禽屠宰和检疫检验证章标志及台帐管理的通知 》 (吉商联字 [2020]13号)执行。 既:经检验合格的畜禽产品出具 《 畜禽肉品品质检验合格证 》 ;种公母猪晚阉猪胴体出具 “
• 工具性的學習經驗:個人生涯計畫能力和決定技巧 • 連結性的學習經驗:個人的職業偏好、態度和情緒 從葛佛森的設限及妥協的理論可以看到:生涯抉擇及其因素也會因為年齡的增長而有所改變。 將個人對自己以及工作世界的認識大致分為四個階段: 權力傾向期 性別角色傾向期 社會價值傾向期 自我傾向期 單元一:生命彩色密碼 單元目標: 1. 檢視自己過去各個人生階段的重要經驗,及對這些經驗的感覺和看法。 2.
)。 (九 )研發之專利數與新品種數 5年合計 2,500件 (平均每年 500 件 )。 (十 )智慧財產權衍生收入成長 100% (平均每年成長 20% )。 11 教育部對於五年要達到的指標,一一換算成每年 要達到的指標。 每年平均 , 平均每年 ,皆為教育部用語。 畫蛇添足。 12 有百分比的那七項,都有問題。 以第 (三 )、 (六 )、 (七 ), 及 (十 )那四項為例 ,