关于Linux:循环访问bash中的文件内容

Looping through the content of a file in Bash

如何使用bash迭代文本文件的每一行?

使用此脚本:

1
2
3
4
5
echo"Start!"
for p in (peptides.txt)
do
    echo"${p}"
done

我在屏幕上得到这个输出:

1
2
3
Start!
./runPep.sh: line 3: syntax error near unexpected token `('
./runPep.sh: line 3: `for p in (peptides.txt)'

(稍后,我想用$p做一些比输出到屏幕更复杂的事情。)

环境变量shell是(来自env):

1
SHELL=/bin/bash

/bin/bash --version输出:

1
2
GNU bash, version 3.1.17(1)-release (x86_64-suse-linux-gnu)
Copyright (C) 2005 Free Software Foundation, Inc.

cat /proc/version输出:

1
Linux version 2.6.18.2-34-default (geeko@buildhost) (gcc version 4.1.2 20061115 (prerelease) (SUSE Linux)) #1 SMP Mon Nov 27 11:46:27 UTC 2006

文件peptips.txt包含:

1
2
3
4
5
6
7
8
9
10
RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL


一种方法是:

1
2
3
while read p; do
  echo"$p"
done <peptides.txt

正如注释中所指出的,这有一些副作用,比如修剪前导空格,解释反斜杠序列,如果缺少终止换行符,则跳过尾随行。如果这些是问题,您可以做到:

1
2
3
4
5
while IFS="" read -r p || [ -n"$p" ]
do
  printf '%s
'
"$p"
done < peptides.txt

例外情况下,如果循环体可以从标准输入读取,则可以使用不同的文件描述符打开文件:

1
2
3
while read -u 10 p; do
  ...
done 10<peptides.txt

这里,10只是一个任意数字(不同于0,1,2)。


1
2
3
4
cat peptides.txt | while read line
do
   # do something with $line here
done


选项1a:while循环:一次单线:输入重定向

1
2
3
4
5
6
#!/bin/bash
filename='peptides.txt'
echo Start
while read p; do
    echo $p
done < $filename

选项1b:while循环:一次单线:打开文件,从文件描述符读取(在本例中是文件描述符4)。

1
2
3
4
5
6
7
#!/bin/bash
filename='peptides.txt'
exec 4<$filename
echo Start
while read -u4 p ; do
    echo $p
done

选项2:for循环:将文件读入单个变量并进行解析。此语法将基于标记之间的任何空白来解析"行"。这仍然有效,因为给定的输入文件行是单字标记。如果每行有多个令牌,那么此方法将不起作用。另外,对于大型文件来说,将整个文件读取为单个变量不是一个好策略。

1
2
3
4
5
6
7
#!/bin/bash
filename='peptides.txt'
filelines=`cat $filename`
echo Start
for line in $filelines ; do
    echo $line
done


这并不比其他答案更好,但这是在没有空格的文件中完成工作的另一种方法(请参见注释)。我发现我经常需要一行代码来挖掘文本文件中的列表,而不需要使用单独的脚本文件的额外步骤。

1
for word in $(cat peptides.txt); do echo $word; done

这种格式允许我将所有内容放在一个命令行中。将"echo$word"部分更改为您想要的任何内容,您可以发出多个用分号分隔的命令。下面的示例将文件的内容作为参数使用到您可能编写的其他两个脚本中。

1
for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done

或者,如果您打算像使用流编辑器(learn sed)那样使用它,您可以将输出转储到另一个文件,如下所示。

1
for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done > outfile.txt

我使用了上面写的这些,因为我使用了文本文件,在那里我创建了每行一个单词。(请参见注释)如果您有不想拆分单词/行的空格,它会变得更难看一些,但相同的命令仍然可以工作如下:

1
2
OLDIFS=$IFS; IFS=$'
'
; for line in $(cat peptides.txt); do cmd_a.sh $line; cmd_b.py $line; done > outfile.txt; IFS=$OLDIFS

这只是告诉shell只在换行符上拆分,而不是空格,然后将环境返回到以前的状态。不过,此时,您可能需要考虑将其全部放入shell脚本,而不是将其全部压缩为一行。

祝你好运!


还有一些其他答案没有涉及的问题:

从分隔文件读取

1
2
3
4
5
6
7
# ':' is the delimiter here, and there are three fields on each line in the file
# IFS set below is restricted to the context of `read`, it doesn't affect any other code
while IFS=: read -r field1 field2 field3; do
  # process the fields
  # if the line has less than three fields, the missing fields will be set to an empty string
  # if the line has more than three fields, `field3` will get all the values, including the third field plus the delimiter(s)
done < input.txt

使用进程替换从另一个命令的输出读取

1
2
3
while read -r line; do
  # process the line
done < <(command ...)

这种方法比command ... | while read -r line; do ...好,因为这里的while循环运行在当前shell中,而不是像后者那样运行在子shell中。请参阅相关文章while循环中修改的变量不被记住。

从以空分隔的输入读取,例如find ... -print0

1
2
3
4
while read -r -d '' line; do
  # logic
  # use a second 'read ... <<<"$line"' if we need to tokenize the line
done < <(find /path/to/dir -print0)

相关阅读:bashfaq/020-我如何找到和安全地处理包含换行符和/或空格的文件名?

一次读取多个文件

1
2
3
4
while read -u 3 -r line1 && read -u 4 -r line2; do
  # process the lines
  # note that the loop will end when we reach EOF on either of the files, because of the `&&`
done 3< input1.txt 4< input2.txt

基于@chepner的回答:

-u是bash扩展。对于POSIX兼容性,每个调用看起来都类似于read -r X <&3

将整个文件读取到一个数组中(bash版本早于4)

1
2
3
while read -r line; do
    my_array+=("$line")
done < my_file

如果文件以不完整的行结尾(结尾缺少换行符),则:

1
2
3
while read -r line || [[ $line ]]; do
    my_array+=("$line")
done < my_file

将整个文件读取到数组中(bash版本4x及更高版本)

1
readarray -t my_array < my_file

1
mapfile -t my_array < my_file

然后

1
2
3
for line in"${my_array[@]}"; do
  # process the lines
done
  • 关于shell内置的readreadarray命令的更多信息-gnu

  • 关于IFS的更多信息-维基百科

  • bashfaq/001-如何逐行(和/或逐字段)读取文件(数据流、变量)?

相关员额:

  • 从bash中的文本文件创建数组
  • 你读一个只有一行的文件的方法有什么区别?
  • bash虽然读循环比cat慢得多,为什么?


使用while循环,如下所示:

1
2
3
while IFS= read -r line; do
   echo"$line"
done <file

笔记:

  • 如果不正确设置IFS,将丢失缩进。

  • 您几乎应该总是在read中使用-r选项。

  • 不要用for读行


  • 如果您不希望您的阅读被换行符打断,请使用-

    1
    2
    3
    4
    #!/bin/bash
    while IFS='' read -r line || [[ -n"$line" ]]; do
        echo"$line"
    done <"$1"

    然后以文件名作为参数运行脚本。


    假设您有这个文件:

    1
    2
    3
    4
    5
    6
    7
    $ cat /tmp/test.txt
    Line 1
        Line 2 has leading space
    Line 3 followed by blank line

    Line 5 (follows a blank line) and has trailing space    
    Line 6 has no ending CR

    有四个元素可以改变许多bash解决方案读取的文件输出的含义:

  • 空白行4;
  • 两行上的前导空格或尾随空格;
  • 维护每一行的含义(即每一行是一个记录);
  • 第6行未以CR终止。
  • 如果您希望文本文件逐行包括空行和不带CR的终止行,则必须使用while循环,并且必须对最后一行进行备用测试。

    以下是可能更改文件的方法(与cat返回的结果相比):

    1)丢失最后一行和前后空格:

    1
    2
    3
    4
    5
    6
    7
    $ while read -r p; do printf"%s
    "
    "'$p'"; done </tmp/test.txt
    'Line 1'
    'Line 2 has leading space'
    'Line 3 followed by blank line'
    ''
    'Line 5 (follows a blank line) and has trailing space'

    (如果改为执行while IFS= read -r p; do printf"%s
    ""'$p'"; done ,则保留前导空格和尾随空格,但如果最后一行不以cr结尾,则仍将丢失该行)

    2)使用cat的进程替换将一次读取整个文件,并失去单个行的含义:

    1
    2
    3
    4
    5
    6
    7
    8
    $ for p in"$(cat /tmp/test.txt)"; do printf"%s
    "
    "'$p'"; done
    'Line 1
        Line 2 has leading space
    Line 3 followed by blank line

    Line 5 (follows a blank line) and has trailing space    
    Line 6 has no ending CR'

    (如果你把"$(cat /tmp/test.txt)上取下来,你一个字一个字地读文件,而不是一口一口地读。也可能不是有意的……)

    逐行读取文件并保留所有间距的最可靠和最简单的方法是:

    1
    2
    3
    4
    5
    6
    7
    8
    $ while IFS= read -r line || [[ -n $line ]]; do printf"'%s'
    "
    "$line"; done </tmp/test.txt
    'Line 1'
    '    Line 2 has leading space'
    'Line 3 followed by blank line'
    ''
    'Line 5 (follows a blank line) and has trailing space    '
    'Line 6 has no ending CR'

    如果您想剥离引导和交易空间,请删除IFS=部分:

    1
    2
    3
    4
    5
    6
    7
    8
    $ while read -r line || [[ -n $line ]]; do printf"'%s'
    "
    "$line"; done </tmp/test.txt
    'Line 1'
    'Line 2 has leading space'
    'Line 3 followed by blank line'
    ''
    'Line 5 (follows a blank line) and has trailing space'
    'Line 6 has no ending CR'

    (没有终止
    的文本文件虽然很常见,但在posix下被认为是中断的。如果您可以依靠尾随的
    ,那么在while循环中不需要|| [[ -n $line ]]

    更多信息请参见bash常见问题解答


    1
    2
    3
    4
    5
    6
    7
    8
    #!/bin/bash
    #
    # Change the file name from"test" to desired input file
    # (The comments in bash are prefixed with #'s)
    for x in $(cat test.txt)
    do
        echo $x
    done


    下面是我的实际例子,如何循环其他程序输出的行,检查子字符串,从变量中删除双引号,在循环之外使用该变量。我想很多人迟早会问这些问题。

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    ##Parse FPS from first video stream, drop quotes from fps variable
    ## streams.stream.0.codec_type="video"
    ## streams.stream.0.r_frame_rate="24000/1001"
    ## streams.stream.0.avg_frame_rate="24000/1001"
    FPS=unknown
    while read -r line; do
      if [[ $FPS =="unknown" ]] && [[ $line == *".codec_type="video""* ]]; then
        echo ParseFPS $line
        FPS=parse
      fi
      if [[ $FPS =="parse" ]] && [[ $line == *".r_frame_rate="* ]]; then
        echo ParseFPS $line
        FPS=${line##*=}
        FPS="${FPS%\
    <div class="
    suo-content">[collapse title=""]<ul><li>虽然答案是正确的,但我确实理解它是如何在这里结束的。基本方法与许多其他答案提出的方法相同。另外,它完全淹没在您的fps示例中。</li></ul>[/collapse]</div><hr>
    <p>
    @Peter: This could work out for you-
    </p>

    [cc lang="
    bash"]echo"Start!";for p in $(cat ./pep); do
    echo $p
    done

    这将返回输出-

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    Start!
    RKEKNVQ
    IPKKLLQK
    QYFHQLEKMNVK
    IPKKLLQK
    GDLSTALEVAIDCYEK
    QYFHQLEKMNVKIPENIYR
    RKEKNVQ
    VLAKHGKLQDAIN
    ILGFMK
    LEDVALQILL