[Home] [Setting up Mac OS X]
[Python]: ファイルを読む [日本語を使う]

Python examples - ファイルを読む

Python Tutorial にあまり書かれていなかった、「ファイルの読み方」について、例を示します。

対話形式で一行ずつ端末から読む

質問やプロンプトを出して、一行ずつ答えを端末から読む場合は、 raw_input() を使う次の方法が簡単です。

name = raw_input('Enter name: ')
print name

標準入力(stdin)から一行ずつ、最後まで読む

標準入力から読むには、sys をimport しておき、sys.stdin を用います。次の例は、１行ずつ、標準入力から読んで標準出力に書き出します。 (なお、print 文が自分で改行を付け足さないよう、最後にコンマがついています。）

#!/usr/bin/env python
import sys

for line in sys.stdin:
    print line,

＊注意：Unixの場合、改行コードはLF (\n)です。他のシステムで作ったファイルを処理する場合は、あらかじめ、改行コードを置き換えておきます。

ファイルを開いて読む

ファイルを開いて読む方法は Tutorial の9.9 Iteratorsにも書かれていますが、念のため。

#!/usr/bin/env python

for line in open('text.txt', 'r'):
    print line

上の例は、ファイルを閉じるのはPythonのgarbage collectorにお任せですが、自分でファイルを閉じたい場合は、次のようにします。(日下氏の説明)

#!/usr/bin/env python

f = open('text.txt', 'r')

for line in f:
    print line,
    
f.close()

タブ区切りのファイルを読む

タブで区切られたファイルを読んで、タブで各行の中身を切り分けるには、 split('\t')を用います。次の例は、区切った文字列を、リストとして書き出しています。

#!/usr/bin/env python

for line in open('text.txt', 'r'):
    itemList = line[:-1].split('\t')
    print itemList

line[:-1] は、lineの最後に入っている改行コード '\n' を取り除きます。 line.strip()でも'\n'は取り除かれますが、ついでに頭やおしりに付いているタブや空白文字も取り去るので、タブ区切りの行を扱うのには適していません。（例えば、初めのカラムの内容がない場合など）
もし、itemListの要素を一つずつ "/" で区切ってプリントするには、例えば次の行を付け足します。

    for item in itemList:
        print item+'/',
    print ''

次のようにtupleに変換すれば、itemList[2] のようなリストの要素ではなく、よりわかりやすい変数名が使えます。

	(name, zip, address) = tuple( itemList )

しかしもっと省略して、次の例にように書く事もできます。

#!/usr/bin/env python

for line in open('text.txt', 'r'):
    name, zip, address = line[:-1].split('\t')
    print name, zip, address

整数や実数をファイルから読む

Pythonで読み込まれたものは、「文字列」の型を持っています。したがって、ファイルに '123'と書かれたものをlineという変数に読み込んでも、これは '123'という文字列ですので、line + 5 などという計算はできません。（ちなみに、line * 5 とやると、文字列を５回繰り返して'123123123123123'ができます。） Cなどのように、「読み込む際に」%d などを使って型を指定はせず、文字列として「読み込んだ後」に型の変換をします。

次の例は、各行に整数、タブ、実数　という形で書かれた次のようなファイルを読み込み、それらの積をプリントします。

10	2.5
30	4.9

#!/usr/bin/env python

for line in open('text.txt', 'r'):
    items = line.split('\t')
    print items, int(items[0]) * float(items[1])

itemsというリストの中身もプリントしていますが、
['10', '2.5']
というように、数字が '...' で囲まれていることからわかるように、これは「文字列」のリストです。
次の行を付け足して、numbersというリストを作り直すと、これは
[10, 2.5]
というような「数」のリストになります。

    numbers = [int(items[0]), float(items[1])]
    print numbers

数字をいっぱい読む

各行に、タブで区切られた整数が一杯書かれたファイルを読み、各行ごとに「数」のリストを作る一つの方法は、次のようなものです。

#!/usr/bin/env python

for line in open('numbers.dat'):
    itemList = line.split('\t')
    numbers = []
    for item in itemList:
        numbers.append( int(item) )
    print numbers

itemを一つずつ型変換してリストに足していくのが面倒だという人には、 list comprehension という方法が便利です。(かつ、直感的？)

#!/usr/bin/env python

for line in open('numbers.dat'):
    itemList = line.split('\t')
    numbers = [ int(item) for item in itemList ]
    print numbers

中２行を次のようにまとめることも可。

    numbers = [ int(item) for item in line.split('\t') ]

また、map を使う方法もあります。(日下氏より）

    numbers = map(int, line.split('\t'))

数字をいっぱい読む (numpyを使う方法)

numpyを使う方法もあります。

import numpy as np

table = np.loadtxt('numbers.dat')

行と列を入れ替えるには（転置するには）

table = np.loadtxt('numbers.dat').T

ファイルを丸ごと読んで処理する

ファイルを一行ずつではなく、全部読み込んで処理することもできます。次の例は、HTMLファイルの <BODY> ... </BODY> ではさまれた部分を取り出します。

allLines = open('foo.html').read()
head, body = allLines.split('<BODY>')
meat, tail = body.split('</BODY>')

日本語の文字の入ったファイルを読む

Python 2.4以降、日本語なども標準的なパッケージで扱えるようになりました。これにより、shift_jis, euc_jp, iso2022-jp, utf_8などの文字コードで書かれたファイルの読み書きや、日本語の文字の入った文字列の処理などができます。

多くのファイルを次々と読む

例えば、dirctory内の *.txt のファイルを全て選んで、一つずつ読むには、 Tutorialにも書かれているように、次にようにするのが楽です。

#!/usr/bin/env python

import glob

for file in glob.glob('*.txt'):
    print file, '-'*20
    for line in open(file, 'r'):
        print line,

glob.glob('....') で、ls コマンドと同じように、目的のファイルを指定すると、選ばれたファイルのリストができます。
```
print glob.glob('*.txt')
        				
```
とすれば、リストとしてプリントされます。
全てのファイルの場合は、glob.glob('*') とします。
glob.globの代わりに、 os.popen を使う次のような方法もあります。 (ただし、os.popen の代わりに subprocess.Popen が推奨されているようです。)　しかし、いずれにしてもglob.globの方が簡単でしょう。
```
#!/usr/bin/env python

import os

for file in os.popen('ls *.txt').read().split():
    print file, '-'*20
					
```
- [解説] os.popen('ls *.txt')の結果は、いわばこのコマンドの出力が書かれたファイルを開いた状態になっています。従って、それを .read() することにより、その"ファイル”の中身が全て読み込まれます。中身は、各ファイル名が"\n"で区切られているので、 .split() を使って、リストの要素に切り分けます。

Updated 2017-06-29, Taku Yamanaka