Perl 5.8でUTF-8の文字コードを扱う

Perl 5.8では、内部でUTF-8の文字コードを使うようになったが、ファイルがどの文字コードで書かれているのかをきちっと指定しないと、文句を言われることがある。

お勧めの方法

Mac OS Xの上なら、PerlスクリプトはUTF-8の文字コードで書く。これはmiでもできるし、 vimでもできる。こうしておくと、Terminalでcatなども使えるので便利。
PerlのスクリプトがUTF-8で書かれていることを示すために、
```
	use utf8;
					
```
をスクリプトの初めに入れる。こうしておけば、検索の文字として日本語なども使える。
STDIN, STDOUTにUTF-8を使うなら、binmodeを使ってあからさまに指定する。
```
	binmode STDIN,  ":utf8";
	binmode STDOUT, ":utf8";
					
```
読み込むファイルがUTF-8で書かれているなら、次のようにopenで指定する。
```
	open(FH, "<:utf8", $filename);
					
```
読み込むファイルがshift-jisなど、UTF-8以外のコードで書かれているなら、次のようにencodingをopenで用いて指定する。
```
	open(FH, "<:encoding(shiftjis)", $filename);
					
```

例

スクリプトのサンプル

use utf8;
binmode STDIN,  ":utf8";
binmode STDOUT, ":utf8";

while(<>){
    print "¥t", $_ if /あ/;
}

print "--- open utf.txt ---¥n";
open(FH, "<:utf8", "utf.txt" ) or die "Cannot open file¥n";
while(<FH>){
    print;
}
close FH;

print "--- open sj.txt ---¥n";
open(FH, "<:encoding(shiftjis)", "sj.txt" ) or die "Cannot open file¥n";
while(<FH>){
    print;
}
close FH;

サンプルを展開し、
```
	perl utf.pl <utf.txt
					
```
と実行する。

うまく行かない例

binmode を使わずに
```
	use encoding 'utf8' STDIN=>'utf8';
			
```
を用いると、標準入力がUTF-8で書かれていることがきっちり認識されていない。特に、頻繁に英文字と日本語が切り替わるようなファイルを読み込むと、次のようなエラーが出る。
```
	utf8 "¥xE3" does not map to Unicode at bad.pl line 6.
			
```
UTF-8のファイルを読むために open(FH, "<:encoding(utf8)", $filename); をしても、正しく読めない。
UTF-8以外のファイルを読むために open(FH, "<:shiftjis", $filename); などとするのは誤り。

Perl 5.8でUTF-8の文字コードを扱う

お勧めの方法

例

うまく行かない例

Links