日本語環境

日本語環境
あまりに大雑把なタイトルなので、倉持的に思い付いたネタをつれづれなるままに書きまする。
はじめに
コンピュータを制御する言語はいまだにばっちり「英語っぽいもの」である。我々は表面上、日本語の環境を亨受しているに過ぎない。
パソコンと日本語略史
コンピューターの歴史はアメリカに始まる。その後も英語圏で発展を遂げたこともあり、コンピュータで使用できる文字は英数字のみであった。

コンピュータの黎明：当時の結果の出力はモニターやらプリンターなどではない。ガッチャマン(72 年放送)などを思い出してほしい（僕も再放送ですが）。例えば彼らはコンピュータの出力を穴のあいた紙によって得ている。
1974: 世界初の市販マイコン「ALTAIR8800」発売 → 昔はマイコンという言葉がよく使われていた。当時の出力は「光の点滅」。
1977頃: モニタ付パソコンの発売。7ビット（128）にて英数字を表現 → 8ビット（256）にて片仮名（半角片仮）を表現。(ascll というコードを利用)
81 年：日本語の扱えるコンピューター「PC-8801」（売れた）、「FM-8」（売れなかった）
90 年：DOS/V の誕生
95 年：Win95

日本語キーボードとは？日本的キーボードの極めて浅い歴史
日本語キーボードとは日本語入力／変換キーがついていて、５０音が書いてあるもの。キーボードの種類としては、106,109 などがそれである。英語のものは普通 101,104。 109,104 は Windows まわりのキーが３つ多い。
日本語入力の方法も、u*ix では当りまえのようにローマ字入力だが、他の OS ではかな文字モードとどちらかを選べる場合も多い。日本語入力の歴史の草分け期 (1984 年頃)は「ワープロ」が主役であり、むしろローマ字入力は非主流であった。つまり「ほ」を打つのに、「ー」を打っていたわけである。これがコンピューターの場合、むしろ日本語キーボードなど後発であったのでローマ字入力が特に必要であった。
漢字コード
コンピュータで漢字を扱うためのコードである。１bite 文字 2 文字分、 2 bite の 2 進数データと JIS 第一水準までの漢字との対応を付けたものをコード体系（256x256=65536）という。日本語には良くわからないがこの決りごとが複数存在しそのため（EUC,JIS,S-JIS,区点コード etc...)に良くわからんトラブルにもまれたりする。

unicode
巷(？)で話題の漢字コード。Kondara は次期バージョンから unicode で統一するとかなんとかいっている。
日本語やら、韓国語、中国語をまとめて 1 つのコードにしてしまえーという乱暴といえば乱暴なもの。まともにやったらとてもじゃないが 1bite ^2 = 65536 文字でおさらまないので、「この日本の○っつー文字と、韓国の△、中国の□は似てるからおんなじものにしよう」とか相当やくざなことをやっている(らしい)。
そもそも米国のアップル、IBM 、マイクロソフトの各社が中心になって「他言語への OS 移植を楽にしよぉぜ」っつー事で始めた。
やっぱり 2 biteじゃ少ないから 4 bite = 65536 x 65536 = たくさん (2 の 32 乗:インドの王様が破産するくらい)にして「unicode」にしようぜ、と 4 bite コード ISO10646 というのもまとめている。
文字化け
日本語のコードがなんらかの原因によりうまく変換されなかった場合に起きる。
→ Linux 上の Netscape では元気よく日本語が見れるのに、 Windows 上では激しく文字化けしていることもある。これは Netscape のバグであるが、ものの本によると euc な頁のほうが処置なし、らしい。html の先頭で「私は euc です。」とかいても駄目な場合もあるそうだ。IE の場合、良くもわるくもこっちが相当いい加減に html をかいても問題なく表示されることが多いが。それにしても, u*ix 系の場合日本語は euc が業界標準と思われるが困ったものだ。

http://www.ainet.or.jp/%7Einoue/font/pre.html
豊田大先生の頁
フォント
日本語なり英語なりを表示させるにもそれを見せるための図形が必要なわけでその図形のセットのことを「フォント」という。英語の場合 26文字+ 数字 + 記号で 1 セット。日本語の場合 JIS 漢字の第一水準の 2965 文字で 1 セット。
http://www.ainet.or.jp/%7Einoue/font/basic.html

Linux と日本語の日々
http://www.on.cs.keio.ac.jp/~yasu/japanese.html
http://www.ecs.shimane-u.ac.jp/%7Enawate/lecture/html/5-26/ja.html
まんまのページがある。

Netscape 日本語化とは？
とりあえず、u*ix ユーザー限定の問題である。他の金になりそうな OS に比べてあまり真面目に日本語化を行わなかったので我々ユーザーが頑張る、っつーか。そういう事。

タイトルに日本語をつかうと化ける
ラジオボタンに日本語をつかうと化ける
CGI な記入欄に日本語を入れられない
入れられるが直接入れられない
入れられるが入力した文字が見えない
などが具体的な症状でいまは解決している問題が殆ど。因みに Kondara 1.1 附属の 4.72 の場合全く実用に問題ない。入力方法は kinput2 。

日本語表示のしくみ

自分のマシンに日本語を表示させるためには最低限 1 種類の日本語フォントを持っている必要がある。フォントの中にも英数字のみのものもあるので、これらを持っていても表示は不可能である。さらにこのフォントをお絵書きできる画面が必要であり、ただのコンソールでは表示できない。よって、 X window システムを上げその上に kterm などの日本語表示できる窓をあけるか、コンソール上にて kon など日本語表示できるアプリケーションを実行する。

日本語入力のしくみ

Canna: Canna の日本語変換サーバは cannaserver であり、日本語表示 FEP は canuum である。「２つ合せて Canna である」。
Wnn: Wnn の日本語変換サーバは jserver であり、日本語表示 FEP は uum である。
kinput2

ああ、検索と Web な世界ってすばらしい。 Canna と Wnn の使用上の相違点はこちらを。

Debian とロケール
英語以外の言語について、一言語の情報を一まとめにしたものをロケールという。日本の場合には先述の問題ゆえ複数のロケールが存在する。
locale なものを探してみよう。
# find / -name locale -print
/usr/bin/locale
/usr/share/locale
/usr/share/groff/tmac/mm/locale
/usr/X11R6/lib/X11/locale
#

参考文献：2000-'01 パソコン用語辞典、見てわかるパソコン解体新書 vol.3、新・電子立国１および６巻

kura3@dameningen.org