日本語環境

あまりに大雑把なタイトルなので、倉持的に思い付いたネタをつれづれなるままに 書きまする。

はじめに

コンピュータを制御する言語はいまだにばっちり「英語っぽいもの」である。 我々は表面上、日本語の環境を亨受しているに過ぎない。

パソコンと日本語略史

コンピューターの歴史はアメリカに始まる。その後も英語圏で発展を遂げたことも あり、コンピュータで使用できる文字は英数字のみであった。
  • コンピュータの黎明:当時の結果の出力はモニターやらプリンターなどでは ない。 ガッチャマン(72 年放送)などを思い出してほしい (僕も再放送ですが)。例えば彼らはコンピュータの出力を 穴のあいた紙によって得ている。
  • 1974: 世界初の市販マイコン「ALTAIR8800」発売 → 昔はマイコンという言葉 がよく使われていた。当時の出力は「光の点滅」。
  • 1977頃: モニタ付パソコンの発売。7ビット(128)にて英数字を表現 → 8ビット(256)にて片仮名(半角片仮) を表現。(ascll というコードを利用)
  • 81 年:日本語の扱えるコンピューター「PC-8801」(売れた)、「FM-8」 (売れなかった)
  • 90 年:DOS/V の誕生
  • 95 年:Win95
  • 日本語キーボードとは?日本的キーボードの極めて浅い歴史

    日本語キーボードとは日本語入力/変換キーがついていて、50音が書いてあるもの。 キーボードの種類としては、106,109 などがそれである。英語のものは普通 101,104。 109,104 は Windows まわりのキーが3つ多い。

    日本語入力の方法も、u*ix では当りまえのようにローマ字入力だが、他の OS では かな文字モードとどちらかを選べる場合も多い。日本語入力の歴史の草分け期 (1984 年頃)は「ワープロ」が主役であり、むしろローマ字入力は非主流であった。 つまり「ほ」を打つのに、「ー」を打っていたわけである。これがコンピューターの 場合、むしろ日本語キーボードなど後発であったのでローマ字入力が特に必要で あった。

    漢字コード

    コンピュータで漢字を扱うためのコードである。1bite 文字 2 文字分、 2 bite の 2 進数データと JIS 第一水準までの漢字との対応を付けたものを コード体系(256x256=65536)という。日本語には良くわからないがこの決りごとが 複数存在しそのため(EUC,JIS,S-JIS,区点コード etc...)に良くわからん トラブルにもまれたりする。

    unicode

    巷(?)で話題の漢字コード。Kondara は次期バージョンから unicode で統一するとか なんとかいっている。

    日本語やら、韓国語、中国語をまとめて 1 つのコードにしてしまえーという乱暴と いえば乱暴なもの。まともにやったらとてもじゃないが 1bite ^2 = 65536 文字で おさらまないので、「この日本の○っつー文字と、韓国の△、中国の□は似てるから おんなじものにしよう」とか相当やくざなことをやっている(らしい)。

    そもそも米国のアップル、IBM 、マイクロソフトの各社が中心になって「他言語への OS 移植を楽にしよぉぜ」っつー事で始めた。

    やっぱり 2 biteじゃ少ないから 4 bite = 65536 x 65536 = たくさん (2 の 32 乗:インドの王様が破産するくらい)にして 「unicode」にしようぜ、と 4 bite コード ISO10646 というのもまとめている。

    文字化け

    日本語のコードがなんらかの原因によりうまく変換されなかった場合に起きる。

    → Linux 上の Netscape では元気よく日本語が見れるのに、 Windows 上では激しく 文字化けしていることもある。これは Netscape のバグであるが、ものの本によると euc な頁のほうが処置なし、らしい。html の先頭で「私は euc です。」とかいても 駄目な場合もあるそうだ。IE の場合、良くもわるくもこっちが相当いい加減に html をかいても問題なく表示されることが多いが。それにしても, u*ix 系の場合日本語は euc が業界標準と思われるが困ったものだ。

    http://www.ainet.or.jp/%7Einoue/font/pre.html

    豊田大先生の頁

    フォント

    日本語なり英語なりを表示させるにもそれを見せるための図形が必要なわけで その図形のセットのことを「フォント」という。英語の場合 26文字+ 数字 + 記号 で 1 セット。日本語の場合 JIS 漢字の第一水準の 2965 文字で 1 セット。

    http://www.ainet.or.jp/%7Einoue/font/basic.html

    Linux と日本語の日々

    http://www.on.cs.keio.ac.jp/~yasu/japanese.html

    http://www.ecs.shimane-u.ac.jp/%7Enawate/lecture/html/5-26/ja.html

    まんまのページがある。

    Netscape 日本語化とは?

    とりあえず、u*ix ユーザー限定の問題である。他の金になりそうな OS に比べて あまり真面目に日本語化を行わなかったので我々ユーザーが頑張る、っつーか。 そういう事。

  • タイトルに日本語をつかうと化ける
  • ラジオボタンに日本語をつかうと化ける
  • CGI な記入欄に日本語を入れられない
  • 入れられるが直接入れられない
  • 入れられるが入力した文字が見えない
  • などが具体的な症状でいまは解決している問題が殆ど。因みに Kondara 1.1 附属 の 4.72 の場合全く実用に問題ない。入力方法は kinput2 。

    日本語表示のしくみ

    自分のマシンに日本語を表示させるためには最低限 1 種類の日本語フォントを 持っている必要がある。フォントの中にも英数字のみのものもあるので、これらを 持っていても表示は不可能である。さらにこのフォントをお絵書きできる画面が 必要であり、ただのコンソールでは表示できない。よって、 X window システムを 上げその上に kterm などの日本語表示できる窓をあけるか、コンソール上にて kon など日本語表示できるアプリケーションを実行する。

    日本語入力のしくみ

  • Canna: Canna の日本語変換サーバは cannaserver であり、日本語表示 FEP は canuum である。「2つ合せて Canna である」。
  • Wnn: Wnn の日本語変換サーバは jserver であり、日本語表示 FEP は uum である。
  • kinput2
  • ああ、検索と Web な世界ってすばらしい。 Canna と Wnn の使用上の相違点はこちらを。

    Debian とロケール

    英語以外の言語について、一言語の情報を一まとめにしたものをロケールという。 日本の場合には先述の問題ゆえ複数のロケールが存在する。

    locale なものを探してみよう。

    # find / -name locale -print
    /usr/bin/locale
    /usr/share/locale
    /usr/share/groff/tmac/mm/locale
    /usr/X11R6/lib/X11/locale
    #
    

    参考文献:2000-'01 パソコン用語辞典、見てわかるパソコン解体新書 vol.3、 新・電子立国1および6巻

    kura3@dameningen.org