青空文庫工作員マニュアル
version 0.9
1997/12/2

目次
はじめに 著作権とはなんだろう
1    青空文庫が求めている作品
2    入力する作品を選ぶ
3    底本を選ぶ
4    入力に取りかかる
5    出てこない漢字の探し方
6    必要な漢字がない場合
7    文字校正をする
8    入力が終わったら



はじめに 著作権とはなんだろう              


 青空文庫では、いろいろな人が書き表したさまざまな作品を、コンピューターで扱えるファイルの形に整え、インターネットを通して読めるようにしようと考えています。

 それぞれの作品には、書いた人の考えや思いが込められているはずです。作者にとって、表現は自らの分身でしょう。
 そんな作品の一つ一つを、私たちは大切に扱っていきたいと思います。

 そもそも作品を収録したいという願いは、内容への共感と作者への尊敬が生むはずです。加えて私たちには、自分自身を大切に扱ってもらいたいという願いがある。その思いはひるがえって、人にもていねいに向き合おうとする姿勢を、手繰り寄せずにはおきません。
 青空文庫にかかわろうとする人は誰も、「大切に」と思う気持ちを共有できるはずです。

 では、具体的にどのような点に注意し、どのように振る舞えば、作品を大切に扱うことができるのでしょう。
 こう考えを進めていくとき、私たちは著作権という存在に向き合います。

 著作権とは、作品を生みだした人に認められている特別の権利です。その内容を理解し、作者の権利を侵さないよう努めることこそ、「作品を大切に扱う」ということの具体的な中味です。

 法律用語で規定されたなじみのない概念に踏み込むことには、ためらいが生じるかも知れません。けれど、作品の電子化と公開にかかわろうとするのなら、最低限の知識を身につけておくことはやはり必要です。

 正確に分かりやすく書くことを、心がけたいと思います。
 皆さんもどうぞ、ゆっくり内容を確認しながら読み進んで下さい。

【作品を生みだした人が持つ権利】

 あらためて書きましょう。
 著作権とは、作品を生みだした人(著作者)が持っている特別の権利です。
 大きく分ければ著作者は、〈使い方〉と〈内容〉に関する二つの権利を、著作権法という法律によって認められています。

【使い方に関する権利】

 一つ目の〈使い方〉に関する権利とは、「作品(著作物)を利用するか、しないか」、他人に「利用させるか、させないか」を決める資格を指しています。
 この資格を認められているのですから、著作者は自分の作品をどのように使うか、あるいは使わないか、自由に決められます。
 裏返して言えば、他人の著作物を誰かが勝手に使うことは、ごく一部の例外をのぞいて許されません。
 ただしこの権利は、他人に売り渡すことができます。権利が譲渡された場合、〈使い方〉を決める資格は、買い取った人に移ります。

 著作権法は、著作物の実際の〈使い方〉について、さまざまな例を上げています。
 その中で、青空文庫に直接かかわるものは、作品の複製を作ることと、ネットワークで作品を送信できるように、準備を整えることです。
 複製を作るか作らないか、ネットワークで送信できるようにするかしないか、また他人にそうさせるかさせないかは、著作者または著作者から権利を買い取った人だけが決められます。
 それ以外の人が無断でそうすることは、許されません。
 たとえ「素晴らしい作品をたくさんの人に読んでもらいたい」といった善意から発したとしても、無断利用は著作権法に違反します。

 では、先人たちはなぜ、利用の意思決定から他者を厳しく排除する、こうした取り決めをおこなったのでしょう。
 そこには、「書くという行為を一人立ちさせたい」という願いが込められていました。

 著作物を利用すれば、金銭的な見返りを得ることが可能です。
 言葉による作品であれば、本を作って売るといった場合です。
〈使い方〉に関する権利は譲渡できますから、その際には対価を受け取れます。自分の作品を他人に使わせる条件として、金銭の支払いを求めてもかまいません。
 つまり〈使い方〉を自分で決められるということは、作品を利用して儲ける機会を著作者に与えるのです。
〈使い方〉に関する権利が、法律用語で〈財産権〉と呼ばれるのはこのためです。

 自分の著作物を利用して儲ける権利を独占できることは、作者が生活を成り立たせる拠り所になります。
 もしこの権利が認められなければ、何にも縛られずに自由に書いたり、書くことに専念したりすることは難しくなるでしょう。
 結果的に、国家や特定の団体、有力な個人などに生活を支えられ、表現に支援者へのおもねりが混じる可能性が生まれます。
 そうした書き方を避け得たとしても、生活に追われれば書くことは後回しにせざるを得なくなり、結果的に文化の創造にはブレーキがかかるでしょう。
 書くという行為を自立的に成り立たせる上で、作品を利用して儲ける権利を著作者に独占させることは、とても大きな役割を果たしています。こうした権利を法律で保証することは、文化創造の歯車を回すエンジンに、燃料を与え続けると約束することに他なりません。

 作品を生み出す人が生きているあいだ、独占的に認められた儲ける権利は、作者の生活を支えます。
 では、作者が死んでしまった後、この権利はどう扱えばよいのでしょう。

 著作権法はこの問いに、「著作者の死後も50年間は権利を認める」という答えを出しています。
 著作者が死亡すると、権利はたいていの場合、相続によって家族が引き継ぎます。加えて著作権を買い取った者が、権利をそのまま保有し続ける場合もあります。
 つまり、相続または譲渡によって権利を引き継いだ者は、作者の死後も50年間、〈使い方〉を独占的に決められるのです。

 この「死後50年」という規定は、著作権に対する国際的な約束に基づいています。
 著作権は、一国内の約束事だけで保護しきれるものではありません。もしも外国では制限なしに利用できるのであれば、著作者が儲ける権利はやはり脅かされてしまいます。
 そこで世界の多くの国々は、ベルヌ条約や万国著作権条約といった国際的な約束を取り交わし、国境の外で権利保護が水漏れを起こすことを防いでいます。
 両条約では共に、著作権の保護期間は著作者の死後50年までと定められており、双方に加盟している日本の著作権法も、これにならっているのです。

 この規定を長すぎると考えるか、短すぎると考えるか、あるいは妥当であるとするかは、文化の創造と共有という二つの課題のあいだで、どうバランスを取るかという判断にかかわってきます。

 作品で儲ける権利を独占的に認められているとはいえ、書く人の大半は経済的にあまり恵まれないのが現実でしょう。物心両面で配偶者に支えられる書き手を、私たちはたくさん知っています。
 配偶者が権利を引き継げるようにしておくことには、たいていの場合、充分な理由があるはずです。
 また、保護の期間を長めに設定しておけば、譲渡する際に、権利の値段を高くできるかも知れません。

 けれどもう一方で、死んだ書き手は二度と作品を生み出さない、燃料を注ぎ込んだとしても、エンジンはもう回らないのも事実です。
 ならば、誰かが複製を作ったり、ネットワークで送信できるようにすることを阻んでも、文化の創造には寄与しない。むしろ制限は解除して、たくさんの人が、ただ、もしくは安い値段で作品を読めるようにした方がよいという考え方も成り立つでしょう。

 私たちは、たくさんの文化的な成果を無料で使っています。
 日本語にしろ英語にしろ、言葉はただで使えます。
 科学的な真理に基づいて新しい考えを組み立てたり、物事を分析したりする際も、知識を利用すること自体には、対価を求められません。
 真理を自由に分かち合い、たくさんの考えに触れ、自分と他人を引き比べて確かめられるよう体制を整えることは、これも大切な課題です。

 では、文化の創造と共有という二つの課題のあいだで、どこに着地点を求めるべきなのか。
 あなたはどうお考えになるでしょう。

 この一文をまとめるにあたって、青空文庫の呼びかけ人たちは互いの意見を寄せ合いました。
「50年は長すぎる」という点では一致を見ましたが、ならばどれくらいと詰めていくと、私たち自身にも合意点は見出せませんでした。「著作者が死去した時点で打ち切ればいい」という最短の提案から、「配偶者が死去するまで」、「著作者の死後25年程度」と、さまざまな認識が示されました。

 文化の共有が私たちをいかに元気づけるか、インターネットは恐ろしいほどの勢いと広がりを持って、実証しています。
 こうした新しい体験を経て、では創造と共有のあいだで、もう一度、いかにバランスを取るべきなのか。
 その答えもまた、私たちは皆さんと共に、青空文庫の活動を通して模索していきたいと思います。

【内容に関する権利】

〈使い方〉に関する権利に加えて、著作者はもう一つ「何をどのように書くか」をすべて、完全に自分で決められるという、〈内容〉に関する権利を認められています。
 青空文庫が取り扱う言葉の作品に即して言えば、作者以外の者には、原則としてたった一つの文字、たった一つの句読点であっても、変更したり削ったりすることは許されません。
 作者が付けたタイトルも、他人には勝手に変えられません。

 著作権法では、〈内容〉に関するこの権利を〈使い方〉に関するものと特に区別して、著作者人格権と呼んでいます。
 表現やタイトルを、自分の意志に反して誰かに勝手に変えさせない権利(同一性保持権)に加え、発表するかしないかを決める権利(公表権)、作者の名前を出すか出さないかを決める権利(氏名表示権)を、日本の法律は著作者人格権として認めています。

 財産権としての著作権は、作者の死後50年間保護されます。
 では、著作者人格権は、どうなのでしょう。ある期間を過ぎれば、作品を自由に書き換えたり削ったりできるようになるのでしょうか。
 そうではありません。
 著作者が死んで何年たとうが、内容に手を加えることはできないのです。
 著作権は売り渡すことができますが、著作者人格権は作者だけに帰属します。たとえ著作権を買い取った人でも、内容に変更を加えることは許されません。

 以上が、著作権法が著作者に認めている二種類の権利の大枠です。

 著作者の死後50年を過ぎるまでは、著作権の所有者の了解がない限り、ネットワークを介して作品を読めるようには仕立てられないこと。
 原則的に作者の了解なしには、作品の内容を一字一句書き換えられないこと。


 以上の二点を、固く胸に刻んで下さい。



1 青空文庫が求めている作品               


 青空文庫では、二種類の作品を電子化し、公開していきたいと考えています。

 一つ目は、著作者の死後50年を過ぎて、著作権の切れた作品です。
 参考資料1に、著作権の切れた作家の氏名を掲げます。

 青空文庫には二つ目に、著作権の所有者が公開に同意した作品を集めていきます。

 たとえ絶版になっていて手に入りにくいといった事情があったとしても、権利が存続していて、公開に対する著作権者の同意がえられていない作品は、収録できません。



2 入力する作品を選ぶ                  


 著作権の切れたものと、著作権所有者の同意の得られたものの中から、実際に入力する作品を選びます。
 どんな作品を共有の財産として残したいのか、自分に問いかけてみることが、作品選びの第一歩です。

【著作権の切れている作品】

 参考資料1を見て、どんな作家の著作権が切れているかを確認して下さい。
 私たちが存在を確認できた電子化済みテキストを、参考資料2に示します。入力したい作家と作品の候補が心に浮かんだら、誰かがすでに作業を済ませていないか、作業に取りかかっている人がいないかを、これで確かめてみましょう。

 翻訳された作品に関しては、原著作者の死後50年を過ぎていたとしても、翻訳者の著作権が生きているかもしれません。
 著作権法は、翻訳という作業を創作行為と位置づけ、それ自体に独立した著作権を認めています。
 翻訳者の権利も、同じく死後50年存続します。

 著作権が切れていて、電子化が手つかずであるのなら、入力候補としての条件は満たしています。
 候補が決まったら、まず青空文庫(aozora@voyager.co.jp)宛、ご連絡下さい。私たちももう一度、条件を満たしていることを確認し、あなたが作業に取りかかったことを、参考資料2に記載します。
 このリストにない、公開された電子化テキストの所在をご存じの方は、ご一報下さい。現在、独自に電子化を進めておられる方にも、「作業にかかっている」旨の、情報提供をお願いいたします。

 候補に上げた作品がすでに電子化されていた場合も、自分の目でテキストを確認してみましょう。

 作品に当たってみて、やはり「これで充分だ」と思えれば、あなたの作業候補からは外して下さい。ただし、「これでは満足できない」と思われる場合もあるはずです。

 もともとは旧漢字、旧かなづかいで書かれた作品が、新しい簡略化された漢字と新かなづかいにあらためられていた場合、あなたは「本来の作品の姿が忠実に反映されていない」と感じるかも知れません。そんなときは、旧漢字、旧かなづかいにもどす作業に取り組んでみたくなるでしょう。
 逆に旧かなづかいのテキストを前にして、「これではとても読めない」と感じることもあるはずです。そんなときは、新しい表記にあらためたくなるかも知れません。

 冒頭の「著作権とはなんだろう」のまとめで、「原則的に作者の了解なしには、著作物の内容を一字一句書き換えられない」と書きました。
 ただし、同一性の保持に関する著作権法の規定には、例外が示されています。旧漢字、旧かなづかいを、現在広く使われている常用漢字と現代かなづかいにあらためることは、数少ない例外の一つなのです。(この点について、詳しくは次の「3 底本を選ぶ」で説明します。)
 それゆえ、漢字とかなづかいをあらためることを目標に置いて入力する作品を選ぶことは、一つの考え方として成り立ちます。
 すでに入力されている作品がどちらをとっているかを確かめることは、その意味からも大切です。

 電子化された作品に当たってみると、信頼性に疑問が生じる場合もあるでしょう。作家と作品に関して詳しい知識を持っておられる方ほど、首をひねることが多くなるのではないかと思います。
 実際に入力を進めていくと、ミスは必ず紛れ込んできます。作者の書いたままが大原則であるとはいえ、判断を求められる場合が出てくるかも知れません。作業者が自覚するとしないとにかかわらず、作品に対する見識や考え方は、作業の中で問われてしまいます。
 では青空文庫は、作業者に資格を問うべきなのでしょうか。

 私たちは、そうは考えません。たとえ個々の作業者の力量に限界があっとしても、私たちにはバトンを受け渡していくことができるからです。
 まず誰かが地ならししたところを、より細かな目を備えた誰かが、後からきちんと整えていってはどうでしょう。すでに電子化されたテキストを取り上げ、方針を定めて校訂を加え、履歴を明示することも有効で大切な作業です。
「無償で公開されているテキストなど信頼するに足らない」と切って捨てるかわり、専門的な知識を身につけた方には、あなたの力を共有テキストの磨き上げに使って下さるようお願いいたします。
 青空文庫は、専門家の知恵を求めています。

【著作権の切れていない作品】

 作者が存命している場合、あるいは死亡していたとしても死後50年を過ぎていないあいだは、著作権が存続しています。
 権利が生きているとはつまり、これを支えに暮らす人が確実に存在するということです。

 そうした人たちに「作品を公開させて欲しい」と願い出ることには、彼らの生活を脅かす要素が否応なく紛れ込んでしまいます。

 みなさんの自発的な意志を頼んで作業を進めることは、青空文庫にとって健全なあり方でしょう。
 しかし著作権者への公開要請に関しては、これが裏目に出る危険を覚悟しなければなりません。
 一人一人はていねいに依頼し、断られた際の見切りも素早かったとしても、異なった人から要請が繰り返されれば、著作権者は強い不安を覚えるはずです。

 私たちには、権利の所有者を煩わせたり、精神的に脅かしたりする資格はありません。
 とすれば私たちは、著作権者への公開要請を、原則的に慎むべきだろうと考えます。

 権利所有者の自発的な公開申し入れがない限り、青空文庫は、著作権の存続する作品の電子化をおこないません。
 存命の作者には、青空文庫の狙いを伝えることまでを、働きかけの限度とします。作者との特別な信頼関係がない限り、公開の検討も申し入れません。
 著作権継承者に対しては、青空文庫を名乗っての連絡、公開要請など、一切の働きかけをおこないません。


 この原則を、どうぞ受け入れて下さい。
 青空文庫が唯一求める工作員としての資格は、上記の約束を受け入れて下さることです。



3 底本を選ぶ                      


 テキストを入力する際は、手書きの原稿、雑誌、本などをもとに作業することになります。多くの場合、拠り所になるのは本でしょう。こうしたもととなる本を、底本と呼びます。
 実際に入力にかかる前には、底本を選ぶ必要があります。

【旧漢字、旧かなづかいの書き換え】

 日本語の表記は、戦後、大きくあらためられました。
 それまでは複雑な形の漢字がたくさん使われてきましたが、新たに一部の漢字の字形を簡単なものに変え、使い方にも制限を加えて、わかりやすい表現が目指されたのです。かなの使い方も、それまでの旧かなづかいから、より実際の発音に近づけた現代かなづかいにあらためられました。
 以来、教育は新しい方針によって進められ、法令、公用文、新聞、雑誌などもこれに沿って書き表されてきました。その結果、旧漢字、旧かなづかいの文章は、私たちの多くにとって読みにくいものとなっています。

 繰り返し指摘したように、著作権法は作者の了解なしに表現をあらためてはならないと定めています。ところが日本語表記の改革によって生じた現実は、「読めなければ意味がない」という切実な要請を、この原則に突きつけたのです。

 著作権法には、この対立のあいだで私たちがバランスをとる道が用意されています。同一性保持権の条項には例外規定が設けられており、「やむを得ないと認められる改変」については許すとされているのです。
 読めるものにするために、漢字とかなづかいを最小限変えることは、著作権侵害にはあたりません。

 もしあなたが、あくまで原文に忠実であることを優先したいと考えるのなら、底本には旧漢字、旧かなづかいを採用したものを選んで下さい。戦前に刊行された本のほか、全集としてまとめられたものでは、もともとの表記がそのまま残される例が多いようです。

 もしもあなたが、多くの人にたやすく読んでもらうことを優先したいのなら、常用漢字と現代かなづかいを用いたものを、底本としましょう。古典をたくさんの人に読んでもらうことを狙った文庫本の多くは、分かりやすさを目指して表記をあらためています。読みやすさを優先したい人にとって、文庫本は有力な底本の候補です。

【出版社の許諾は必要か】

 旧漢字、旧かなづかいによる原文を、新しい表記にあらためたものを底本とする場合、その本の通りに入力していくことは、果たして許されるのでしょうか。
 青空文庫の呼びかけ人は、「許される」と考えています。
 すでに私たち自身、表記をあらためたものを底本としたことがありますが、その際も、出版社に連絡したり許可を取るといったことはしていません。

 原文にあくまで沿いながら最小限の書きあらためをおこなうことには、確かにその作業にたずさわる人の判断がかかわってきます。書き換えは、編集の力量や見識を問われる知的な作業であり、「何を底本とした」と銘記することで、その成果には敬意をはらうべきです。ただし著作権法は、この程度の表記の変更に著作権を認めてはいません。

 日本の著作権法は、保護の対象となる著作物を冒頭で次のように定義しています。

「著作物 思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するものをいう。」(第一章 総則、第一節 通則、第二条 定義、一)

 保護されるのはあくまで作者の創作的な表現であり、誰かが書いたものの表記をあらためることは、この定義に当てはまりません。

 著作権法は第二章、第一節で、著作物にあたるものをより細かく示しています。第一二条には、著作物の範囲を広めに規定した、編集著作物に関する次のような定めがあります。

「編集物(データベースに該当するものを除く。以下同じ。)でその素材の選択又は配列によって創作性を有するものは、著作物として保護する。」

 この規定によって、論文集やアンソロジー、歳時記の構成といったものは、著作物として保護されていると考えるべきでしょう。
 こうしたものに関しては、たとえ収録されている個々の作品の著作権がすべて切れていたとしても、編集に当たった人の死後50年を経ないうちは、構成をなぞることは許されません。
 ただし、表記の改変が、ここでいう「素材の選択又は配列によって創作性を有するもの」に当たらないことは明らかです。



4 入力に取りかかる                   


【使用するワープロ】
 ワープロ、テキストエディタは何を使っても結構です。コンピュータのテキストエディタ(Windows付属のWordpadやMacintosh付属のSimple
Textなど)、ワープロ(「Word」や「一太郎」など)でもいいですし、「Oasis」や「書院」という専用のワープロでもかまいません。

【OCR】
 本(または、それをコピーした紙)をそのままスキャナーで読み込み、テキストに変換する技術をOCRと言います。現在さまざまなソフトが発売されています。それを使えば、一字、一字、手で入力していくよりは手間が省けますが、コンピュータの他にスキャナーとOCRのソフトが必要になります。また、読みとる原稿の精度(紙と文字の明暗がはっきりしていた方が良い)により、かえって手間取ってしまう場合もあります。

【保存形式】
 気を付けていただきたいことは、ファイルを保存する時、一番シンプルなテキスト(TEXT)形式で保存していただくということです。どんなワープロ、テキストエディタでも、ファイルを保存するとき、保存形式を選ぶことができます。その中でテキスト(TEXT)形式を選んでいただきたいのです。(図参照)


    上の図はWindows95付属のWordpadの場合

 保存するときのファイル名は、半角英数字の小文字で「***.txt」としてください。「***」の部分は、英数字で27文字までです。

【テキスト入力】
 テキスト入力は、以下に述べる取り決めに従って、原文に忠実に打ち込んでください。文頭には、作品名および作者名を記入してください。

【レイアウト】
 レイアウトに関しては、底本に忠実である必要はありません。文字の大きさを変えたり、フォントを変えたり、という作業は必要ありません。単純に文字入力だけをしてください。そして、インデントやTABなども使わず、スペースとリターンのみで体裁を整えてください。

【入力者注】
 入力者がテキストに注を入れたい場合は、その注を入れたい文字のすぐ後ろに[](区点コード 0146と0147、JISコード 214Eと214F、シフトJISコード 816Dと816E*)を付けて、その中に*を先頭に注を書いてください。

(例)天界の牧羊者[*「天界の牧羊者」のすべての文字に傍点]

 コンピュータの日本語変換ソフトから、区点コード、JISコード、シフトJISコードを使って漢字を入力する方法は、次の章の「5 出てこない漢字の探し方」を参照してください。

 「水」を表す元素記号H2Oや、数学で使われる「2の2乗」を表す22などは、以下のように書いてください。

(例)H2[*下付き小文字]O
   22[*上付き小文字]


 本文中に[]の文字が使われている場合には、文頭に入力者注を置き、そこで記号変更をしてください。

(例)[*入力者注を表す[]は本文中に使われているので【】に変更]

【誤植・誤記・脱字】
 明らかに誤植、誤記、脱字だと判断できる文字は、その誤っていると思われる文字の後に入力者注を入れてください。迷う場合には、原文通りに入力してください。

【ルビ】
 ルビについてですが、熟語単位で、その単語の後に《》(区点コード 0152と0153、JISコード 2154と2155、シフトJISコード 8173と8174*)を付けて、その中に書いてください。

(例)闇《やみ》の中を跳梁《ちょうりょう》するリル

 本文中に《》の文字が使われている場合は、入力者注で断ってから記号を変えてください。

(例)闇[*ルビを表す記号《》は本文中で使われているので【】に変更]【やみ】の中を跳梁【ちょうりょう】するリル

 ルビの付いていない漢字にルビの付く漢字が続く場合には、その境に\(区点コード 8529、JISコード 753D、シフトJISコード EB5C*)を入力してください。

(例)表情\豊《ゆた》かな

【アルファベット】
 1文字の場合は全角、2文字以上の場合は半角を基本としてください。ただ、JRやNASAなどの略語のように、縦書きで表示されてもおかしくない場合はすべて全角で入力してください。

【数字】
 数字の場合も1文字の場合は全角、2文字以上の場合は半角を基本としてください。漢数字(例・一九九七年)の場合は、原文に忠実に漢数字で打ち込んでください。

【単位】
 cmやccなどの単位は、使用するフォントによっては、全角の記号として用意されている場合があります。しかし、その記号文字は使わず、単純に半角英数字で入力してください。

【記号】
 「(」、「)」、「,」、「.」、「・」などはすべて全角で入力していください。

【ハイフン】
 数字を繋ぐハイフンは全角のマイナス「−」(区点コード 0161、JISコード 215D、シフトJISコード 817C*)を使用してください。

【ダッシュ】
 文中によく登場する「――」は全角のダッシュ「―」(区点コード 0129、JISコード 213D、シフトJISコード 815C*)を使用してください。

【点線】
 3点リーダー「…」(区点コード 0136、JISコード 2144、シフトJISコード 8163*)と2点リーダー「‥」(区点コード 0137、JISコード 2145、シフトJISコード 8164*)は区別して入力してください。

【その他、絵や図表の場合】
 本によっては、絵や図表がある場合があります。その場合は、別途ご相談ください。



*区点コード、JISコード、シフトJISコードとは?

 JISコード、区点コード、シフトJISコードはいずれも、JIS X 0208という工業規格に定められた、実質においては同じ文字コードです。
 大本となるのは、JISコードと理解して下さい。
 JISコードはそれぞれの文字に割り振った0、1の並び(ビット組み合わせ)を、16進数で表しています。
 これを、一般になじみの深い、10進数に置き換えたのが、区点コードです。
 シフトJISコードは、コンピューターの内部処理に都合がいいように、あるソフトハウスがJISコードに割り振られている番号をずらして作ったものです。もともと工業規格のお墨付きを得た物ではありませんでしたが、パーソナルコンピューターで広く使われて実質的な標準となりました。1997年の改訂で、シフトJISもJIS X 0208の一部として組み込まれました。

 以下、参考のためにそれぞれの用語を事典的に整理しておきます。

【JISコード】厳密には、漢字、仮名文字、ラテン文字(アルファベット)、数字、各種の記号などをビット組み合わせに対応させた、JIS(日本工業規格)に定められた文字コードの総称。
ただし、複数ある規格の中で、通常は6879文字(内、漢字6355文字)を規定した、JIS X 0208(正式名称「7ビット及び8ビットの2バイト情報交換用符合化漢字集合」)を指して「JISコード」と呼ぶことが多い。
JIS X 0208は、1978年に定められ(当時の名称は、JIS C 6226)、三度の改訂を経て、現在は第四次規格(1997年版)が運用されている。
JISコードに収録された文字は、第一水準、第二水準に分けられており、制定当初は、第一水準のみを実装したパーソナルコンピューターやプリンターも製品化されていた。しかし、JIS X 0208は収録されたすべての文字を実装することを求めており、第一水準、第二水準の区分けは実質的には意味を持っていない。

【区点コード】いわゆるJISコード(JIS X 0208)が文字に対応するビット組み合わせの表記に16進数を使っているのに対し、これを10進数で表したもの。ある文字に対応するビット組み合わせを、16進数で表したものをJISコード、10進数で表したもの区点コードと呼ぶことが多い。
ちなみに「青」という漢字は、JISコードでは「C0C4」、区点コードでは「4044」と表される。

【シフトJISコード】パーソナルコンピューターで、広く用いられている文字コード。JISコード(JIS X 0208)をもとに、1982年にアスキーマイクロソフト社によって、当初は私的な規格として定められた。
文字の並んでいる順番はJISコードと同じであるが、コンピューター内部での取り扱いを簡単にするために、割り振っているビット組み合わせをずらしている。MS-DOSの日本語化にも用いられて広く普及し、Macintoshでもこれが採用された。
事実上の標準となってからも、シフトJISは工業規格として定められないまま運用されてきたが、1997年の第四次規格に取り入れられ、JIS X 0208の一部となった。
ちなみに「青」は、シフトJISコードでは「90C2」と表される。



5 出てこない漢字の探し方                


 テキストを入力していて、必ず悩む問題があります。それは目的の漢字が、日本語変換ソフト(フロント・エンド・プロセッサーとも呼びます。Windowsでは標準の「MSIME」やジャストシステムの「ATOK」、Macintoshでは標準の「ことえり」や、やはりジャストシステムの「ATOK」が代表的です。今後FEPと表記します。)の候補に出てこないことです。例えば、MacintoshのFEP「ATOK8」を使って「聚楽」を入力したいとします。「じゅらく」とひらがなで入力して変換すると、候補は「入洛」しか出てきません。これはコンピュータが「聚楽」という文字を表示できないのではなく、FEPの辞書に「聚楽」が登録されていないだけなのです。
 では、その候補にない漢字をどうやって入力するかですが、WindowsでMSIMEを使われている場合には、日本語入力のツールバーの左から2番目の虫眼鏡(図参照)を選んで下さい。「総画数」と「部首」で目的の文字を探すことができます。



 Macintoshのことえりを使われている場合は、全角入力モードの時、メニューバーの右から3番目に出る鉛筆のアイコンを選んで、その中にある「文字パレット表示」を選んでください(図参照)。部首引きで目的の漢字をさがすことができます。他のFEPの場合も似たような方法で目的の漢字をさがすことができます。くわしくはそのFEPの説明書をお読みください。



 また、パソコン、ワープロ用の漢字辞典がいろいろな出版社から発売されています。これは普通の国語辞典、漢和辞典の要領で目的の漢字を探すことができ、と同時にその漢字のコンピュータ用のコード(区点、JIS、シフトJIS)を調べることができます。

【区点、JIS、シフトJISコードを使って漢字を入力する方法】
 パソコン、ワープロ用の漢字辞典で、目的の漢字のJISコード、またはシフトJISコードがわかったとします。それではその漢字をFEPからどのように入力するのか、それを以下に記述します。

●Windows標準のMSIMEの場合

1.日本語入力をオンにして、入力モードを「全角英数」か「半角英数」にします。



2.そして、目的の漢字のJISコード、またはシフトJISコードを入力します。



3.キーボードからF5キーまたはCtrl+Yキーを打ちます。そうすると、目的の漢字が現れます




●ジャストシステムATOK(Windows版)の場合

1.日本語入力をオンにすると下の図のようなパレットが出ます。




2.キーボードのF10キーを打つと半角モードになり、もう一度打つと下の図のようにシフトJISコードの入力モードになります。



3.目的の漢字のシフトJISコードを入力します。

●Macintosh付属のことえり、及びジャストシステムのATOK(Macintosh版)の場合

 先程と同じく、全角入力モード時、メニューバーの右から3番目に出る鉛筆のアイコンを選んで、その中にある「文字パレット表示」を選んでください。その中に、区点コード、JISコード、シフトJISコードから文字を入力できるコーナーがあります。





6 必要な漢字がない場合                 


 テキストの入力過程で、どうしても該当する漢字がない場合があります。または、似ているが、一部分だけ微妙に違う場合もあります。これはコンピュータに登録されていない漢字(第一水準、第二水準にはない漢字)であるか、旧字、異体字の漢字ということになります。

【例1】
芥川龍之介の『蜘蛛の糸』にでてくる主人公の名前は、



ですが、この「かん」にあたる漢字は、第一水準、第二水準にはない漢字です。ですから、普通のフォントではコンピュータ上に表示させることができません。この場合は入力者注で、先頭に#をつけて、その説明の記述をしてください。そして、その後に底本の何ページの何行目にあるかを記述してください。

 するとその地獄の底に、[#「うしへん」に建、16-2]陀多《かんだた》と云う男が、ほかの罪人と一しょに蠢《うごめ》いている姿が、

【例2】

と記述したい場合、コンピュータのフォントでは、「おう」の字が「鴎」になってしまいます。その場合は以下のように、入力者注でできる限りわかるように記述してください。

 森鴎[#「メ」の代わりに「品」、115-7]外

 コンピュータ上に表示できない漢字を表現するのは、なかなか難しい作業です。どうしても表現が難しい場合は、底本の何ページの何行目にあるかだけでも記述してください。



7 文字校正をする                    


 テキストを入力するとき、どんなに細心の注意をはらっているつもりでも、間違いは必ずあるものです。それを少しでも少なくするために、入力が底本どおり正しく行われているかどうかチェックします。この作業を「文字校正」といいます。

 文字の誤りの多い本は読者の信頼を得ることができません。それだけでなく、青空文庫のように、底本を選んで、ある作品をテキスト化する作業では、もとの作品に忠実に、できるだけ誤りのないことが大きな意味を持ちます。

 文字校正になによりも必要なのは、まず、間違いは必ずあると認識すること。そしてそれを見つけて正そうという強い意志です。
 入力したテキストの始めから終りまで、文字に誤りはないか、改行や句読点の位置は正しいか、底本と照らし合わせて確かめてください。単純な打ち間違いはもちろん、変換のミスにもじゅうぶん注意してください。意外に多いのは、入力する側、つまりあなたのちょっとした読み違いをそのまま打ち込んでしまったという間違いです。たとえば、「ゆっくりと話した」を「ゆっくり話した」、「二」を「三」とつい読んで、打ち込んでしまったというように。

【校正の工作員募集】

 印刷の本では、入力と校正は別の人間がおこないます。「入力」は印刷所の仕事であり、「校正」は出版社(編集者)の仕事です。文字校正はチェック作業ですから、ほんとうは入力者とは別の人がおこなうのが望ましいのです。

 そこで、青青空文庫では校正専門の工作員になってくださる方を募ります。経験のある方はもちろん、経験がなくても校正という作業に関心がある方はaozora@voyager.co.jpまでご連絡ください。

 OCRを使ってテキスト化されたものも増えている今、校正にもデジタルに対応した技術が必要になってきています。はじめて直面する問題も出てくるでしょう。間違いやすい似た文字からして、人間とコンピュータとではまったく違います。それらをきちんと記録しながら続けていけば、やがてデジタルテキストのための校正マニュアルとしてまとめることができるのではないかと考えています。



8 入力が終わったら                   


 すべてのテキストを入力し終えたら、「4 入力に取りかかる」で述べたように、テキスト形式で保存してください。それから圧縮をしてください。圧縮方法は、LHA、ZIP、SIT、何でも結構です。圧縮の方法がわからない場合は、こちらに問い合わせてください。
 そしてその圧縮したファイルをメールに添付して、aozora@voyager.co.jpに送付してください。その際メールに、入力した作品名、著者名、底本名(出版社、初版発行年、何年に出た何版を参照してテキストを入力したか)、そして入力者名を記入してください。また、Windowsで入力したか、Macintoshで入力したかも合わせて記入してください。

*底本名ですが、比較的新しく出版された本の場合、その本のさらに底本というものがあります。一般的に本の最後に記述されている場合が多いようです。それがわかる場合には、それも記入してください。



トップページへ