北海道植物友の会/ボタニカ10号/北海道植物データ処理システムの開発について（その２）

北海道植物データ処理システムの開発について（その２）

日野間　彰

（前報* より続く）

4)植物分類データファイルのフォーマットの検討

　植物名については和名をカタカナでそのままデータ化する方法も考えられるが、現実的にはカタカナ（あるいはひらがな）での入力は非常に繁雑であり、それに要するバイト数も大きいため非現実的である。植物目録の作成等の利用を勘案して、植物名に対しては植物分類学上の分類体系に基づくコード化が妥当と判断し、これを植物番号と呼ぶこととした。
　植物分類データファイルの第一の役割は、植物番号と和名あるいは学名との対応をあきらかにすることであり、植物分類データファイルによって、数字でデータ化されている植物名を和名や学名に置き換えられるようにする必要がある。
　植物分類データファイルの第二の役割は、例えばオオヨモギとエゾヨモギあるいはオオブキとアキタブキのように同一の分類単位に対して複数の和名（あるいは学名）が使用されている場合に、同じ分類単位であることを予め整理するためのデータファイルとしての役割である。群落組成表や植物目録の作成などの際に、同一の植物を正しく判定する必要性があるため、ひとつの分類単位に対して一組の代表する和名（正和名）と学名（正学名）を設定し、それ以外の和名・学名（異和名・異学名）については、植物分類データファイルを使用して正和名・正学名に変換できるシステムが妥当であると判断した。この変換プロセスを植物名の標準化と呼ぶこととする。
　以上のほか、データ処理上の利便性を考慮して、分類上の位置に関するデータ、分布に関するデータ、出現頻度に関するデータ、形態に関するデータ、貴重性に関するデータを植物分類データファイルのアイテムとして採用した。
　以上の検討の結果、11種類のアイテムを登録すべき情報とし、各アイテムについてデータ形式を検討・決定し、カテゴリーの数を勘案して必要バイト数を決めた。選定・決定した各アイテムの内容は次のとおりである。

ａ．植物番号

　植物名を識別するためのコードである。フィルドデータファイルにおける出現植物名と同じく、データ形式は数値（実数）型、バイト数は６とする。

ｂ．正名・異名の区分

　当該の植物番号に対応する和名および学名が正名であるか異名であるかを示すコードである。下表の区分に従いコード化する。データ形式は数値（実数）型、バイト数は１とする。　　　　　　　　　　　　　　　　　　　　　

コード
区分

１
採用する正和名・正学名

２
採用しない正和名・正学名

５
正和名・異学名

６
異和名・正学名

７
異和名・異学名

ｃ．正名の植物番号

　正名・異名の区分のコードが２、５、６、７の場合に、植物名の標準化の際に変換先となる正和名・正学名の植物番号である。データ形式は数値（実数）型、バイト数は６とする。

ｄ．自生分布範囲あるいは帰化・栽培・植栽等の区分

　当該の植物に関する既知の分布情報をコード化したものである。下表の区分に従いコード化する。データ形式は数値（実数）型、バイト数は１とする。

コード
区分

１
国内～国外に分布

２
日本特産

３
北海道特産

５
北海道移入種

６
帰化植物

７
栽培植物

８
植栽種

９
園芸種

ｅ．科番号

　当該の植物が所属する科を識別するためのコードである。データ形式は数値（実数）型、バイト数は３とする。

ｆ．属番号

　当該の植物が所属する属を識別するためのコードである。データ形式は数値（実数）型、バイト数は３とする。

ｇ．出現頻度の区分

　当該の植物のフィールドデータファイルにおける出現頻度を大まかにランクづけしたコードである。フィールドデータをコーディングする時に使用する「和名索引」の編集の際に利用する情報である。下表の区分に従いコード化する。データ形式は数値（実数）型、バイト数は１とする。

コード
区分

１
非常に多い

３
普通

５
やや少い

６
まれ

７
ごくまれ

ｈ．形態の区分

　当該の植物の形態を識別するためのコードである。下表の区分に従いコード化する。データ形式は数値（実数）型、バイト数は１とする。

コード
区分

１
地衣・コケ

２
草本

３
つる状草本

５
ササ

６
落葉木本

７
つる状落葉木本

８
常緑木本

９
つる状常緑木本

ｉ．和名

　当該の植物の和名を示す。データ形式は文字型、バイト数は20とする。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

ｊ．学名

　当該の植物の和名を示す。データ形式は文字型、バイト数は60とする。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

ｋ．貴重性

　当該の植物の貴重性について、既存の資料からまとめた情報である。当面は、環境庁(1986)における貴重植物と、我が国における保護上重要な植物種及び群落に関する研究委員会(1989)にとりあげられている絶滅種等に関して下表の区分に従いコード化する。データ形式は数値（実数）型、バイト数は３とする。

コード

区分

１

「自然環境保全基礎調査報告書」における貴重植物

４０

「我が国における保護上重要な植物種の現状」における絶滅種

５０

「我が国における保護上重要な植物種の現状」における絶滅危惧種

６０

「我が国における保護上重要な植物種の現状」における危急種

７０

「我が国における保護上重要な植物種の現状」における現状不明種

８００

（北海道における分布がやや疑わしい植物）

９００

（北海道における分布がかなり疑わしい植物）

　以上のアイテムの内容をもとに、図３に示す植物分類データファイルのフォーマット（入力用）を設計した。

分類・和名デ－タファイル
　
■学名デ－タファイル

図３　植物分類データファイルのフォーマット（入力用）

5)文献データファイルのフォーマットの検討

　文献データファイルに登録すべきアイテムとしては調査年および文献番号のほか文献名、資料名、著者名（調査者名）、発行年月日、発行者名がある。これらのうち識別コードに含まれる調査年代と文献番号を除くアイテムはいずれも文字型のデータ形式での登録が妥当と判断されることから、文字型のデータ全体を一括して文献内容という１アイテムにまとめることとした。したがって文献データファイルのアイテム数は３となる。各アイテムの内容は次のとおりである。

ａ．調査年

　調査年は文献・資料を識別するために必要な識別コードの一部である。フィルドデータファイルにおける調査年と同じ基準により、データ形式は数値（実数）型、バイト数は４とする。

ｂ．文献番号

　文献番号もまた文献・資料を識別するために必要な識別コードの一部である。フィルドデータファイルにおける文献番号と同じ基準により、データ形式は数値（実数）型、バイト数は３とする。

ｃ．文献内容

　文献内容についてはすべてコメント欄として取扱う。ただし一応の目安として文献名記入欄、図書名・発行所名および発行年月日の記入欄、著者名の記入欄の３つの記入欄を想定し、それぞれに65バイトづつを用意した。データ形式は文字型、バイト数は 195となる。
　以上のアイテムの内容をもとに、図４に示す文献データファイルのフォーマット（入力用）を設計した。

図４　文献データファイルのフォーマット（入力用）

6)処理条件設定データファイルのフォーマットの検討

　処理条件設定データファイルに登録すべきアイテムの内容は、どのようなデータ処理を行おうとするのかを決めた後に検討すべきものであることから、データ処理システムの作成の項で検討される。ここでは検討の結果登録すべきと判断されたアイテムの名称のみを以下に掲げる。

略記号

ａ．
ｂ．
ｃ．
ｄ．
ｅ．
ｆ．
ｇ．
ｈ．
ｉ．
ｊ．
ｋ．
ｌ．
ｍ．

計算処理項目の指定
フィルドデータの並びの指定
植物名の標準化の方法の指定
識別コードによる検索条件の指定
出力する帳票の指定
類似度計算の対象層の指定
標題の指定
群落の区分種の指定
標題部の出力内容の指定
分布図作成植物の指定
植物目録作成対象地図番号の指定
植物目録の出力形式の指定
計算処理対象年代の指定

JST
JSU
JSV
MYR,MRF,MST
KKZ,KKU,KKY,KKS,KKL
KT1,KT2,KSS,KH1,KH2,KHL,KMM
SHY,SJH,SLH
GK,JG
LYR,LRF,LOC,LPA
NPL
MPN
MPM
MYMIN,MYMAX

（３）コード化の基準の作成

　データをデータファイルとして入力するためには、まず資料となるデータを一定の基準によっていくつかの形式に分類し、形式ごとに入力方法の基準を明確にしておくとともに、あらかじめ各アイテム中のコードの意味するところを整理して各形式のデータに対応したコード化の基準を作成しておく必要がある。
　コード化すべきアイテムのうち、文献番号、調査番号、調査方法、植物名の表示方法の区分、発表の形態の区分、所属階層のそれぞれについてはすでに行ったフィルドデータファイルのフォーマットの検討の過程で実質的にコード化が終わっている。したがってここでは調査地点位置と植物名に対するコード化の基準について検討する。

1)調査地点位置のコード化の基準

　調査地点位置を示すコード（以下地図番号という）はすでに述べたように、当該する調査スタンドの調査地点の所属する国土地理院発行1:25,000地形図を示す４桁の数字であり、地形図１枚の範囲は概ね10km×10kmである。ＥＣＰＬＡＮＴにおいて1:25,000の１地形図をメッシュの単位とした理由は以下のとおりである。
　メッシュを利用した植物分布のマッピングについては金井(1972)によって詳しく研究されている。金井(1972)はメッシュシステムの数値的命名法として、1:50,000地形図の16分の１までを表現できるようにされたLocality Indexを提案している。その後金井(1983)は、Locality Indexの大きさが県単位の分布図に用いるには粗い場合があるとして、経緯度を分の単位で表示する座標系を用いて茨城県と富山県におけるいくつかの植物の分布図の作成を試みている。Locality Indexを用いて長野県における植物分布図の作成を行った金井(1988)の例によると、県全体のメッシュ数は 574個となっている。これらの例をみると、特定の地域における植物の分布状況を把握するには一つの図面に 1,000個前後のメッシュがあれば一応足りると判断され、北海道においてその数に対応するメッシュの大きさはちょうど1:25,000地形図となる。また、ＥＣＰＬＡＮＴでは植物群落組成調査票を基準としてデータファイルが設計さている。図６に示されるとおり植物群落組成調査票では一般に1:50,000地形図を上下左右に分けて調査地点の位置を表現するようになっており、これがちょうど1:25,000地形図の図幅に対応する大きさのメッシュとなっている。過去の多くの資料をできるだけ同じ基準でデータ化しようと考えた場合、植物群落組成調査票の位置表示をそのまま利用できることは1:25,000地形図をメッシュとすることの大きな利点である。実際、北海道における植物の分布図の報告では1:25,000地形図をメッシュとしている例が多い（伊藤・春木(1985)，伊藤(1986)など）ことも、以上の見方を裏付けいるものと考えられる。
　北海道全域を網羅するためには全部で約 950枚の1:25,000地形図が必要であり３桁の数字でもコード化は可能であるが、地形図の位置を示すコードを一定の法則に則って設定すべきとの判断から、地図番号として、北緯を表す２桁の数字と東経を表す２桁の数字を組み合わせた４桁のコードを用いることとした。なお、1:25,000地形図は国土数値情報等で用いられている「標準地域メッシュシステム」における第二次地域区画に該当しそれぞれの二次地域区画に対して６桁のメッシュコードが与えられているが、北海道という限られた範囲について対象とする本システムの場合には全国レベルに合わせたメッシュシステムに合わせる必要性が少ないこと、またコードの桁数が多いほどデータの間違いを引き起こす可能性が高くなることを考え合わせて次のとおり独自の４桁のコードを用いることとした。

　“地図番号”＝“北緯を表す数字”＋“東経を表す数字”
　　（４桁）　　　　（２桁）　　　　　　（２桁）
　　　　＊“北緯を表す数字”　＝　１２×（Ｎ－４０）＋ｎ／５
　　　　　　　　　　ただし、当該の地形図の下隅の北緯をＮ°ｎ′とした場合。
　　　　＊“東経を表す数字”　＝　８×（Ｅ－１３８）＋ｅ／７．５
　　　　　　　　　　ただし、当該の地形図の左隅の東経をＥ°ｅ′とした場合。

　地図番号の例は図５のとおりである。また、調査スタンドの位置が地形図上で確定できない場合（例えば市町村名で示されている場合など）の地図番号として表４に示す例のような市町村コードと支庁・離島・山系コードを設定した。

図５　地図番号一覧（部分）

表４　市町村コードおよび支庁・離島・山系コード（部分）

コード
市町村
コード
支庁
離島
山系

８００１
８００２
８００３
８００４
８００５
８００６
８００７
８００８
８００９
８０１０
８０１０
８０１１
８０１２
８０１３
８０１４
８０１５
８０１６

松前町
福島町
知内町
木古内町
上磯町
大野町
七飯町
函館市
戸井町
恵山町
（尻岸内町）
椴法華村
南茅部町
鹿部町
砂原町
森町
八雲町

８０００
８０４１
８０４２
８０４６

渡島

大島
小島

千軒山系

８０５０
８０９１
８０４６
８０９７

檜山

奥尻島

遊楽部山系
狩場山系

８１００
８１４６

胆振

樽前山系

８１５０
８１９６

日高

日高山系

８２００
８２４６

後志

余市山系

８２５０

石狩

８３００
８３４６

空知

夕張山系

　

2)植物名のコード化の基準

　植物名のコード化は本データベース作りの中で最も労力を要した作業のひとつであり、結果　　的に北海道に生育が報告されている高等植物のリストを作成することとなった。
　北海道内に自生するといわれる高等植物（シダ植物および顕花植物）の種類数は約 1,800～2,000といわれており、数の上ではコードとして４桁の数字があれば足りることとなるが、実際にはひとつの植物種に対して数多くの異名（異和名および異学名）があり、これらを原典にできるだけ忠実にデータ化するためにはさらに２桁の数字が必要とされた。さらに、植物分類学上の分類体系自身時代や研究者によってかなり異なるという問題や新産種への対応という問題があり、それらに対してできるだけフレキシブルに対応できるコード体系を作り上げるため、植物分類データファイルの中に正異名の判定や所属する科や属の判定などに必要なデータを含めることとした。

　植物番号についての詳しい解説は「北海道高等植物目録」に記載されているが、その概要は植物番号は４桁の種番号と２桁の枝番号からなる。
種番号は原則として種、亜種および変種を区別するものである。
枝番号は異名・品種・植栽種・栽培種等を区別するものである。
種番号2000～2999はシダ植物、3000～3999は裸子植物、4000～5999は単子葉類、6000～7999は離弁花類、8000～9998は合弁花類にあてられている。

（４）コーディング

　フィルドデータのコーディングは図２（前報参照）に示したＥＣＰＬＡＮＴフィルドデータ用コーディングシートに記入して行う。コーディングをスムーズに行うため、「ＥＣＰＬＡＮＴコーディングマニュアル」と「ＥＣＰＬＡＮＴ和名索引」を作成した。
　植物群落組成調査票とそのコーディングの例を図６に示す。

（５）データ入力

　コーディングされた情報をファイルとして入力・保存し、フィルドデータファイルとした。
　図６のコーディングシートの入力例を図７に示す。

図６　植物群落組成調査票とコ－ディング例

図７　フィルドデータの入力例

（次報へ続く）

* 北海道植物データ処理システムの開発について（その1)、菩多尼訶9:22-28(1993.4)

ボタニカ10号

北海道植物友の会

コード	区分
１	採用する正和名・正学名
２	採用しない正和名・正学名
５	正和名・異学名
６	異和名・正学名
７	異和名・異学名

コード	区分
１	国内～国外に分布
２	日本特産
３	北海道特産
５	北海道移入種
６	帰化植物
７	栽培植物
８	植栽種
９	園芸種

コード	区分
１	非常に多い
３	普通
５	やや少い
６	まれ
７	ごくまれ

コード	区分
１	地衣・コケ
２	草本
３	つる状草本
５	ササ
６	落葉木本
７	つる状落葉木本
８	常緑木本
９	つる状常緑木本

コード	区分
１	「自然環境保全基礎調査報告書」における貴重植物
４０	「我が国における保護上重要な植物種の現状」における絶滅種
５０	「我が国における保護上重要な植物種の現状」における絶滅危惧種
６０	「我が国における保護上重要な植物種の現状」における危急種
７０	「我が国における保護上重要な植物種の現状」における現状不明種
８００	（北海道における分布がやや疑わしい植物）
９００	（北海道における分布がかなり疑わしい植物）

		略記号
ａ．ｂ．ｃ．ｄ．ｅ．ｆ．ｇ．ｈ．ｉ．ｊ．ｋ．ｌ．ｍ．	計算処理項目の指定フィルドデータの並びの指定植物名の標準化の方法の指定識別コードによる検索条件の指定出力する帳票の指定類似度計算の対象層の指定標題の指定群落の区分種の指定標題部の出力内容の指定分布図作成植物の指定植物目録作成対象地図番号の指定植物目録の出力形式の指定計算処理対象年代の指定	JST JSU JSV MYR,MRF,MST KKZ,KKU,KKY,KKS,KKL KT1,KT2,KSS,KH1,KH2,KHL,KMM SHY,SJH,SLH GK,JG LYR,LRF,LOC,LPA NPL MPN MPM MYMIN,MYMAX

コード	市町村	コード	支庁	離島	山系
８００１８００２８００３８００４８００５８００６８００７８００８８００９８０１０８０１０８０１１８０１２８０１３８０１４８０１５８０１６	松前町福島町知内町木古内町上磯町大野町七飯町函館市戸井町恵山町（尻岸内町）椴法華村南茅部町鹿部町砂原町森町八雲町	８０００８０４１８０４２８０４６	渡島	大島小島	千軒山系
		８０５０８０９１８０４６８０９７	檜山	奥尻島	遊楽部山系狩場山系
		８１００８１４６	胆振		樽前山系
		８１５０８１９６	日高		日高山系
		８２００８２４６	後志		余市山系
		８２５０	石狩
		８３００８３４６	空知		夕張山系