北海道植物データ処理システムの開発について(その2)

日野間 彰

(前報* より続く)

4)植物分類データファイルのフォーマットの検討

 植物名については和名をカタカナでそのままデータ化する方法も考えられるが、現実的にはカタカナ(あるいはひらがな)での入力は非常に繁雑であり、それに要するバイト数も大きいため非現実的である。植物目録の作成等の利用を勘案して、植物名に対しては植物分類学上の分類体系に基づくコード化が妥当と判断し、これを植物番号と呼ぶこととした。
 植物分類データファイルの第一の役割は、植物番号と和名あるいは学名との対応をあきらかにすることであり、植物分類データファイルによって、数字でデータ化されている植物名を和名や学名に置き換えられるようにする必要がある。
 植物分類データファイルの第二の役割は、例えばオオヨモギとエゾヨモギあるいはオオブキとアキタブキのように同一の分類単位に対して複数の和名(あるいは学名)が使用されている場合に、同じ分類単位であることを予め整理するためのデータファイルとしての役割である。群落組成表や植物目録の作成などの際に、同一の植物を正しく判定する必要性があるため、ひとつの分類単位に対して一組の代表する和名(正和名)と学名(正学名)を設定し、それ以外の和名・学名(異和名・異学名)については、植物分類データファイルを使用して正和名・正学名に変換できるシステムが妥当であると判断した。この変換プロセスを植物名の標準化と呼ぶこととする。
 以上のほか、データ処理上の利便性を考慮して、分類上の位置に関するデータ、分布に関するデータ、出現頻度に関するデータ、形態に関するデータ、貴重性に関するデータを植物分類データファイルのアイテムとして採用した。
 以上の検討の結果、11種類のアイテムを登録すべき情報とし、各アイテムについてデータ形式を検討・決定し、カテゴリーの数を勘案して必要バイト数を決めた。選定・決定した各アイテムの内容は次のとおりである。

a.植物番号

 植物名を識別するためのコードである。フィルドデータファイルにおける出現植物名と同じく、データ形式は数値(実数)型、バイト数は6とする。

b.正名・異名の区分

 当該の植物番号に対応する和名および学名が正名であるか異名であるかを示すコードである。下表の区分に従いコード化する。データ形式は数値(実数)型、バイト数は1とする。                     

コード

区分

採用する正和名・正学名

採用しない正和名・正学名

正和名・異学名

異和名・正学名

異和名・異学名

c.正名の植物番号

 正名・異名の区分のコードが2、5、6、7の場合に、植物名の標準化の際に変換先となる正和名・正学名の植物番号である。データ形式は数値(実数)型、バイト数は6とする。

d.自生分布範囲あるいは帰化・栽培・植栽等の区分

 当該の植物に関する既知の分布情報をコード化したものである。下表の区分に従いコード化する。データ形式は数値(実数)型、バイト数は1とする。

コード

区分

国内〜国外に分布

日本特産

北海道特産

北海道移入種

帰化植物

栽培植物

植栽種

園芸種

e.科番号

 当該の植物が所属する科を識別するためのコードである。データ形式は数値(実数)型、バイト数は3とする。

f.属番号

 当該の植物が所属する属を識別するためのコードである。データ形式は数値(実数)型、バイト数は3とする。

g.出現頻度の区分

 当該の植物のフィールドデータファイルにおける出現頻度を大まかにランクづけしたコードである。フィールドデータをコーディングする時に使用する「和名索引」の編集の際に利用する情報である。下表の区分に従いコード化する。データ形式は数値(実数)型、バイト数は1とする。

コード

区分

非常に多い

普通

やや少い

まれ

ごくまれ

h.形態の区分

 当該の植物の形態を識別するためのコードである。下表の区分に従いコード化する。データ形式は数値(実数)型、バイト数は1とする。

コード

区分

地衣・コケ

草本

つる状草本

ササ

落葉木本

つる状落葉木本

常緑木本

つる状常緑木本

i.和名

 当該の植物の和名を示す。データ形式は文字型、バイト数は20とする。                             

j.学名

 当該の植物の和名を示す。データ形式は文字型、バイト数は60とする。                             

k.貴重性

 当該の植物の貴重性について、既存の資料からまとめた情報である。当面は、環境庁(1986)における貴重植物と、我が国における保護上重要な植物種及び群落に関する研究委員会(1989)にとりあげられている絶滅種等に関して下表の区分に従いコード化する。データ形式は数値(実数)型、バイト数は3とする。

コード

区分

「自然環境保全基礎調査報告書」における貴重植物

40

「我が国における保護上重要な植物種の現状」における絶滅種

50

「我が国における保護上重要な植物種の現状」における絶滅危惧種

60

「我が国における保護上重要な植物種の現状」における危急種

70

「我が国における保護上重要な植物種の現状」における現状不明種

800

(北海道における分布がやや疑わしい植物)

900

(北海道における分布がかなり疑わしい植物)

 以上のアイテムの内容をもとに、図3に示す植物分類データファイルのフォーマット(入力用)を設計した。

図3 植物分類データファイルのフォーマット(入力用)

 

 

5)文献データファイルのフォーマットの検討

 文献データファイルに登録すべきアイテムとしては調査年および文献番号のほか文献名、資料名、著者名(調査者名)、発行年月日、発行者名がある。これらのうち識別コードに含まれる調査年代と文献番号を除くアイテムはいずれも文字型のデータ形式での登録が妥当と判断されることから、文字型のデータ全体を一括して文献内容という1アイテムにまとめることとした。したがって文献データファイルのアイテム数は3となる。各アイテムの内容は次のとおりである。

a.調査年

 調査年は文献・資料を識別するために必要な識別コードの一部である。フィルドデータファイルにおける調査年と同じ基準により、データ形式は数値(実数)型、バイト数は4とする。

b.文献番号

 文献番号もまた文献・資料を識別するために必要な識別コードの一部である。フィルドデータファイルにおける文献番号と同じ基準により、データ形式は数値(実数)型、バイト数は3とする。

c.文献内容

 文献内容についてはすべてコメント欄として取扱う。ただし一応の目安として文献名記入欄、図書名・発行所名および発行年月日の記入欄、著者名の記入欄の3つの記入欄を想定し、それぞれに65バイトづつを用意した。データ形式は文字型、バイト数は 195となる。
 以上のアイテムの内容をもとに、図4に示す文献データファイルのフォーマット(入力用)を設計した。

図4 文献データファイルのフォーマット(入力用)

 

 

6)処理条件設定データファイルのフォーマットの検討

 処理条件設定データファイルに登録すべきアイテムの内容は、どのようなデータ処理を行おうとするのかを決めた後に検討すべきものであることから、データ処理システムの作成の項で検討される。ここでは検討の結果登録すべきと判断されたアイテムの名称のみを以下に掲げる。

略記号

a.
b.
c.
d.
e.
f.
g.
h.
i.
j.
k.
l.
m.

計算処理項目の指定
フィルドデータの並びの指定
植物名の標準化の方法の指定
識別コードによる検索条件の指定
出力する帳票の指定
類似度計算の対象層の指定
標題の指定
群落の区分種の指定
標題部の出力内容の指定
分布図作成植物の指定
植物目録作成対象地図番号の指定
植物目録の出力形式の指定
計算処理対象年代の指定

JST
JSU
JSV
MYR,MRF,MST
KKZ,KKU,KKY,KKS,KKL
KT1,KT2,KSS,KH1,KH2,KHL,KMM
SHY,SJH,SLH
GK,JG
LYR,LRF,LOC,LPA
NPL
MPN
MPM
MYMIN,MYMAX

 

(3)コード化の基準の作成

 データをデータファイルとして入力するためには、まず資料となるデータを一定の基準によっていくつかの形式に分類し、形式ごとに入力方法の基準を明確にしておくとともに、あらかじめ各アイテム中のコードの意味するところを整理して各形式のデータに対応したコード化の基準を作成しておく必要がある。
 コード化すべきアイテムのうち、文献番号、調査番号、調査方法、植物名の表示方法の区分、発表の形態の区分、所属階層のそれぞれについてはすでに行ったフィルドデータファイルのフォーマットの検討の過程で実質的にコード化が終わっている。したがってここでは調査地点位置と植物名に対するコード化の基準について検討する。

1)調査地点位置のコード化の基準

 調査地点位置を示すコード(以下地図番号という)はすでに述べたように、当該する調査スタンドの調査地点の所属する国土地理院発行1:25,000地形図を示す4桁の数字であり、地形図1枚の範囲は概ね10km×10kmである。ECPLANTにおいて1:25,000の1地形図をメッシュの単位とした理由は以下のとおりである。
 メッシュを利用した植物分布のマッピングについては金井(1972)によって詳しく研究されている。金井(1972)はメッシュシステムの数値的命名法として、1:50,000地形図の16分の1までを表現できるようにされたLocality Indexを提案している。その後金井(1983)は、Locality Indexの大きさが県単位の分布図に用いるには粗い場合があるとして、経緯度を分の単位で表示する座標系を用いて茨城県と富山県におけるいくつかの植物の分布図の作成を試みている。Locality Indexを用いて長野県における植物分布図の作成を行った金井(1988)の例によると、県全体のメッシュ数は 574個となっている。これらの例をみると、特定の地域における植物の分布状況を把握するには一つの図面に 1,000個前後のメッシュがあれば一応足りると判断され、北海道においてその数に対応するメッシュの大きさはちょうど1:25,000地形図となる。また、ECPLANTでは植物群落組成調査票を基準としてデータファイルが設計さている。図6に示されるとおり植物群落組成調査票では一般に1:50,000地形図を上下左右に分けて調査地点の位置を表現するようになっており、これがちょうど1:25,000地形図の図幅に対応する大きさのメッシュとなっている。過去の多くの資料をできるだけ同じ基準でデータ化しようと考えた場合、植物群落組成調査票の位置表示をそのまま利用できることは1:25,000地形図をメッシュとすることの大きな利点である。実際、北海道における植物の分布図の報告では1:25,000地形図をメッシュとしている例が多い(伊藤・春木(1985),伊藤(1986)など)ことも、以上の見方を裏付けいるものと考えられる。
 北海道全域を網羅するためには全部で約 950枚の1:25,000地形図が必要であり3桁の数字でもコード化は可能であるが、地形図の位置を示すコードを一定の法則に則って設定すべきとの判断から、地図番号として、北緯を表す2桁の数字と東経を表す2桁の数字を組み合わせた4桁のコードを用いることとした。なお、1:25,000地形図は国土数値情報等で用いられている「標準地域メッシュシステム」における第二次地域区画に該当しそれぞれの二次地域区画に対して6桁のメッシュコードが与えられているが、北海道という限られた範囲について対象とする本システムの場合には全国レベルに合わせたメッシュシステムに合わせる必要性が少ないこと、またコードの桁数が多いほどデータの間違いを引き起こす可能性が高くなることを考え合わせて次のとおり独自の4桁のコードを用いることとした。

 “地図番号”=“北緯を表す数字”+“東経を表す数字”
  (4桁)    (2桁)      (2桁)
    *“北緯を表す数字” = 12×(N−40)+n/5
          ただし、当該の地形図の下隅の北緯をN°n′とした場合。
    *“東経を表す数字” = 8×(E−138)+e/7.5
          ただし、当該の地形図の左隅の東経をE°e′とした場合。

 地図番号の例は図5のとおりである。また、調査スタンドの位置が地形図上で確定できない場合(例えば市町村名で示されている場合など)の地図番号として表4に示す例のような市町村コードと支庁・離島・山系コードを設定した。

図5 地図番号一覧(部分)

 

表4 市町村コードおよび支庁・離島・山系コード(部分)

コード

市町村

コード

支庁

離島

山系

8001
8002
8003
8004
8005
8006
8007
8008
8009
8010
8010
8011
8012
8013
8014
8015
8016

松前町
福島町
知内町
木古内町
上磯町
大野町
七飯町
函館市
戸井町
恵山町
(尻岸内町)
椴法華村
南茅部町
鹿部町
砂原町
森町
八雲町

8000
8041
8042
8046

渡島


大島
小島




千軒山系

8050
8091
8046
8097

檜山


奥尻島



遊楽部山系
狩場山系

8100
8146

胆振


樽前山系

8150
8196

日高


日高山系

8200
8246

後志


余市山系

8250

石狩

8300
8346

空知


夕張山系

 

2)植物名のコード化の基準

 植物名のコード化は本データベース作りの中で最も労力を要した作業のひとつであり、結果  的に北海道に生育が報告されている高等植物のリストを作成することとなった。
 北海道内に自生するといわれる高等植物(シダ植物および顕花植物)の種類数は約 1,800〜2,000といわれており、数の上ではコードとして4桁の数字があれば足りることとなるが、実際にはひとつの植物種に対して数多くの異名(異和名および異学名)があり、これらを原典にできるだけ忠実にデータ化するためにはさらに2桁の数字が必要とされた。さらに、植物分類学上の分類体系自身時代や研究者によってかなり異なるという問題や新産種への対応という問題があり、それらに対してできるだけフレキシブルに対応できるコード体系を作り上げるため、植物分類データファイルの中に正異名の判定や所属する科や属の判定などに必要なデータを含めることとした。

 

 

(4)コーディング

 フィルドデータのコーディングは図2(前報参照)に示したECPLANTフィルドデータ用コーディングシートに記入して行う。コーディングをスムーズに行うため、「ECPLANTコーディングマニュアル」と「ECPLANT和名索引」を作成した。
 植物群落組成調査票とそのコーディングの例を図6に示す。

 

 

(5)データ入力

 コーディングされた情報をファイルとして入力・保存し、フィルドデータファイルとした。
 図6のコーディングシートの入力例を図7に示す。

図6 植物群落組成調査票とコ−ディング例

 

図7 フィルドデータの入力例

 

(次報へ続く)

* 北海道植物データ処理システムの開発について(その1)、菩多尼訶9:22-28(1993.4)

 

ボタニカ10号

北海道植物友の会