JMP

「経済セミナー」1993年7月

深谷庄一(Shoichi Fukaya)

 JMP2.04 はSAS Institute Inc.が開発した統計ソフトです。日本で買う場合、登録カードはSASインスティチュート・ジャパン(東京都中央区明石町6−4 ニチレイ明石ビル TEL. 03-5565-8398)にだします。定価は148,000円です。実売価格は12万円前後だと思います。米国での定価は先月号に書いたとおり$695ですから、差額はサポート料でしょうか? まだ葉書を出していないので、どのようなサポートを受けられるかは不明です。複数ユーザーで使う場合、ネットワーク対応版がありますので、直接お問い合わせください。

 マニュアルは、JMP Introductory Guide (pp.138) と JMP User's Guide (pp.584) の2冊に別れていて、前者はサンプルデータを使った、操作例です。製本もしっかりしていますし、マニュアルとディスク全部が強固でこじんまりした箱に入っているので、取扱いに便利です。

 プログラムは2枚の2DDディスクに圧縮されています。インストールして展開すると約2Mほどディスクを占有します。ある市販ツールで実行プログラムを圧縮すれば、2HDディスク1枚に納まってしまうというのも、驚きです。

 なお、最初にダブルクリックして実行するときに、名前とシリアルナンバーを書き込みますが、日本語で登録すると、化けてしまいます。一度登録すると、あとからは直せませんでした。名前はローマ字で登録した方がいいでしょう。

独自の開発

 SASというのはメインフレームからパーソナルコンピュータまで、さまざまなプラットフォームで動く、統計分析ソフト(『経済セミナー』1992年1月号参照)です。どういうわけか、Macだけは別あつかいで、JMPと名前を変えただけではなく、独自に開発されたものだそうです。12万行のC言語でかかれているということです。SASシステムには、SAS/Insightというよく似たデータ視覚化のためのアドオン・システムがあるのですが、それとも別物だということです。もちろん一部はSASシステムのルーチンを取り込んでいるようですが。他機種の操作法をMacに持ち込んだSPSSの方針とは正反対です。この7月にWindows版SASがリリースされるとのことですが、それもJMPの移植ではないようですし、ユーザー契約形態も通常のSAS同様のレンタル方式です。

 最近、Jeffrey K. MacKie-Mason "Econometric Softwares: A User's View",The Journal of Economic Perspectives(Fall 1992)は遠慮会釈ない統計ソフトの論評を行なっていますが、「SASのウインドウシステムを好きな人に会ったことがない」と書いてます。全く同感です。全てのプラットフォームで共通の操作法を目指しているのですが、SAS自身が独特のウインドウシステムになっています。しかし、JMPの操作方法は通常のSASシステムの形跡がほとんどみられません。SASのようにPROCというコマンドを書き連ねて実行させる簡易言語方式でもありません。

 ということで操作法にポータビリティーはありませんが、Macのハードに特化しているので、Macらしさというものをこれほど実現したソフトもなかなかありません。動きが全般的に非常に軽快できびきびしていますので、CPUの遅いマシンでも安心です。つまり操作法がマックライクなだけでなく、プログラム自体がマシンのリソースを十全に生かしているという感じがひしひしと伝わってくるのです(大げさでしょうか?)。

 JMPの一つの特徴は、分析手法の独特な組み立てスタイルです。つまり、通常のようにさまざまなコマンドで分析手法を指定し(あるいはメニューから選んで)、そのバリエーションをオプションで切り替えるという発想ではないようです。分析手法そのものをソフトの方で選び出してくれるというものです。この独自のスタイルは、上にのべたマックライクな操作性の追及に由来するのでしょうか? それとも、作者の中の長年の構想が、Macシステムにフィットしたということでしょうか? もし前者なら、Macというマシンの操作方法が、ソフトのあり方と、さらにはアルゴリズムをも変えたということで、実に興味深い例になるのですが。

 今回は、主にこの分析手法の体系化の独自性について紹介したいとおもいます。

8つのプラットフォーム

 JMPの分析(Analyze)メニューは8つに別れています。1変量の統計(Distribution of Y's)、1つの説明変数と目的変数の関係(Fit Y by X)、複数の説明変数と目的変数の関係(Fit Y by X's)、モデル式の設定(Specify Model)、非線型回帰(Nonlinear Fit)、3次元プロットとその回転(Spin)、複数の目的変数間の関係(Y's by Y's)、管理図・ビジネスグラフなど(Special Graphs)。このように、XとYという記号で、説明変数と目的変数(基準変数)を区別(役割分担)し、手法を分類することもJMPのユニークな点ですが、それよりも独特なのは次のような点です。

 かりに分散分析をおこないたいとします。上にのべたプラットフォームの中から、どれかを選んでも分散分析という項目は見あたりません。つまり先にのべた8つのメニューの中に、いわゆる分散分析とか、因子分析とか、回帰分析とかいうおなじみ手法のサブメニューが並んでいるのではないのです。サブメニューがあるのは Special Graphs だけです。

 ではどうするのでしょうか。たとえば、[Fit Y by X] を選び、説明変数(X)と目的変数(Y)をそれぞれ指定すると、その分析結果が、とりあえずグラフと表の形で出力されます。その場合、目的変数が連続数量で、説明変数がカテゴリーなどの質的変数であれば、自動的に分散分析の形になるのです。X も Y も数量ならば、回帰分析になり、両方ともカテゴリーならばクロス表になるのです。逆に Y がカテゴリーで X が連続量ならロジスティック回帰になります。要するに、変数の型によって、操作者がその分析手法の名前を意識せずとも、自動的に適合的な手法に誘われるようになっています。

 この分析手法自動切り替えは、とくに[Fit Y by X] プラットフォームにおいて、見事な冴えをみせています。筆者は、JMPのアイデアは、この[Fit Y by X] プラットフォームの整理に由来するのではないかと、推理しました。マニュアルの10章から13章までが [Fit Y by X] の4つの手法に割り当てられていることからも、作者がこのプラットフォームに自信を持っている様子がうかがえます。8つの分析プラットフォームの中で、章だても4つで、ページ数も74ページと最も多いのです。他のプラットフォームには1-2章しか割り当てられていません。実際、この概念的整理とそれをプログラムとしてimplementした部分は、立派な学問的貢献とさえいえると思います。

 「はじめに手法ありき」という発想ではなく、どういう変数で何をしたいかがまずあって、自然に分析手法の方がついてくるというスタイルです。あとになってこれが分散分析なのかと気がつくのです。分散分析とは要するに説明変数がカテゴリーの場合の回帰分析だということです。考えてみれば大胆な位置づけです。たとえば分散分析にしても、回帰分析にしてもそれぞれ歴史というものがあり、分析ごとに「要因」とか「水準」とか「級」とか独特の用語があります。一種の縄張りです。分散分析は「検定」のためで、回帰分析は「予測」や「因果関係」の分析という違いがあるとの批判も出てきそうです。そこをあえて、変数の尺度によって大胆に分析手法を再構築しているのです。

 マニュアルの、「変数の測定水準によって、自分自身を状況に適合させる」という気のきいた文言で始まる、第8章を是非お読みください。そこには、「さまざまなノンパラメトリック検定は、特定の分布を前提にせずしかも頑強であるが、JMPにはほんの少ししか実装していない。なぜなら、それらは一般的方法論アプローチに繋がらないからだ」(p.212)、あるいは、「統計的当てはめに関する驚くべき事実は、古典的方法の大部分は二つの単純な機械、バネと圧縮気筒(the spring and the pressure cylinder)を使うことに帰着するということである」(p.213)など、方法論的統合の旗印を鮮明にするとともに、「直感的概念で統計学を理解する」ためのキー概念を解説しています。高校物理をとうに忘れてしまった筆者には、残念ながら解説できるだけの理解に到達できませんでした(ごめんなさい)。

 筆者はこのJMPの分析体系に、最初はとまどいながらも、すぐに共感を覚えました。というのは、多変量解析などの統計手法の場合、名前は違うが実質上同じ様な手法や、似たような手法で少しずつ名前を変えたものが乱立しているのです。それらの混乱を見事に整理していると評価できると思います。個別の名前をあげると差障りがあるのでやめますが、統計システムの場合、手法の数の多さはあまり意味がないといえます。JMPのマニュアルにも、百科辞典的な手法の多さを競うつもりはないと述べられています(p.201)。

 よく多変量解析の解説書にはさまざまな手法の選択の流れ図(フローチャート)がのっていて、どういう場合にどの手法を選んだらいいのかをその流れ図に沿って捜し出せるようになっています。このソフトはその流れ図をそのままプラットフォームとしてソフトにインプリメントしたという印象です。

 もちろん、多項式回帰や重回帰分析がどこのプラットフォームにあるかなどは、マニュアルの裏表紙の表をみたり、あるいは HELP をクリックすれば画面上にも表示されますので、従来通り分析手法の方からメニューをたどっていくこともできなくはありません。[Specify Model] というプラットフォームがうまく体系化できなかった分析手法のいわば(悪くいえば)たまり場で、2元配置分散分析(交互作用あり)、共分散分析、多変量分散分析、正準相関分析、判別分析などをおこなえます。

 このシステムのユニークな特徴を生かすためには、従来の発想を変える必要があると思われます。まず何をしたいかということで8つのプラットフォームの中から一つを選び、次に選ばれた変数の型から自動的に最適な分析手法が選ばれるというスタイルです。マニュアルではまず変数にXやYなどの役割を割り当ててから、プラットフォームを指定せよと書かれています。1.Assign Measurment Levels, 2.Select Columns to Play Roles, 3.Launch the Platform の3ステップが推奨され図式化されています(p.205)。しかし、最初にプラットフォームを選んでも自動的に変数選択のダイアログが開かれますし、筆者は今までのやり方を引きずっているせいか、ついプラットフォームを先に選んでしまいます。

 以上のべたように、このシステムでは変数の型とその測定水準を常に意識しなくてはなりません。データ処理で最初に行なわなくてはならないのは、変数の測定水準の割り当てです。

変数の尺度とデータ入力

 画面には変数の尺度の略記として [Int] と表記されています(図1)。これは整数(Integer)の略ではありません。C言語をかじったことがある人は、ついIntegerのことかと思ってしまいます。実はこのIntは、Intervalの略です。名目尺度(Nominal Scale)、順序(Ordinal)尺度、間隔(Interval)尺度、比例(Ratio)尺度という測定(measurement)の水準を規定する用語なのです。この用語は経済学者にはあるいは馴染みがないかもしれません。心理学者のStevensが提唱した用語です(S.S.Stevens,Measurement,Psychophysics,and Utility,in C.W.Churchman & P.Ratoosch(eds.),Measurement,1959)。名目尺度は男と女とかの分類に当ります。順序尺度は、数値で表示されていても、順位のみの意味しかない量(年齢とか1年生から6年生とかの学年)です。間隔尺度は温度や知能指数のように各尺度を1次式で変換できる量ですし、比例尺度は長さなどのように絶対0点が決まっている量です。JMPでは最後の比例尺度は間隔尺度のなかに含まれているようで、3つの水準しか考えられていません。

 このような変数尺度の相違は、データの入力時から明確に意識せざるを得ないようになっています。

 新規にデータをキーボードから入力するときには、Rowsの中からAdd Rowsを選んでサンプルの数をきちんと指定し、さらにColsの中から一つずつNew Columnを選ばないと、入力できません。表計算ソフトのように自由にどこにでも入力できる気軽さにはかけています。入力のチェック(たとえば数値タイプのセルに文字を入力するとビープが鳴って止まります)がきちんとしているので、入力エラーは減ります。前回紹介したStatViewのように、各変数のタイプなどを一つ一つ決めていく、データベースと同様のやり方です。ただ、カラムを増やすときに一つずつしか増やせないというのはJMPらしいスマートさに欠けます。この点はStatViewの方が融通性は高いといえるでしょう。

視覚化

 このソフトのもう一つの特徴は、Software for Statistical Visualization on the Apple Macintosh という副題がついているように、全ての分析に対して、徹底的な、視覚化が工夫されていることです。3次元散布図の華麗なスピンだけではありません。クロス集計表や分散分析の多重比較の Comparison Circles(図1)など、質的分析でもそれぞれ独特のグラフが登場します。Comparison Circles では、各円の大きさ・位置・重なりあう角度等で、各グループの位置づけが一見して分かるようになっています。ビジネスなどで通常使われている、円・折れ線・棒グラフなどはバージョン2になってようやく追加されたほどで、ありきたりの図に満足しないようです。

 しかも、単にグラフを描いて終わりというのでなく、そのグラフを使ってデータの構造を相互作用的に明らかにする工夫がこらされています。

 たとえば、度数分布の特定の階級をクリックすれば、別のウインドウに描かれた散布図や、もとの表形式のデータにマークされます。Comparison Circles の中の一つの円をクリックすれば、そのグループと違うと判定されるグループが自動的にマークされます。散布図を描いてその中の特定の点をクリックすれば、その点のサンプルが何番目であるかが表示され、原データ表の方にはそのデータがマークされます。

ハンド・ツール

 分析のプラットフォームを指定して変数を選択すれば(前述したように、変数を選択して分析プラットフォームを選んでもかまいません)、とりあえずの結果が Report Windows に「ほとんど瞬時に」(p.179)表示されます。それだけで終わってしまっては、このソフトを使う意味がありません。手法に応じて、さまざまなポップアップメニューが開けるようになっており、オプションとして付加的な分析をおこなうことができます。付加的分析の表示もクリックして閉じたりまた開いたりできます。

 また左下、ウインドウバー上には3つのアイコンが表示され、そこをクリックすれば Border Menu Options がポップアップします。レイアウトを変えたり、途中計算結果を保存したり、用語や手法の解説や操作法のHELPなどです。ただしこのアイコンの意味は直感的に分かりにくいかもしれません。スペースの節約で1文字のアイコンを作ったのでしょうか、それぞれ、チェックマーク、ドル記号、アステリスクがアイコンになっています。

 図1は、スペース節約のために、いろいろなウインドウが詰め込まれていますが、鈴木から中曽根、竹下、宇野、海部までの内閣別に自民党支持率の違いを分散分析で多重比較したものです。左下の方にオプションアイコンがみえます。右側にはデータ表がありますが、右下の自民党支持率の度数分布表の一部をクリックすると、その階級にはどのサンプルが入っているかがデータ表に反映され、黒く反転表示されています。

 また、Toolsというメニューには通常の矢印のほかに、手の形をしたHand Toolがあります。このToolsメニューはカーソルの形を変えるものです。ほかにHELPを表示するクエスチョンマークや、ブラシ、はさみ、定規などがありそれぞれ異なった役割を与えられています。これらを使って、さらに分析を加えるのです。クエスチョンマークによるHELPシステムは充実しており、画面上をクリックするだけで、指定した統計用語やグラフの説明などがたちどころにポップアップします。

 たとえば度数分布表を描いたとき、ハンドアイコンをドラッグさせると、その階級の区切り幅をリアルタイムに狭くしたり広くしたりすることができます。図2の右のグラフは図1のそれと同じ自民党支持率のデータですが、印象は相当違います。左下のように手を左右に動かせばグラフ全体の形がアニメーション的に変形するわけです。子供の玩具のトランスフォーマーや、映画「ターミネーター2」などで有名になった異形態化(Morphing)という感じなのですが(例が幼稚で低俗すぎますか?)、言葉だけではなかなかいいあらわせません。

 余談ですが、Macの場合、市販ソフトでも、プログラムに(隠しボタンの場合もありますが)作者の名前が書いてあることが稀れではありません。JMPの場合も名前が明記されています。プログラマーだけではなく統計的テストをした人の名前まで記されているのです。責任の所在がはっきりしているので好感をもてます。DOSの場合、作者の名前が表示されるのはゲームくらいしかないようです。Macはやはりゲーム感覚なのでしょうか?

 図2は失業率と自民党支持率の散布図とそれぞれの度数分布表を同時に表示し、3者がリンクしている様子の一場面です。度数分布表の上あるいは右の図はTukeyの箱ひげ図(quantile boxplot)です。適当な階級をクリックすると、対応するサンプルが黒く強調されて示されます。失業率が低い範囲では、自民党支持率と失業率は負の相関を示すが、失業率が高くなると正の相関を持つ(常識とは逆)ことを示しています。

 実は、左側の散布図は三次元散布図で、Z軸の真上から見た図です。これもハンドアイコンでスピンさせることができます。手を動かすといろいろな角度からデータの分布を見ることができるのです。もちろん度数分布表のサンプルとリンクさせたままスピンさせることができます。軸の切り替えも、左の変数表のXYZの記号をつかんでドラッグすれば即時にグラフも切り替わります。これは単純なデータの散布図だけではなく、因子分析などでできる三次元BIPLOT(変数とサンプルの双方を同一座標上に配置する図で、因子負荷量のグラフと因子スコアのグラフを同一座標に表示するといってもいいかもしれません)をスピンさせることもできます。

 図3のP1からP3までが主成分の軸です。第1主成分(軸が長い P1)だけで61.6%の説明力です。やはり、自民党支持率と失業率は正の相関です。何故失業が増えて自民党支持率が増えるのかと不思議に思われるかも知れません。三次元散布図を見れば分かるように、消費者物価上昇率(Z軸)と失業率が負の相関を持っていて、物価上昇率の低下が自民党支持率を高めているともいえることが読み取れます。

まとめ

 JMPの特徴は、乱立する多変量解析の手法の大胆な再構築(リストラ)です。派手なグラフィックスのかげに、作者たちのユニークな構想を見いだしたことは、評者として最大の喜びです。筆者は今まで、ソフトのマニュアルを丹念に読むことはあまりなかったのですが、今回ばかりはマニュアルの重要性を思い知らされました。ソフトにはそれぞれ作者の意図と目的がこめられているからです。それを理解することが大切です。

 あまり誉めてばかりでもつまらないので、最後に、不満というか要望ものべておきましょう。

 JMPは、マニュアルを読んでみると、ポップコーンをどう売るかに関するアドバイス(p.89)とか、ホットドックのメニュー作成(p.91)とか、対象はビジネスマンにおいているようです。「科学にとっての統計はビジネスにとっての会計に対応する」(p.213)とも書いています。このことがインターフェイスの改善に貢献しただろうとは思いますが、特殊な専門研究のツールとしては、やや重みに欠けるというか、もう少し拡張性を重視した方がよかったかもしれません。実務志向で、研究志向ではありません。やはり、BASIC, PASCAL, C とかの汎用プログラミング言語が必要になるか、Mathematica などの簡易言語を利用することも考慮したくなります。DOSでは Gauss、ワークステーションではSなどが有名ですが、Macでは非定型的分析のためのプログラミング言語が見あたりません。

 前回のStatViewもそうでしたが、今回紹介してきた統計ソフトは、経済学という分野には必ずしも適していないかもしれません。というのは、時系列分析がほとんどなく、そのわりには、名目尺度(カテゴリー)に基づく分散分析とかクロス集計等には力を入れているのです。さらに、因子分析や、正準相関分析などのいわゆる多変量解析を経済学でどれほど使うでしょうか? 筆者はたまたま政治経済学に興味を持っており、政治という定性的データも扱いますし、また、正準相関分析で政治変数と経済変数の影響力の大小を数値化・比較したこともあるので、大変重宝しています。しかし、経済プロパーの人には、もう少し時系列分析などを取り入れて欲しいと思われるはずです。これらの要求は、ユーザーインターフェイスに多少の不満はありますが、Micro TSP(Quantitative Micro Software) などで満たされるでしょう。

 最後に的をはずしているかもしれない希望を述べておきます。グラフ出力のウインドウ間リンクは素晴らしいのですが、数値表出力に関してはリンクがはられていません。同じ出力でもグラフと数値表とでは扱いが異なるという印象を受けたのですが、どうでしょうか。そこで、Systat の真似になりますが、出力結果の、たとえば変数名をクリックすれば基礎統計量がポップアップしたり、分析用語をクリックすればその説明が現れるなどの工夫が考えられます。ToolsメニューでHELPモードに切り替えるか、アストリスクアイコンをクリックして、HELPウインドウを開いておけば、常に用語の説明を見ることができますが、モード切り替えは面倒ですし、連係がいま一つです。現在でも、統計数値をダブルクリックすると、表示形式を変えられるようにはなっていますから、技術的は難しくはないはずです。

おわりに

 以上私は、高名なソフトに勝手な論評を加えてきましたが、人によっては生意気なと不快に思われた方もいらっしゃるかもしれません。Jeffrey K. MacKie-Mason 氏の率直で忌憚のない論文に触発されて、できるだけはっきりと自分の感想を述べてみました。

 MacKie-Mason氏もそのようですが、私も、アマチュアのプログラマーであったりします。ですからソフトを作成することの面白さとか、苦しさをある程度経験しました。ましてや、それを発表したりすれば、人から何をいわれるか! ほとんど勝手な論評、矛盾した評価、何をいわれてもおかしくはないんですね。何をいわれるか分からないから何をいってもいいというわけではないのですが、結局はそれらの批判を糧に、ソフトは成長するのだとおもいます。と、また自著「コンピュータ・エコノミクス」(日本評論社)の宣伝をしていたりします。

 最後になりましたが、当初、Mac用統計ソフトについて相談にのっていただいた岩崎学氏(成蹊大学)、編集部を通じて論文の紹介その他アドバイスをよせていただいた皆様に感謝致します。

 Macとは直接関係のない雑誌に、これだけの分量の、一般雑誌ではまずとりあげることのない統計ソフトの、しかも最新バージョンの記事が載ること、これこそ驚きであり、感謝すべきことかもしれません。いったい、どなたのとりはからいでしょうか。この原稿は編集部からの依頼原稿ですから、私でないことは確かです。


[注意!]

 図1-3は、漢字TALK6 の頃の PS なので、LaserPrepを一緒にコマンドラインにあてがわないと、DOS(Windows)上では見れません。

>gswin laserpre.p jmp1.ps [Enter]

とします。


Back to Essay Page

to Home Page