このソースで統計を語るのは…

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

このソースで統計を語るのは…

泥カン周りで↓のような記事が出ていたので、脊髄反射的にポスト。

「日本IT業界」は比較的泥ではない事を統計的に検証 (西岡Blog)

で、このエントリの命綱である「日本IT業界は日本の他の他業種に比べ、賃金など労働条件面では恵まれている」について説明します。そのために3つの統計記事を紹介します。

データを出して検証しているように見えるが、そのソースはひどいだろう。↑のエントリーで提示されているデータのソースは↓の3つ。

「そもそも、調査結果が発表されている時点で、発表者に有利なように操作されているに決まっているだろう」というような議論に関しては、調査会社出身の私が、WEB上の数字について一言★ - Out of Order.という記事が出ている。

調査会社出身の私が、WEB上の数字について一言★ - Out of Order.

「企業の調査結果」は、パブリッシュメントされたその時点で所謂「二次ソース」だ。

企業に有利なバイアスがかかってる可能性が高いし、

調査の質にもバラつきがある。

その「統計的な数字」に乗っかると企業の思う壺だから、

原則疑ったほうが良いぜ、ベイビー★

まさに言うとおりだと思う。特に、リクナビが出すデータを鵜呑みにするなんて、就職活動中の新卒学生ですらやらない暴挙だぜ。

それで、こういう前提の下で、各資料をちょこっと見てみて感じた事を書き出してみると↓のような感じ。

IT系は本当に給料が安い? 2万人の年収比較! - @IT自分戦略研究所

そもそも、この記事自体のソースがリクナビじゃないか。しかも、Tech総研ってIT系求人情報を扱うサイトのようで、その時点でIT系求人に対して有利なバイアスが入るのは必至だから、まともに統計データとして取り上げるのも論外な感がある。

それでも見てみるが、そもそもデータの取り方が全く分からない。どの集団からどういう方法でデータを取ったのかが全く書かれていない。対象のサンプリング方法、結果の回収率、質問項目くらいは書いておいてもらえないと、妥当な調査なのかどうか全くわからないだろう。

それから、「ソフトウェア・ネットワーク系」「ハードウェア系」「クリエイティブ系」「サービス、販売系」「営業、ジム、企画系」の区分が怪しい。前三者に比べて、後二者の示す概念があまりにも広すぎやしないか。「約2万人のビジネスパーソン」を全てこの5者に分類するならば、例えばフリーターやアルバイトといった層が、後二者に含まれている可能性がとても高い。そうであれば、後二者の年収水準が低く出ている理由も納得できる。

そして、記事に載せられているデータのほとんど、30代前半層のものだという点も臭う。端的に言って、この年齢層を抜き出さなければ望む結果を得られなかったからなのだろう。最後に年齢層別の比較も掲載されているが、これも業種の選び方が恣意的だ。

他にも突っ込みどころはあるが、これくらい。

"時給・年収・ 満足度ランキング2007:職種別/リクナビNEXT[転職サイト]"

この記事も、前の記事以上に何も分からないが、グラフの数値を追っかけていてひとつ気になるのは、本当に統計的な有意差があるのか、ということ。平均値に差があったとしても、その差が統計的に有意でなければ、統計的には何も主張することができない。グラフの数値を見ていて、そんなに差があるようには見えないし、そもそも年収のようにばらつきが大きいデータは有意差が出づらい。

IT技術者の4割は月200時間以上労働――IPAが調査 - @IT

最後の記事は、IPA発表資料を@ITが報道したもの。リクナビの前二者のデータに比較して、IPAの発表資料はとても良心的に思える。調査方法や有意差の情報などがある程度わかるようになっている。ただし、この調査の結論は↓。

情報処理推進機構:ソフトウェアエンジニアリング

「開発現場の厳しさ」の理由のひとつである「就労時間」では、平均就労時間の中央値は180h/月で、組込みソフトウェア産業と同水準(出所:平成17年版組込みソフトウェア産業実態調査技術者個人向け調査)となっています。平均値でみると、製造業よりは高く、建設業よりは低い水準(出所: 2006年期毎月勤労統計調査、厚生労働省)にあります。但し、月平均就労時間が200hを超える「長時間労働者」の比率は40.1%で健全な水準とは言い難い状況です(cf.組込みソフトウェア産業は48.1%)。

「開発現場の厳しさ」のもうひとつの理由「収入」は、全体で「年収」の中央値が500~600万円で、組込みソフトウェア産業と同水準にあります。ユーザ企業と元請けベンダでは「年収」分布の差は小さいですが、ベンダ側で比較すると、「元請け」→「一次下請け」→「二次下請け」となるに従って、分布は低い側にシフトしています。

ソフトウェア技術者の職場実態については、一部厳しい状況が疑われる部分もありますが、産業全体としてはそのような状況ではないことが確認できました。

ここらへんの記述は、一部の「泥」の存在を指摘しているような気がしてならないのですがどうか。西岡さんの記事でも、この記事に対するコメントは歯切れが悪い。

まとめ

最後のほうは疲れて失速気味になってしまった。

僕はリクナビや@ITの発表の怪しい点を指摘したが、決してリクナビや@ITを批判しているわけではない。営利企業が自社に有利な発表をするのは当然のことで、批判するべきところではない。

僕が怒りを覚えるのは、そういったプロパガンダ情報をさも「(イメージではない)統計的データ」であるかのように扱って議論することで、これは統計の悪用のようにしか思えない。

統計を使って何かを論じようとするなら、せめて統計的データの扱い方ぐらいは学んでからにしてもらいたい。

スポンサーサイト

関連記事

トラックバック URL

http://liosk.blog103.fc2.com/tb.php/131-e9e71a3f

トラックバック

コメント

コメントの投稿

お名前
コメント
編集キー
 
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。