捏造と断定されたArticle Fig.5cのグラフなんだけど、「結論ありき」さんが取り上げているので、連休だったし…
Aticleのpdfファイルをダウンロードし、問題の図のあるページをイラストレータで開き、グラフ部分を見たわけです。
不思議な点はプロットのマークが2つのオブジェクトからなることです。外側の黒い線の◯と中の塗りつぶしが黒と白の二種類のマークである。この図では塗りつぶしの白を黄色に変更してある。
普通、イラストレータで作図するときは黒丸を描きその中を黒または白で塗りつぶすから1つのマークが2つのオブジェクトでできていることはない。
すべてのマークに番号をつけた。それぞれ最も若い日を1とするとES細胞はES1からES45、STAP StemCell はSTAP_SC1からSTAP_SC45となる。
それぞれのマークの番号を、マークの中心(目視で決めた)を通る青い線で判別しやすくした。この青い線の傾きが最終日間際に急になるのが、おかしいことは先に述べた。 また、3つのプロットがコピーではないかと「結論ありき」さんで問題となっているのをP1~Y6と加筆してある。STAP_SC21〜23がピンクの1〜3、STAP_SC24〜26が黄色の4〜6に該当する。 ピンクの2が一番上にあって、エクセルのような表計算ソフトではZ軸(重なり具合)は一定だからおかしいと指摘している。このようなところは他にもある。 マークをESは一つ置きに外側の◯を黄色の線に、STAP_SCも同様に一つ置きに赤丸にすると、重なり具合がわかる。
ESのプロットがSTAP_SCより後(上にある)ということがわかる。ES10は前後に比べ上におかれている。ES13も同様だ。STAP_SC11は両隣より下に配置されている。
イラストレータで各マークの中心位置を読み取り、表にしてみた。単位は mm でグラフの原点は(0,0)である。これで、何かがわかるだろうか?
[wpdm_file id=13]
ここまでで、力尽きた。風呂、酒、飯だからな。
捏造と断定され、不服も申し立てず、「あの日」で自由に反論できたのにやってないし… これ以上やってもしょうがないけど、グラフの捏造方法について考察できるかもね。
[ 追記 ] 2016.1011
イラストレータで読み取ったマークの中心の位置が、オリジナルの図と一致するかをチェックしないといけない。数値を読むためにオブジェクトを選択するとマウスを誤って動かしオブジェクトの位置がうごいちゃう。そこで数値化したエクセルの表からグラフを作成し、そのマークを図と重ねてみた。
ES細胞は黒または黄色の枠に黒の塗りつぶし、STAP-SCは黒または赤の枠である。赤いビットの荒い☓が、表から作図したSTAP-SCのエクセルのマークをイラストレータの図にコピペして縦横のサイズを右上と左下が一致するように変えて重ねたものだ。一部のみ拡大してある。数字は上の図とおなじだ。拡大したことになってエクセルの赤い☓はベクトルデータでないのでピット表示になっている。1ビット位の差がある、つまり数値化は問題なかったと判断した。
コピペではないかと疑われているマークの位置(STAP-SCの21から26)をエクセルでグラフにし
21~23 を24〜26に重ねてみた。
結果は21と23、24と26の位置関係はよく一致、22と25はずれているということになった、だから「結論ありき」さんの結果と微妙に異る。pdf → イラストレータ で数値化するときにどのくらいの誤差がでてくるのか、エクセルのグラフをイラレにコピーするときどのくらい精度が落ちるのか等、調べないと一概には言えないのかもね。
エクセルデータで各区間での傾斜を算出してみました
ES 範囲 1.10~2.06
STAP SC 範囲 1.10~2.31
1.片対数ですので増殖率に10倍程度のバラツキがあることになります。
2.またグラフにしてみるとある程度周期性を持って変動しています
3.STAP SC d42-d43の傾斜が大きな外れ値(2.31)になっています
この程度の変動は幹細胞の増殖実験でありうることでしょうか。
こいう実験をやったことがないので、変動についてはわからないです。
イラレで測定値からマークの位置を決めて描画することができますが、そして、それは生データがある限り不正でもないですが、プロットが90点を超えるようなグラフは、グラフ作成ソフト(エクセルなど)を使わないとやってられないですね。グラフ作成ソフトで作成するとマークの重なり具合(Z軸)は一定になると思います。周期を持って変動するというのは、数個のマークをコピペして、ありそうな位置にマニュアルで移動するのを繰り返したのかも。120日もかからないですね。しかも8例もあるというのですから、すべてのグラフ、生データがあるのなら提示すればいいのにね。
おはようございます
確かに、生データがあれば提示すれば良いだけの話であり、手書き、お絵かきソフト、表計算ソフトのツール等手段は本質的な問題ではありません。
元々Generalized Linear ModelとScalingをやっていましたので、こういった交絡因子が多そうな結果をみると、同種の実験でも類似の結果が生じ得ることがあるのかと、つい考えてしまいます。
生じ得るとならば、ノイズ(交絡因子)のフィルタリング手法の開発も有意義ではないかと思った次第です。