みなさん、こんにちは。やっちゃんです。ご覧いただき有難うございます。
今回は相関解析をするうえで、Rを使った超お手軽かつ超スマートなコードを紹介します。非常に短いコードで多くの情報量を載せてくれます。まずは実際に相関解析した際の図をお見せします。用いたデータは以前にもデータ解析記事でご紹介した「世界幸福度報告の2021年のデータ(world-happiness-report-2021.csv )」です。Kaggleからもってきてます。
説明します。まず目的の変数同士の相関係数は右上三角の数字です。相関の大きさにしたがって文字も大きくなっているので理解しやすいですね。そして相関関係の統計的有意差についても★の数で示してくれています。★3つが0.005、★2つが0.01、★1つが0.01です。さらに最左上から最右下かけての棒グラフは各変数のヒストグラムです。最後に、左下半分はある変数とある変数からなる散布図です。
では実際にコードみていきましょう。スマートすぎるのでコード紹介は一瞬でスマートに終わります。本当に一瞬です。
刮目してください。
1 2 3 4 5 |
if(!require(PerformanceAnalytics)){ install.packages("PerformanceAnalytics") library(PerformanceAnalytics) } chart.Correlation(CSVファイル) |
以上です。最初4行はライブラリインポートのコードです。実際のコードはchart.Correlation()のみ。
すごくないですか?たった1行で相関係数だけでなくて統計値、ヒストグラム、散布図も一緒に描いてくれるんですよ。自分は初めてこれを作図した時はあまりのスマートさに驚愕しました。いままで長年Excelで作図したり、統計解析したり、あの時間はなんだったのだろうか。相関解析だけでなくデータの分布の様子まで一瞬で把握できます。
さくっと相関解析して軽くデータの分布見たいだけなら、Excelやこれまで紹介したPythonの相関解析コードよりもとても使い勝手がいいと思っています。データ可視化のスピードアップで時短間違いなしです。
是非、使ってみてください。
本日もご覧いただきありがとうございました。ご質問、ご意見がございましたら、是非ご教授お願いいたします。
よろしくお願いいたします。
コメント