みなさんこんちには、やっちゃんです。
これからPythonでのデータ解析について勉強を始める方に向けて
Pythonでデータフレームの加工や集計スキルを順々に学べるように、紹介していきます。
CSVファイルを読みこみ、エクセルのような行列加工、
複数のファイルの読み込みと連結、作ったCSVファイルの保存など基礎的なスキルの習得を
目指していきましょう。
本日は以下の三点です。
CSVファイルの読み込み(単一)
①pandasというデータを扱うための標準的なライブラリをインポート
②csvファイルをpd.read_csv()で読み込みます。
この際、読み込みたいcsvファイルとnotebook等のソースコードのファイルは同じディレクトリにしておきましょう。
今回はkaggleの「Dummy Marketing and Sales Data」の
学生のWebマーケティング勉強用に作られたとされるデータセットを用いています。
③最後はdfまたはdf.head()でcsvのファイル内容をしっかり確認。今回のCSVファイルが
4572 rows × 5 columnsのデータセットであることをdfで確認できますが、
df.head()にすると頭の指定行をだけを確認できます。
最初にdfで行列数を確認した後は、長ったらしいので、dfは消すか、df.head()で短く表示しておくのがいいです。
1 2 3 |
import pandas as pd # データを扱うための標準的なライブラリ df = pd.read_csv('〇〇.csv')#ファイル名を入力 df.head()#head()をつけて()に数字をいれることで頭から指定行をとりだせます。何も入れない場合は5行です。 |
| TV | Radio | Social Media | Influencer | Sales |
---|---|---|---|---|---|
0 | 16.0 | 6.566231 | 2.907983 | Mega | 54.732757 |
1 | 13.0 | 9.237765 | 2.409567 | Mega | 46.677897 |
2 | 41.0 | 15.886446 | 2.913410 | Mega | 150.177829 |
3 | 83.0 | 30.020028 | 6.922304 | Mega | 298.246340 |
4 | 15.0 | 8.437408 | 1.405998 | Micro | 56.594181 |
列または行の削除
①df.drop([]),axis=1)で列の削除を行います
1 2 |
df = df.drop(["TV","Radio"], axis=1)#axis=1で列方向 df.head() |
Social Media | Influencer | Sales | |
---|---|---|---|
0 | 2.907983 | Mega | 54.732757 |
1 | 2.409567 | Mega | 46.677897 |
2 | 2.913410 | Mega | 150.177829 |
3 | 6.922304 | Mega | 298.246340 |
4 | 1.405998 | Micro | 56.594181 |
②df.drop([]),axis=0)で列の削除を行います。デモで1行目と4行目を削除します。
Pythonでは列、行ともに行列番号が自身が考えている数の‐1の値で表されています。ですので、自信が1行目を消したいと思うときは0、4行目を消したいときは3を指定します。
1 2 |
df = df.drop([0,3], axis=0) df.head() |
Social Media | Influencer | Sales | |
---|---|---|---|
1 | 2.409567 | Mega | 46.677897 |
2 | 2.913410 | Mega | 150.177829 |
4 | 1.405998 | Micro | 56.594181 |
5 | 1.027163 | Mega | 105.889148 |
6 | 4.273602 | Micro | 198.679825 |
CSVファイルの保存
df.to_csv()で保存します。
1 |
df.to_csv('〇〇.csv') |
保存できたでしょうか?最後は確認してみてくださいね。
本日は以上です。Pythonでデータ解析してみたいけど、そもそもデータフレームの加工の仕方がわからない!なんて人、ここからです。これから一緒に勉強していきましょう!
わからないこと、ほかにもご意見等あれば是非お待ちしております^^。
コメント