CSVファイルをデータフレームに読み込み
Pandas には、表形式のデータを DataFrameオブジェクト として読み込むための関数があります。
関数 | 内容 |
---|---|
read_csv() | カンマ区切りのファイルを読み込む。 |
read_table() | タブ区切りのファイルを読み込む。 |
read_csv と read_table は、データの区切り文字が異なるだけで、内部では同じ処理を使っています。
パフォーマンスに差はなく、引数の指定方法も同じです。
サンプルソース
CSVファイルをデータフレームに読み込むサンプルソースは次の通りです。
[Google Colaboratory]
1 | import pandas as pd |
読み込むCSVファイルは以下の通りです。
30日間の最高気温とその日の売上数がまとめられています。
1 | 最高気温,売上数 |
[実行結果]
CSVファイルをデータフレームに読み込むことができました。
read_csv、read_tableのオプション
read_csv、read_tableの主なオプションは以下の通りです。
オプション | 内容 |
---|---|
filepath_or_buffer | 読み込み元のファイルパス、またはURLを指定。 |
sep | 区切り文字。read_csvはデフォルトで ‘,’、read_tableはデフォルトで ‘\t’。 |
delimiter | sep の代わりに delimiter 引数でも区切り文字を指定可能。 デフォルトは None。 |
header | ヘッダー行の行数を整数で指定。 デフォルトは ‘infer’。 |
names | ヘッダー行をリストで指定。 デフォルトは None。 |
index_col | 行のインデックスに用いる列番号。 デフォルトは None。 |
dtype | 各列のデータ型。デフォルトは None。 例:{‘a’:np.float64, ‘b’:np.int32} |
skiprows | 先頭から読み込みをスキップする行数。 デフォルトは None。 |
skipfooter | 末尾から読み込みをスキップする行数。 デフォルトは None。 |
nrows | 読み込む行数。 デフォルトは None。 |
quotechar | ダブルクォートなどでクォートされている場合のクォート文字。 デフォルトは ‘“‘ |
escapechar | エスケープされている場合のエスケープ文字。 デフォルトは None。 |
comment | コメント行の行頭文字を指定。指定した文字で始まる行は無視される。 デフォルトは None。 |
encoding | 文字コード。’utf-8’、’cp932’、’shift_jis’、’euc_jp’などを指定。 デフォルトは None。 |