CSVファイルをデータフレームに読み込み
Pandas には、表形式のデータを DataFrameオブジェクト として読み込むための関数があります。
| 関数 | 内容 |
|---|---|
| read_csv() | カンマ区切りのファイルを読み込む。 |
| read_table() | タブ区切りのファイルを読み込む。 |
read_csv と read_table は、データの区切り文字が異なるだけで、内部では同じ処理を使っています。
パフォーマンスに差はなく、引数の指定方法も同じです。
サンプルソース
CSVファイルをデータフレームに読み込むサンプルソースは次の通りです。
[Google Colaboratory]
1 | import pandas as pd |
読み込むCSVファイルは以下の通りです。
30日間の最高気温とその日の売上数がまとめられています。
1 | 最高気温,売上数 |
[実行結果]
CSVファイルをデータフレームに読み込むことができました。
read_csv、read_tableのオプション
read_csv、read_tableの主なオプションは以下の通りです。
| オプション | 内容 |
|---|---|
| filepath_or_buffer | 読み込み元のファイルパス、またはURLを指定。 |
| sep | 区切り文字。read_csvはデフォルトで ‘,’、read_tableはデフォルトで ‘\t’。 |
| delimiter | sep の代わりに delimiter 引数でも区切り文字を指定可能。 デフォルトは None。 |
| header | ヘッダー行の行数を整数で指定。 デフォルトは ‘infer’。 |
| names | ヘッダー行をリストで指定。 デフォルトは None。 |
| index_col | 行のインデックスに用いる列番号。 デフォルトは None。 |
| dtype | 各列のデータ型。デフォルトは None。 例:{‘a’:np.float64, ‘b’:np.int32} |
| skiprows | 先頭から読み込みをスキップする行数。 デフォルトは None。 |
| skipfooter | 末尾から読み込みをスキップする行数。 デフォルトは None。 |
| nrows | 読み込む行数。 デフォルトは None。 |
| quotechar | ダブルクォートなどでクォートされている場合のクォート文字。 デフォルトは ‘“‘ |
| escapechar | エスケープされている場合のエスケープ文字。 デフォルトは None。 |
| comment | コメント行の行頭文字を指定。指定した文字で始まる行は無視される。 デフォルトは None。 |
| encoding | 文字コード。’utf-8’、’cp932’、’shift_jis’、’euc_jp’などを指定。 デフォルトは None。 |














