pandas
業務では Excel ファイルでデータをやり取りする機会が多いです。pandas は Excel ファイルの読み書きに対応してい...
pandas で条件抽出するとき、通常は `df[df['col'] > 0]` のようにブールインデックスを使います。quer...
実データには欠損値(NaN)がつきものです。センサーの故障、通信エラー、データ収集の失敗など、さまざまな理由でデータが欠落します...
時系列データを扱う際、データの粒度を変換したいことがよくあります。1 分ごとのデータを 1 時間単位に集約したり、日次データを月...
時系列データの分析では、ノイズを除去したりトレンドを把握したりするために「移動平均」をよく使います。pandas の rolli...
pandas の MultiIndex(階層的インデックス)を使うと、複数の軸を持つデータを 2 次元の DataFrame で...
機械学習ではカテゴリカル変数を数値に変換する必要があります。「ダミー変数」や「One-Hot エンコーディング」と呼ばれるこの処...
pandas の apply は便利なメソッドですが、大きなデータセットでは非常に遅くなります。多くの場合、ベクトル化された操作...
pandas でデータ分析をしていると、複数のデータフレームを結合したい場面がよくあります。`merge` 関数を使えば、SQL...
pandas でデータフレームを結合する方法には `merge` と `concat` があります。`merge` が列の値をキ...
データ分析では「部署ごとの売上合計」「年代別の平均点」のように、グループごとに集計したい場面がよくあります。pandas の `...
Excel のピボットテーブルに相当する機能が pandas にもあります。`pivot_table` を使えば、行と列でグルー...
データの形式には「縦持ち」と「横持ち」があります。pandas の `melt` を使うと、横持ちのデータを縦持ちに変換できます...
データに重複した行が含まれていることがあります。pandas の `drop_duplicates` を使えば、重複行を簡単に削...
データを読み込んだとき、列名がわかりにくかったり、日本語に変えたかったりすることがあります。pandas の `rename` ...
データの値を別の値に置き換えたいことがあります。pandas では `map` と `replace` を使って値を置換できます...
連続値を区間に分けてカテゴリ化することを「ビニング」や「階級分け」といいます。pandas の `cut` を使えば、数値データ...
pandas のデータフレームには、行を識別するためのインデックスがあります。`set_index` と `reset_inde...
データ分析で「この値は何回出てくるか」を調べたいことがよくあります。pandas の `value_counts` を使えば、値...
pandas でカテゴリデータを扱うとき、文字列のまま保持するとメモリを大量に消費します。`category` 型を使えば、メモ...
pandas で DataFrame を行ごとに処理したいとき、`iterrows` を使う人がいます。しかし、iterrows...
pandas で文字列データを扱うとき、`str` アクセサを使うと列全体に文字列メソッドを一括適用できます。ループを書かずに済...
pandas を使ううえで最初に覚えるのが DataFrame の作成方法だ。データの形式に応じていくつかの手段が用意されており...
データ分析の第一歩は、手元のデータがどんな構造をしているかを把握することです。pandas には DataFrame の概要を素...
pandas でデータを正しく処理するには、各列がどのデータ型(dtype)を持っているかを把握しておく必要があります。型が意図...
実データにはたいてい欠損値が含まれています。欠損値を放置したまま集計や分析を進めると、結果が歪んでしまうことがあるため、まずはど...
欠損値を含む行や列をそのまま使うと、集計結果や機械学習モデルの精度に悪影響を及ぼすことがあります。pandas の dropna...
CSV から読み込んだ日付データが文字列のままになっていて、日時として扱えないという経験は多いはずです。pandas の to_...
datetime64 型の列を持つ DataFrame では、dt アクセサを使って年・月・日・曜日などの情報を手軽に取り出せま...
CSV と並んでよく使われるデータ形式に JSON があります。Web API のレスポンスや設定ファイルなどで広く使われており...
pandas は SQL データベースとの連携機能を備えており、SQL を書いてデータを取得したり、DataFrame をテーブ...
DataFrame に新しい列を追加するとき、直接代入する方法がもっとも一般的ですが、assign メソッドを使うとメソッドチェ...
pandas のメソッドチェーンが長くなると、途中の処理が読みにくくなることがあります。pipe メソッドを使えば、独自の関数を...
条件に応じて値を書き換えたいとき、apply でラムダ式を書くことが多いかもしれません。しかし pandas には where ...
DataFrame の列にリストが格納されていることがあります。たとえばタグや複数カテゴリなど、1 つのセルに複数の値が入ってい...
時系列データの分析では、移動平均のほかに累積統計量や指数加重移動平均を計算したい場面があります。pandas の expandi...
数 GB を超える CSV ファイルを丸ごと読み込もうとすると、メモリ不足でエラーになることがあります。pandas の rea...
CSV はテキストベースのフォーマットなので、ファイルサイズが大きくなりがちで、読み書きの速度も遅くなります。Parquet(パ...
groupby で集計するとき、sum や mean だけでなく複数の統計量を同時に計算したい場面があります。pandas の ...
2 つのカテゴリ変数の組み合わせごとに集計したいとき、pivot_table を使う方法が一般的ですが、pandas の cro...
データの中から上位や下位の値を取り出したいとき、sort_values してから head を使う方法が一般的です。しかし pa...
データの中に極端な外れ値が含まれていると、集計や可視化の結果が歪んでしまうことがあります。pandas の clip メソッドを...
















