初心者が挑戦するデータ分析!「Python実践データ分析100本ノック」を元野球部が紹介!

プログラミング

今回は、データ分析やpythonに関してほぼ初心者ですが、野球は得意な私が「Python実践データ分析100本ノック」という本を読んで、実際にコーディングしてみました。

この記事では「Python実践データ分析100本ノック」の紹介をしたいと思います!

初心者が挑戦するデータ分析!「Python実践データ分析100本ノック」を元野球部が紹介!

なぜこの本を手に取ったのか

私は、読書が好きでした。しかし、近頃本を読むばかりで、情報をうのみにしてしまって、何も頭に入ってこない状態だったんですね。

そこで、より本を理解するためにも深い分析だったり、考察をする力が大事だと思いました。

そのためにも、数学やデータ分析の能力が必要である!と感じていました。

しかし、ただ数学の問題を解いたりするだけじゃ、やる気は出ないと思ったんですね。

そこで、プログラミングを使った実践的なデータ分析を学んでみようということになり、大学の図書館にあった「Python実践データ分析100本ノック」を手に取りました。おそらく、高校まで野球をしていいたため、100本ノックという言葉につられたというのも理由かもしれません(笑)。

この「Python実践データ分析100本ノック」の本は、実際にビジネスで使えるような知識を詰めこんだ本になっています。プログラミングやデータ分析の初心者が、スキルを着実に築いていくための素晴らしい指南書だと思いました。その理由として、

・Google Colaboratoryを使えば、特別な環境構築は不要

・サンプルプログラムが用意されているため、エラーで挫折することがない。

といったことがあげられます。

実際に、Google Colaboratoryという環境を使ってすんなりプログラムを試すことができました。たいていのプログラミングでは環境構築に時間がかかり、手っ取り早くプログラミングしたいのにできなくて、ストレスがたまることがあります。しかし、この本では環境構築の手間がないために初心者の人にはとくにおすすめな本だと思いました。

以下では、私が1章から読んで、学んだことを書いていきます。

1章: データ読み込みと処理の基本

初めてデータ分析を学ぶ方にとって、1章は非常に重要です。ここで紹介される基本的な操作は、データ分析の基盤となります。

  • CSVファイルの読み込み: pd.read_csv関数を使って、簡単にデータを開始することから始めました。
  • データの結合: pd.concatpd.mergeを使って、データ変数を結合。例として、左外部結合が詳しく解説されています。別のCSVファイルにデータが格納されてあり、それぞれのデータを結合したい時に使います。例えば、売上表と商品表のデータが格納されてあり、売上表にある商品の値段がしりたい時に、商品表から値段引っ張ったりだすときなどに使います。
  • 新しい列の追加と検算: 価格計算や欠損値チェックなど、データの整合性を保つための重要なスキルです。例えば、合計金額を出したいけど、あるセルに何も入力がないといった場面はプログラムでとりあえず0円としておくことで、うまく合計金額を出せます。
  • 基本的なデータ分析: 統計量の取得、groupbypivot_tableを使った集計など、データの全体像を把握する方法を学びました。ざっくりとした統計量を知っておくことで、次に何を分析するかを知ることができ、分析がはかどるようです。
  • データの可視化: plt関数を使った分かりやすい可視化。グラフによる表現がデータの理解を深めます。

2章: 欠損地やデータの揺れといった「汚いデータ」の処理技術

現実世界のデータは決して綺麗ではないとのことです。例えば、A商品についての打ち間違いで

a商品

A 商品

といったようにしてしまうと、A商品として集計したいはずが別の商品として集計されてしまいます。例えば、野球でいうとグラウンドの状態が悪く、ボールが不規則にバウンドして、エラーをしてしまう感じです(笑)。よくあるパターンです。

普段の業務では、入力ミスによるデータの揺れが多いとのことです。

2章では、欠損値やデータの揺れなど、「汚いデータ」をどう処理するかの方法に焦点を当てています。

「汚いデータ」を修正することは、データ分析の基本。この章で学ぶテクニックは、現場での実務にも直結するとのことです!

3章以降では、顧客の行動(利用した期間、退会率)などを予測する機械学習や物流に関するアルゴリズムを学びます。

本の特徴と対象者

「Python実践データ分析100本ノック」は、実務で役立つ100の問題を通じて、データ分析の実践的なスキルを習得するための教材です。各章でテーマごとに、具体的なビジネスの問題に関するデータをもとに学ぶことができます。

対象者は、データ分析・Pythonの初心者でも大丈夫そうですし、中級者の方もPythonの具体的なこの本から新しい発見などがあるかなと思いました。

まとめ: この本が初心者におすすめの理由

「Python実践データ分析100本ノック」は、データ分析の世界への入り口として、また現場でのスキルアップとして非常に価値がある一冊です。具体的な100の問題は、手を動かして実践的に学べるので、とても分かりやすいです。サンプルコードも添付してあるので、初心者のかたでもコピぺをすれば入力の時間をかけずにスラスラと進めることもできます。

とくに初心者であれば、プログラミングのモチベーション管理が大事だと思います。この本は、「100本ノック」とも書いてあるように、一本のノックを受けるたびに達成感を感じることができ、モチベーションを保ちやすいかと思います。

また、既に一定の経験を持っている方も、本書の中の応用的な部分から新しい学びを得ることができると思います。野球のノックでいうと、台風の日のようにボールがどこに行くか分からないような楽しいノックを受けることができます。

終わりに

この本を読んで、以外にもデータサイエンスは数学的な側面だけでなく、分析するためにデータ収集をしたり、分析しやすいようにデータ加工をしたりすることのほうがむしろ大事だと思いました。

今まで、「データサイエンスとか機械学習とかできる人はかっこいい。」とか思っていましたが、この本を読んで、データサイエンスや機械学習に入る前にいかに「きれいなデータ」を取得できるか、ということが大事かに気づかされました。私は、そこまで数学が得意なわけではありません。そのためデータサイエンスをするための基盤を作る人を目指すという方向も価値があり、十分活躍できるなと思いました。

以上、読んでいただきありがとうございました。

また、プログラミングの挫折は多いです。もし、挫折をした方がいれば、私と同じです。

プログラミングの挫折をしないような対策をたてておきましょう!

コメント

タイトルとURLをコピーしました