ドラマ視聴率をmatplotlibでグラフ化

過保護のカホコを視聴するのが毎週楽しみで見ています。主人公カホコの成長が毎回微笑ましく、少し泣ける内容になってると感じます。できれば自分が好きなドラマは高視聴率であって欲しいものの、実際どうなんだろう?ということで、今回はドラマの視聴率推移をグラフ化してみます。

やりたいこと

  1. 2017年7〜9月期のドラマ+「逃げ恥」の視聴率をDataFrame化
  2. matplotlibでグラフ化

用意するもの

Jupyter notebook
pandas
matplotlib

出来上がったもの

Jupyter NotebookのHTML
GitHub

1. 2017年7〜9月期のドラマ+「逃げ恥」の視聴率をDataFrame化

まず利用させていただいたページは下記二つ
https://artv.info/ar1707.html
https://artv.info/ar1610.html
こうしたTableデータからDataFrameを作るのは簡単。まずTableをコピーし、pandas.read_clipboard()するだけ。下の動画を参照してもらうとわかる通り、早い。スクレイピングは必要ないです。

あとは単純、7〜9月期のドラマ視聴率一覧DataFrameと逃げ恥DataFrameを結合して、csvに保存。

続きを読む

Indeedから取得した内容を、A3RTのProofreading APIに突っ込むとメディア毎にalertが何個でるのか調査

A3RTの中で「Proofreading API」というのをリクルートがだしている。文章の校正などに役立てる見立てだと思われます。また実用フェーズに入っているのかな?と思い興味を持ちました。

やりたいこと

  1. Indeedに掲載している求人情報をメディア毎に収集(20件ずつ)
  2. DataFrame化したあとに、Proofreading APIへ投げる
  3. メディア毎に集計してグラフ化

用意するもの

Jupyter notebook
pandas
json
requests
matplotlib
BeautifulSoup
tqdm
Proofreading APIのAPI KEY

できたもの

Jupyter NotebookのHTML
GitHub

1. Indeedに掲載している求人情報をメディア毎に収集(20件ずつ)

まずBeautifulSoupでIndeedから求人情報を抜きます。Indeedのhref属性を取得してリスト化する関数は以下です。ただ、今回もasciiのエンコードにハマってしまいました。

日本語URLでハマった時に参照した記事
http://qiita.com/mix/items/87d094414e46f857de45

続きを読む

[1964〜2016年]100m走シーズン記録変遷をグラフ化

ボルトがラストラン(100m x 4リレー)で足首をひねり失格。同じ年で頑張っているアスリートが次々と引退していく昨今で、少し物悲しさが残る結果になりましたね。今日は100m走を題材にPandas学習していきます。

やりたいこと

  1. 100m走シーズン記録のデータフレーム化
  2. 100m走シーズン記録のグラフ化
  3. (おまけ)100m走シーズン記録の動画を検索&インライン表示

できたもの

必要なもの

  • matplotlib
  • YouTubeAPIのアカウントKEY

1. 100m走シーズン記録のデータフレーム化


100m走が気になって、Wikipediaを読んでいたら100mのシーズン記録がtableで載ってました。こういった整形されたデータはデータフレームに変換しやすいので、やってみることにします。

続きを読む