Indeedから取得した内容を、A3RTのProofreading APIに突っ込むとメディア毎にalertが何個でるのか調査

A3RTの中で「Proofreading API」というのをリクルートがだしている。文章の校正などに役立てる見立てだと思われます。また実用フェーズに入っているのかな?と思い興味を持ちました。

やりたいこと

  1. Indeedに掲載している求人情報をメディア毎に収集(20件ずつ)
  2. DataFrame化したあとに、Proofreading APIへ投げる
  3. メディア毎に集計してグラフ化

用意するもの

Jupyter notebook
pandas
json
requests
matplotlib
BeautifulSoup
tqdm
Proofreading APIのAPI KEY

できたもの

Jupyter NotebookのHTML
GitHub

1. Indeedに掲載している求人情報をメディア毎に収集(20件ずつ)

まずBeautifulSoupでIndeedから求人情報を抜きます。Indeedのhref属性を取得してリスト化する関数は以下です。ただ、今回もasciiのエンコードにハマってしまいました。

日本語URLでハマった時に参照した記事
http://qiita.com/mix/items/87d094414e46f857de45

いよいよA〜Eの求人情報のリンクリストを生成。実際は、アルバイトで有名な5社の名前を入れました。

次は作ったlink_dataを使って求人情報のテキストをCSV化していきます。

2. DataFrame化したあとに、Proofreading APIへ投げる

ProofreadingのAPIからGETでjsonを取得、alertsに格納されているリストの数を数えつつ、DataFrameに「アラート」を作って、それぞれの情報に数を格納していきます。

アラート
count 99.000000
mean 16.848485
std 7.559780
min 5.000000
25% 11.500000
50% 15.000000
75% 21.000000
max 42.000000

一個あたり、alertが17個あって案外多いという感じです。

3. メディア毎に集計してグラフ化

A〜Eのdf[‘アラート’]をdf[‘メディア’]毎にgroupby()でくくって、pandasでplot。各社毎に特徴がでました。B社に感しては極端に少なかったのが意外でした。

この記事に関連する記事