Indeedから取得した内容を、A3RTのProofreading APIに突っ込むとメディア毎にalertが何個でるのか調査

A3RTの中で「Proofreading API」というのをリクルートがだしている。文章の校正などに役立てる見立てだと思われます。また実用フェーズに入っているのかな?と思い興味を持ちました。

やりたいこと

  1. Indeedに掲載している求人情報をメディア毎に収集(20件ずつ)
  2. DataFrame化したあとに、Proofreading APIへ投げる
  3. メディア毎に集計してグラフ化

用意するもの

Jupyter notebook
pandas
json
requests
matplotlib
BeautifulSoup
tqdm
Proofreading APIのAPI KEY

できたもの

Jupyter NotebookのHTML
GitHub

1. Indeedに掲載している求人情報をメディア毎に収集(20件ずつ)

まずBeautifulSoupでIndeedから求人情報を抜きます。Indeedのhref属性を取得してリスト化する関数は以下です。ただ、今回もasciiのエンコードにハマってしまいました。

日本語URLでハマった時に参照した記事
http://qiita.com/mix/items/87d094414e46f857de45

いよいよA〜Eの求人情報のリンクリストを生成。実際は、アルバイトで有名な5社の名前を入れました。

次は作ったlink_dataを使って求人情報のテキストをCSV化していきます。

2. DataFrame化したあとに、Proofreading APIへ投げる

ProofreadingのAPIからGETでjsonを取得、alertsに格納されているリストの数を数えつつ、DataFrameに「アラート」を作って、それぞれの情報に数を格納していきます。

アラート
count 99.000000
mean 16.848485
std 7.559780
min 5.000000
25% 11.500000
50% 15.000000
75% 21.000000
max 42.000000

一個あたり、alertが17個あって案外多いという感じです。

3. メディア毎に集計してグラフ化

A〜Eのdf[‘アラート’]をdf[‘メディア’]毎にgroupby()でくくって、pandasでplot。各社毎に特徴がでました。B社に感しては極端に少なかったのが意外でした。

ZoomやChatworkでファイル共有している方へ

リモートワークが一般的になってきた今「誰が」「どこで」「何を」ファイル共有しているのかしっかりと把握する必要があります。easyDBを利用すればセキュリティ上で安全なファイル共有をクラウド上で行えるだけでなく、ファイルのバージョン管理等も簡単にできます。
ZoomやChatworkでファイル共有するならセキュリティ上で安全なeasyDB
>>>リモートワーク時代の安全なファイル共有「easyDB」はこちら

この記事に関連する記事