感動的に使える記事。わかりやすい。
シンプルに文字だけ抜き出す方法の必要最小限の記載
Macのインストール方法
pip3 install beautifulsoup4
BeautifulSoupの改行対策。
BeautifulSoupの入出力の文字変換。
画像ファイルのダウンロード方法。
beautifulsoupに読み込んだ時点で、textをcontentに変更すると文字化けは起きない。
この段階で変えないと以降で面倒になる。または、対応ができなくなる。
サイトのリンク先からも情報を取る。
BeautifulSoupとSeleniumの使い方の比較にも役立つ。やった。
Pythonでのインストール方法もやった。
MacでSeleniumを使うとセキュリティ的にエラーになるので対策が必要。やった。
わかりやすい。基本からある。参考に。
Seleniumの便利関数。参考に。
Chromeのインストール、brew版。やったが、今回関係があったか不明。
Chromeのドライバー変更。やったが、今回関係があったか不明。
requestsは相手のサーバーが遅いとタイムアウトエラーになるので、あらかじめタイムアウト時間を設定しておく。
requestsの次に取れる方法としてrequests-htmlではあったが、
効果はなかった。