Skip to content

日向坂46のブログから画像をスクレイピングするRuby製のCLIツールです。

License

Notifications You must be signed in to change notification settings

kisuisou/hinatazakaBlogCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

hinatazakaBlogCrawler

Description

日向坂46の公式ブログから任意のメンバーの画像をスクレイピングするRuby製のCLIツールです。

CLIツール部分にThor、スクレイピングにはMechanizeを使用しています。

cron等に設定すれば定期的なスクレイピングも可能です。

Dependency

Ruby 2.7.1
SQLite 3.31.1
gem
  • Thor 1.0.1
  • Mechanize 2.7.6
  • sqlite3 1.4.2

Usage

gemのインストール

$ gem install thor mechanize sqlite3

スクレイピングするメンバーの選択とDL先のディレクトリの設定

$ ruby main.rb add
スクレイピングを行うブログを追加します。
メンバーの左に書かれた番号を入力してください。
1):潮紗理菜
2):影山優佳
3):加藤史帆
4):齊藤京子
5):佐々木久美
6):佐々木美玲
7):高瀬愛奈
8):高本彩花
9):東村芽依
10):金村美玖
11):河田陽菜
12):小坂菜緒
13):富田鈴花
14):丹生明里
15):濱岸ひより
16):松田好花
17):宮田愛萌
18):渡邉美穂
19):上村ひなの
20):髙橋未来虹
21):森本茉莉
22):山口陽世
--->8
写真をDLするディレクトリの絶対パスを入力してください
--->/hoge/fuga
メンバー:高本彩花
DLするディレクトリ:/hoge/fuga/
以上の内容で登録しますか?(y/n)--->y
データベースへの書き込みが終了しました。

DL先のディレクトリの変更

$ ruby main.rb edit
画像の保存先を変更します。どのメンバーの設定を変更しますか?
1):高本彩花
--->1
写真をDLするディレクトリの絶対パスを入力してください
--->/foo/bar
メンバー:高本彩花
DLするディレクトリ:/foo/bar/
以上の内容で登録しますか?(y/n)--->y
データベースへの書き込みが終了しました。

設定の削除

$ ruby main.rb delete
設定を削除します。どのメンバーの設定を削除しますか?
1):高本彩花
--->1
高本彩花の設定を削除します。本当に削除しますか?(y/n)--->y
データベースから削除されました。

スクレイピングの実行

$ ruby scrape.rb
I, [2020-08-22T02:00:13.861128 #1628]  INFO -- : Scraping was successful:高本彩花

なお scrape.rb をcron等で定期実行すれば定期的なスクレイピングが可能です。

License

このソフトウェアはMITライセンスの下でリリースされます。LICENSEを参照してください。

About

日向坂46のブログから画像をスクレイピングするRuby製のCLIツールです。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages