SynologyのNAS上でDockerを動かしてPython×seleniumのスクレイピングを定期実行する

seleniumを使ったスクレイピングは非常に便利ですが、毎日定期実行するとなると必要になるのは実行環境。

手元のパソコンで動かしても良いんですが、やはりパソコンは電源を切ることもあるしあまりローカルの環境汚染もしたくない。

そこで思い立ったのがSynologyのNAS上でプログラムを毎日自動実行することでした。

色々試行錯誤したんですが、DSM（SynologyのNAS上で動くLinuxベースのOS）ではyumやdnf、apt等のインストールコマンドが使用できず主にChromeのインストールに難航。

続けて思案していたらパッケージの中にDockerを発見し、「あれ？コンテナ建てればよくね？」と試してみたら無事成功しました。

この記事ではSynologyのNAS上でDockerを起動させ、Pythonコンテナを立ち上げselenium実行に必要な各種ソフトウェアのインストールを行い定期実行する方法を解説していきます。

SynologyのNAS上でDocker環境の構築ができる
SynologyのNAS上でPython+Seleniumを使ったスクレイピング方法がわかる
SynologyのNAS上でタイムスケジューラを使って定期実行する方法がわかる

SynologyのNAS上でDockerを動かすための前提環境
SynologyのNAS上にDockerをインストールしSSH接続できるようにする
1. SSH接続の設定
Dockerfileとテストファイルの準備
SynologyのNAS上でDockerイメージのビルドと実行
Synology DSMのタスクスケジューラでPython×seleniumを定期実行する
SynologyのNAS上でDockerを動かしてPython×seleniumのスクレイピングを定期実行するまとめ

SynologyのNAS上でDockerを動かすための前提環境

まず必要な前提環境です、残念ながら全てのSynology製のNASで実行できる訳ではありません。

SynologyのNASには入門機とも言えるJシリーズ、オールラウンドのValueシリーズ、家庭用の最上位モデルであるPlusシリーズがありますがDockerのインストールが行えるのはPlusシリーズのみです。

非公式にDockerをインストールする方法もあるようですが、責任を負えないため基本的にPlusシリーズを前提にお願い致します。

ちなみに僕はDS216j、DS218jと使用して現在はDS720+を愛用しています。

JシリーズやValueシリーズに比べ価格は上がりますが、普通に使っていても処理速度が段違いなので奮発してでもPlusシリーズにすることをおすすめします！

Synology ビジネス向け 2ベイオールインワンNASキットDiskStation DS720+ DS720+

created by Rinker

Synology

価格を抑えたいのであれば同じくPlusシリーズのDS220+もおすすめです。

Synology ビジネス向け 2ベイオールインワンNASキットDiskStation DS220+ DS220+

created by Rinker

Synology

ハードディスクはお馴染み、WesternDigitalの赤一択です。

WESTERNDIGITAL HDD 4TB WD Red NAS RAID 3.5インチ内蔵HDD WD40EFRX-RT2

created by Rinker

WESTERNDIGITAL

SynologyのNAS上にDockerをインストールしSSH接続できるようにする

まずはSynologyへのDockerインストールが必要になります。

これはとても簡単です、パッケージセンターでDockerと検索してインストールしておいてください。

これだけでDockerコマンドが使えるので特に設定等は必要ありません。

SSH接続の設定

Synologyのパッケージセンターを通してインストールしたDockerはGUIでも操作できますが、ここではコマンド操作が前提なのでSSH接続できるようにしておきます。

コントロールパネルの「端末とSNMP」タブ内でSSHを有効化しポートを適当に設定しておきます。

これで以下のコマンドでSSH接続できるはずです。

$ ssh <username>@<IP Address> -p <Port No.>

例）ユーザー名「tarou」、IPアドレス「192.168.1.10」、ポート番号「59876」の場合
$ ssh tarou@192.168.1.10 -p 59876

パスワードを求められるので入力してEnterすればシェルが表示されます。

Dockerをインストール済みであれば以下のコマンドでバージョンが返ってきます、返ってこない場合はインストールをしておきましょう。

$ docker -v
Docker version 20.10.3, build b455053

Dockerfileとテストファイルの準備

環境が整ったので、Dockerfile等の必要なファイルの準備を行います。

必要なファイル群のディレクトリ構成は以下の通りです。

python-selenium-test（ルートディレクトリ）/
　├ Dockerfile
　├ src/
　│　├ img/
　│　├ main.py
　│　├ requirements.txt
　│　└ date.txt
　└ start.sh

実際のプログラム実行に必要なソース類（Pythonファイル等）はsrcディレクトリにおいておきます。

ファイル/ディレクトリ名	用途
Dockerfile	dockerのレイヤ処理を記述したファイル
srcディレクトリ	プログラム実行に必要なファイル・ディレクトリを入れておくディレクトリ
imgディレクトリ	seleniumで撮影したスクリーンショットを格納するディレクトリ
main.py	実行されるPythonプログラム
requirements.txt	pipインストール時に使うパッケージリスト
date.txt	Pythonプログラム実行日時を出力するテキストファイル
start.sh	Synologyタイムスケジューラで使うシェルスクリプト

各ファイルの用途一覧

Dockerfile

使用するDockerfileは以下のように定義しました。

FROM python:3.10

WORKDIR /home/

COPY /src/ /home/

RUN useradd -r containeruser \
    && wget https://dl.google.com/linux/linux_signing_key.pub \
    && apt-key add linux_signing_key.pub \
    && echo 'deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main' | tee /etc/apt/sources.list.d/google-chrome.list \
    && apt-get update \
    && apt-get -f install -y google-chrome-stable fonts-ipafont fonts-ipaexfont python3-selenium \
    && pip3 install -r requirements.txt

CMD ["python3", "main.py"]

PythonにseleniumやChromedriverが同梱されているイメージも公開されているんですが、極力公式を使いたい（公開停止等のリスク回避）というのもあって公式のPythonイメージを使用しています。

RUNでフォントやselenium、Google Chromeのインストールを行い、COPYでDocker側に渡したrequirements.txtを基にpipでPythonパッケージのインストールを行っています。

ちなみにGoogle Chromeのインストールはまるっと以下のサイトを参考にしました、この場を借りてお礼申し上げます。

参考サイト

UbuntuでSeleniumを動かしてスクレイピングを行う【Python】 | ジコログ

Dockerに自信が無いなら書籍と動画で学習しよう

Dockerについて詳しくない、Dockerfileって何？という方は以下の書籍が体系的に勉強できてとても良かったです！

プログラミングを行う上でGitと並んで外せない知識がDockerなのでぜひこの機会に触れて頂けると良いかと思います。

さわって学ぶクラウドインフラ　docker基礎からのコンテナ構築

created by Rinker

スキマ時間を有効活用するなら動画→書籍の順で学習しよう

動画学習サイトUdemyでDockerを学習するなら「ゼロからはじめる Dockerによるアプリケーション実行環境構築」がおすすめです。

2万人以上の受講生がおり高評価を得ているベストセラー動画です、僕はこの「ゼロからはじめる Dockerによるアプリケーション実行環境構築」で雰囲気を掴んでハンズオンで学習し、細かい部分を書籍で補完するという方法でDockerの学習を行いました。

動画をとりあえず全部見て頭の中に「なにか聞いたことあるな」という記憶をつける
書籍で記憶を基に詳細を学習する

この順番なら書籍を見るたびに「あっ！これ動画で見た！」という進研ゼミさながらの効率的な学習ができるので非常におすすめです！

ゼロからはじめる Dockerによるアプリケーション実行環境構築 | Udemyを見てみる

main.py

Dockerコンテナ内で実行するPythonプログラムです。

今回はDockerの定期実行がきちんと行えているか確認するため、実行時刻をテキストファイルに書き出すというプログラムを作成しました。

seleniumの検証のため同時に現在時刻を表示してくれるTIME.ISさんにアクセスしスクリーンショットを撮影して、撮影時点の時刻のファイル名を付与して保存します。

また実際の実行時にも分かりやすいようにターミナル上にも現在時刻を出力しています。

執筆時当時は問題なく実行できましたが、2024年5月現在TIME.ISさんはスクレイピングによるアクセスを禁じているようで実行できません。
そのため実行する先は適宜ご自身の都合により選定してください。

import datetime

from selenium import webdriver
from selenium.webdriver.common.by import By

# アクセス先のURL
URL='https://time.is/ja/Tokyo'

# webdriverの設定
options = webdriver.ChromeOptions()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")
options.add_argument("--disable-gpu")

driver = webdriver.Chrome(options=options)

# 現在時刻を取得して日本時間に変換
now = datetime.datetime.now() + datetime.timedelta(hours=9)

# try~finallyを用いて必ずchromeが終了するようにする
try:
    # アクセス
    driver.get(URL)

    # TIME.ISのソース内に存在するtime_sectionがあれば処理を実行する
    if driver.find_elements(By.ID, 'time_section'):
        # 現在時刻を日本語表記でコンソールに出力
        print(now.strftime('%Y年%m月%d日 %H:%M:%S'))
        
        # date.txtを開いて現在時刻をstringで出力
        with open('date.txt', mode='w', encoding='utf-8') as f:
            f.write(str(now))
        
        # スクリーンショットを撮影してimgディレクトリ下に現在日時.pngのファイル名で保存
        driver.save_screenshot('img/' + str(now.strftime('%Y-%m-%d-%H-%M-%S')) + '.png')
finally:
    # webdriverを終了
    driver.quit()

TIME.ISさんのソースを見ると、time_sectionというIDがあったのでこれがあれば正常にアクセスできているというif分岐を入れています。

実際に使用する場合は事前に対象のWebサイトのソースを見て対象のidやclassが存在するかどうかでチェックをすると良いと思います。

options.add_argument("--disable-dev-shm-usage")
options.add_argument("--disable-gpu")

webdriverの2つのOptionsですが、前者は仮想ディスクを/dev/shmではなく/tmpに作成させるものです。

後者はGPUを無効化するOptionで、Dockerコンテナで動かす場合はこの2つを記述しないとseleniumがハングする事が多いので忘れずに指定しておきましょう。

requirements.txt

今回使用するパッケージはseleniumだけです。

selenium

SynologyのNAS上でDockerイメージのビルドと実行

準備が整ったのでビルドと実行テストを行います。

$ cd <Dockerfileがあるディレクトリ>
$ sudo docker image build -t python-selenium-test:latest .

これでビルドされます、パッケージのインストールや更新でかなり時間がかかるので気長に待ちましょう。

Successfully built 80f1a49608b8
Successfully tagged python-selenium-test:latest

こんな表示が出たらOK、続いて実行してみましょう。

$ sudo docker run --rm -it -v ${PWD}/src:/home python-selenium-test
2022年01月14日 00:15:52

現在時刻が表示されれば成功です！

date.txtの中身も見てみましょう。

2022-01-14 00:15:52.720053

実行時刻が出力されていれば大成功！

imgディレクトリの中にあるPNGファイル、ファイル名はdate.txtの日時になっており実際の画像にも撮影時点の日時が記録されています（datetime.nowで取得した時間と、seleniumでアクセスした時間に数秒の差はあります）。

Synology DSMのタスクスケジューラでPython×seleniumを定期実行する

最後にSynologyのDSM標準機能であるタスクスケジューラに先程のdocker runコマンドを定期実行するよう設定していきます。

シェルスクリプト作成

コマンド内で現在の階層をPWDコマンドで出力しているのでディレクトリ移動やsudoで動かすためのユーザーパスワードが必要なため超簡単なシェルスクリプトを書いて、シェルスクリプトからdocker runを動かすようにしたいと思います。

後述するタイムスケジューラのコマンド欄に直接書いても良いんですが、Dockerfileやsrcディレクトリと同じディレクトリ内で管理できた方が楽なのでシェルスクリプトに記述する方式を採用しています。

もし実行するコマンドを修正したくなってもわざわざタイムスケジューラの画面を開く必要はなく、シェルスクリプトを修正すれば良いので楽ちんです（馴染みのエディタで編集できるので・・・！）。

#!/bin/sh

# sudo権限でdockerを動かすためにSynologyユーザーのパスワードを記述
PASS=password

# Dockerfileがあるディレクトリを指定
cd /volume1/Work/Develop/docker/python-selenium/test
# sudo権限でdocker runコマンドを実行
echo $PASS | sudo -S docker run --rm -v ${PWD}/src:/home python-selenium-test

これをstart.sh等分かりやすい名前をつけてDockerfileがあるディレクトリに置いておきます。

注意点として、先程はdocker runコマンドに-itオプションを指定していましたがシェルスクリプト上では外しています。

タスクスケジューラで自動実行する場合勝手に始まって勝手に終わるので、-itオプションは必要ありません（というかつけたままだとエラーになります）。

パスワードは暗号化しておく

ここでは触れませんが、NAS内とはいえユーザーパスワードを平文で書いておくのはセキュリティ的にもよろしくないのでできれば暗号化しておくことをおすすめします。

main.pyを修正

コンソールを目にする機会はないので不要なprint文を削除しておきます。

最終的なPythonプログラムが以下の通りです。

import datetime

from selenium import webdriver
from selenium.webdriver.common.by import By

# アクセス先のURL
URL='https://time.is/ja/Tokyo'

# webdriverの設定
options = webdriver.ChromeOptions()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")
options.add_argument("--disable-gpu")

driver = webdriver.Chrome(options=options)

# 現在時刻を取得して日本時間に変換
now = datetime.datetime.now() + datetime.timedelta(hours=9)

# try~finallyを用いて必ずchromeが終了するようにする
try:
    # アクセス
    driver.get(URL)

    # TIME.ISのソース内に存在するtime_sectionがあれば処理を実行する
    if driver.find_elements(By.ID, 'time_section'):
        # date.txtを開いて現在時刻をstringで出力
        with open('date.txt', mode='w', encoding='utf-8') as f:
            f.write(str(now))
        
        # スクリーンショットを撮影してimgディレクトリ下に現在日時.pngのファイル名で保存
        driver.save_screenshot('img/' + str(now.strftime('%Y-%m-%d-%H-%M-%S')) + '.png')
finally:
    # webdriverを終了
    driver.quit()