koulab

技術系のメモ

スクレイピング

ChromeDriverを使ってPHPでヘッドレスで安定にスクレイピングする

この記事のゴール:Google検索をして最初の検索結果のページをクリックしてアクセスを自動化する 環境構築 以下のライブラリを使用します。 https://github.com/php-webdriver/php-webdriver composerパッケージ名はphp-webdriver/webdriverです。 ※facebook…

Amazon Seller Centralでアップロードによる一括商品登録のアップロードステータスの確認のxlsxファイルをJavaから読み出す

Apache POI https://poi.apache.org/ maven <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.1</version> </dependency> <dependency>…</dependency>

CAPTCHAなしでパーソナライズされてないGoogle検索結果データを無限に取得する方法

小ネタです。 GoogleスプレッドシートにあるIMPORTXML経由であればCAPTCHAなしで無限に検索結果のデータを取得できます。 例として A列にキーワードB列に検索結果上位1件のURLを取得するコードです =SUBSTITUTE(IMPORTXML("http://www.google.co.jp/search?h…

コピペできないPDFをtesseractでテキストファイルとして文字を出力

音声読み上げが必要なユーザ向けのTIPS 官報のPDFなどを文字起こし。 tesseract+imagickで実現可能 Fedora29+tesseract CentOSの場合はyum install epel-releaseからyum install tesseract dnf config-manager --add-repo https://download.opensuse.org/rep…