koulab

技術系のメモ

CAPTCHAなしでパーソナライズされてないGoogle検索結果データを無限に取得する方法

小ネタです。

GoogleスプレッドシートにあるIMPORTXML経由であればCAPTCHAなしで無限に検索結果のデータを取得できます。

例として A列にキーワードB列に検索結果上位1件のURLを取得するコードです

=SUBSTITUTE(IMPORTXML("http://www.google.co.jp/search?hl=jp&gl=JP&q="&A2,"(//a[contains(@href,'/url?q=')]/@href)[1]"),"/url?q=","")

f:id:dmca:20190920172248p:plain
GoogleスプレッドシートでGoogle検索結果取得

GAS使えば、色々できそうです。