1枚の写真から、AIはどこまで「撮影場所」を特定できる? 「東京駅」から「何の変哲もない住宅街」まで試してみた結果
亡くなった先祖が残した荷物を整理していたところ、どこで撮影したかわからない古い景色の写真が出てくるというのはよくある話。撮影場所を特定しようにも、デジタルデータと違って位置情報が埋め込まれていないため、前後に撮影された写真や日記と併せて撮影当時の状況を推定できなければ、正確な場所を割り出すのは事実上不可能です。
もっとも近年はインターネットの普及と画像検索ツールが登場したことで、ある程度著名なランドマークであれば、他の人が撮影した写真と見比べることで、場所の特定が可能になりました。さらに現在普及しつつある生成AIでは、こうした写真をアップロードすることで、撮影場所を一発で特定することも不可能ではなくなりつつあります。
今回は、代表的な4つの生成AI、Google「 Gemini 」、OpenAIの「 ChatGPT 」、Microsoftの「 Copilot 」、Anthropicの「 Claude 」に、米国の一部の州で警察が捜査用ツールとして導入している撮影場所検出ツール「 GeoSpy 」を加えた5つのサービスを用い、1枚の写真から撮影場所がどの程度特定できるのかを検証してみました。
なおいずれのツールも、検索枚数の超過により有料契約が必要となった場合を除き、原則として無料版のまま使用しています。また以下に紹介するスクリーンショットは画面の文字を翻訳している場合があります。
まずは「東京駅」で小手調べ
今回は7枚の写真を用意し、各ツールによる撮影場所の検出結果を比較します。まずは小手調べということで、日本を代表する著名なランドマークである「東京駅」を試してみました。
万一これを間違えるようでは存在意義が問われかねませんが、初歩の初歩といったレベルゆえ、さすがにどのツールも間違えることはありませんでした。海外ツールの「GeoSpy」以外は、東京駅の「丸の内駅舎である」ことにも触れられています。
またどのツールも、赤レンガや周囲の高層ビルといった特徴にも言及しており、分析が個別の要素にまできちんと及んでいることが分かります。このほかツールによっては建築が1914年で、国の重要文化財であるなど、より詳しく知りたい人のための補足情報も記載されています。
「藻」が特徴の公園では、ツールごとに明暗
続いては、東京都武蔵野市・三鷹市の井の頭公園にある「井の頭池」。季節によっては藻が異常繁殖し、異国のような風景になりますが、同じような状態になる池は全国(あるいは全世界)にあることから、それをどこまで見抜けるかがポイントになります。事実、回答はツールによって見事に分散する結果になりました。
正しく井の頭公園と回答したのは「ChatGPT」と「Claude」で、「Claude」についてはファイルの作成日である9月が藻の発生時期と一致すると回答してきました。ファイル作成日を判断材料に使うのはアナログ写真をスキャンしたデータであれば無意味ですが、今回のようなケースで裏付けに使うのであればありでしょう。
まったく異なる回答をしてきたのが「Gemini」(静岡の柿田川公園と回答)、および「Copilot」(長野県の御射鹿池と回答)で、どちらも自信満々な口調ながら間違っているのが困りものです。単一のツールしか使っていなければ、これを事実として信じ込んでしまう危険があります。
また海外ツールの「GeoSpy」は特定困難であると前置きしつつ、ニューヨークのセントラルパークなど複数のスポットを有力候補として提示してきました。このように、最終的に正解ではなくとも、判断条件とともに候補を提示してくれるのは、極めて有用と言えます。実利用で役に立つことは間違いありません。
「Gemini」のみが正解した「歴史的な建物」とは?
続いてはこちら。
1フロアに3戸がYの字に配置された特徴的な外見を持つ集合住宅、通称「スターハウス」です。昭和30年代に多く作られた住棟ですが現在は数も減り、この写真にあるのは東京都北区の旧赤羽台団地に現存する、国の登録有形文化財に指定されている物件です。
こうした背景事情が分かっていれば、正解を導き出すのはある程度容易と考えられますが、「ChatGPT」はこうした情報を持ち合わせていないようで、外見から日本の集合住宅や学生寮の可能性が高いとだけ回答。「Copilot」も同様で、こちらはデザインを理由に新しめの中層マンションというピントのずれっぷり。海外ツールの「GeoSpy」も、日本の現代的な住宅である以上は特定困難との回答で、正解は「Gemini」のみでした。
注目すべきは「Claude」で、特定は困難としながらも、同潤会アパートのような古い施設に見えることから、古い団地を保存した施設である可能性を提示し、実際の管理者であるUR都市機構が保存した団地である可能性を指摘するなど、ほぼ正解と言ってよい回答を出してきました。
たとえ完全な解でなくとも、このように思考の流れを見せてくれることは、利用者にとっても非常に役に立ちます。
AIにガンダムの違いは分かる? 「ひっかけ問題」で試してみた
次はご存じ「ガンダム立像」です。といってもお台場のユニコーンガンダムではなく、三井ショッピングパーク ららぽーと福岡に設置されている「RX-93ffν(ニュー)ガンダム立像」です。
同じ実物大ガンダムでも違いを見分けられるかどうかという引っかけ問題ですが、実際に引っ掛かったのは海外ツールである「GeoSpy」が、かつて横浜に設置されていた「動くガンダム」と誤って回答しただけ。それ以外はすべて正解でした。
各ツールの回答を見ると、νガンダムの横に写っているららぽーとやユニクロ、GUのロゴを有力な手がかりとして用いているようです。念のためそれらが写らないようトリミングして再検証しても、各ツールの回答が変わることはありませんでした。ガンダム顔ならどれも同じに見えるというレベルの回答でないことは評価できます。
Copilotは「縦読み」が苦手?
現存しない建物はどうでしょうか。今回は2020年に閉店した兵庫県神戸市の「東急ハンズ三宮店」の写真を検証してみました。
同店を撮影した写真はSNSを中心に多数現存しているとはいえ、その閉店時期は今回検証している各ツールが登場するよりも前であり、さらに現在は解体されているとあって、遡って判定できるかは気になるところです。
しかし実際にはこうした懸念は無用だったようで、「Gemini」および「ChatGPT」は閉店日の情報まで引っ張ってきているほか、「ChatGPT」と「Claude」は、背景の山々が六甲山系であることも見抜くなど、周辺要素も含めて完全正解でした。
さらに「GeoSpy」は、垂れ幕にある「ありがとう、神戸。」というフレーズに着目し、三宮店であることを的確に見抜くなど、海外ツールとは思えない的確な分析を見せています。
こうした中で唯一間違えたのが「Copilot」でした。
「東急百貨店 さっぽろ店」であると判断したポイントの1つに、背景の山並みが札幌の特徴と一致しているほか、周囲の街並みが札幌駅前の雰囲気と一致しているという、的外れも甚だしい根拠を挙げています。垂れ幕のテキストをきちんと読み取っていれば少なくとも神戸であることは外さなかったはずで、縦書きが読み取れないのでは? と疑わざるを得ません。
ほぼ「手がかりゼロ」の風景写真、正解できたのは……
続いては、北海道の根室から標津町へ移動する途中、海岸沿いから東方向のオホーツク海を撮影した写真です。
見た目にはただの海岸線の写真で、水平線の向こうに島が写っているという程度でしかなく、今回紹介している写真の中ではもっとも手がかりが少ない写真です。ちなみに遠方の島は北方四島のひとつである国後島か、もしくは手前にある野付半島のいずれかと考えられます。
これが北海道だと一発で見抜いたのは「Gemini」でした。場所こそ根室ではなく稚内とやや離れているものの、右手前のテトラポッドの配置や手前のササやススキに着目して北海道沿岸部であると判断し、かつ遠方の島々がサハリンである可能性を提示するなど、分析能力の高さが感じられます。撮影場所の可能性として挙げている238号線は今回の撮影場所である244号線の先につながる国道であり、正解ではないにせよかなりハイレベルなニアミスです。
一方で、こうしたいくつかのヒントにはたどり着きながらも、北海道であると見抜けなかったのが「ChatGPT」「Copilot」「Claude」で、後ろ2つはどちらも日本海側の可能性が高いとして新潟を候補に挙げていますが、いずれも不正解です。その点、テトラポッドの特徴から北海道の沿岸だと見抜いた海外ツール「GeoSpy」は、なかなか優秀といえます。
「何の変哲もない住宅街」で試してみると……
最後にいわゆるランドマークとは異なる、何の変哲もない住宅街の写真をアップしてみました。静止画ベースの情報がネットに一切上がっていないであろう名もない一般住宅が、これらのツールでどこまで特定可能なのかは気になるところです。ちなみに所在地は兵庫県尼崎市です。
結果から言うとどのツールも不正解だったのですが、電柱の看板に名がある不動産業者が近畿圏で展開していることから、所在地が関西地方であると指摘したのが「Gemini」と「ChatGPT」です。
「Gemini」はさらに踏み込んで具体的な場所を提示してきましたが、こちらはまったくの的外れでした。試験でヤマを張ってくるかのようなGeminiの回答は、正直あまり印象はよくありません。
一方で「Copilot」は、電柱電線の密度が高いなどの複数の理由を挙げつつ、関東の郊外〜都市近郊という見当違いの結果を出すなど、観察力はあるもののそこから導き出される結果が的外れという、これまでと似た傾向を示しています。
こうしたツールと比較して、確証がなければ結論を出さずに保留にとどめておく「Claude」のほうが、より誠実な印象を受けます。
もし「1つだけ」ツールを選ぶとするならば、おすすめは?
以上のように、多数の写真を読み込ませてテストすると、ツールごとにかなりの性格の違いがあることがお分かりいただけると思います。ざっと特徴をまとめて本稿の締めとしましょう。
「Gemini」「ChatGPT」は、人の目では見落としがちな写真内の細かい要素に着目し、ズバリ正解を提示してくることもしばしばなのですが、自信満々に回答しておきながらまったくの的外れであることも多く、唯一のツールとして使うのは少々問題がある印象です。たとえ確率が低くてもアバウトさを許さず決め打ちしてくるのは、真実を知りたい場合には若干不向きのように感じられます。
一方で「Claude」は、前出の2つに比べるとやや地味ですが、観察力が高く、なぜそのように判定したかを事細かに提示してくれるため、たとえ正解が導き出されなくとも納得みがあり、最終的に人力での解決につながりやすいのが特徴です。前述の2つと違い、回答にどれくらいの根拠があるのか、文体から察知しやすい点も、信頼が置けるポイントです。
これら3つに比べて性能的にワンランク劣るのが「Copilot」で、いくつもの根拠をきちんと提示しながら、それらを積み上げて正解を出す過程で優先する情報の重み付けを間違えた結果不正解になるという、かなりのうっかりさんという印象です。学生に例えると、きちんと勉強はしているものの、どこかに抜けがあってテストでは点が取れない、そういった性格が見て取れます。
侮れないと感じたのが海外ツールの「GeoSpy」で、ユーザが写真以外の手がかりを持っていることを前提に、可能性が高いものから順に提示し、最終的にユーザに選ばせるという意味では、もっとも間違った回答が出にくいツールと言えます。今回試用したのは無料版ですが、各地のローカル情報を学習している法人版はより多くの情報を備えているはずで、将来的にこれらが無料版にフィードバックされれば脅威となりそうです。
以上のことから、もし筆者が写真の素性を探るに当たり、どれか1つだけツールを選べと言われた場合、「Claude」を選択するというのが本稿の結論になります。また複数のツールを選べるのならばこれに「Gemini」「ChatGPT」を加え、3つでクロスチェックを行えば、より効率的に正解を導き出せるはずです。
これらのツールはどれも登場から間もなく、今後データが蓄積していくに従って、より性能が向上することは間違いありません。2026年3月の執筆時点では以上のような結果となりましたが、しばらく経つと性能が格段に向上し、ツールの序列もまたガラリと変化していることでしょう。今後楽しみなジャンルと言って間違いなさそうです。
