意外と優秀だったGoogleのAI「Gemini」

視覚障害のある方からの相談で生成AIを使ってみることにした件のことです。

ある講座に参加した全盲のAさんが、同じ全盲のBさんに資料を送りたいとのこと。資料は紙のみなので、そのままBさんに渡しても資料の内容を把握することは難しいのでなんとかしたいというご相談です。

資料は一般的なスライドのようにテキスト中心のページもあれば、地図が描かれそこに無数の地名や施設が記されているもの、表でたくさんの情報が書かれているものなどさまざま。

ひとまずデジタル化しないと始まらないと思ったので、iPhoneでスライドをスキャン読み取りし、ひとつのPDFファイルとして成形。このPDFにOCRをかけて文字情報を検出させたPDFに。

このPDFファイルをChatGPTに読み込ませて、資料の要約と文字起こしを試みてみました。

途中まで順調に進んでそうだったのですが、データ量や文字数が多かったためか途中でエラーを繰り返し、結局スライドの最後までは要約・文字起こしができませんでした。

どうしたものかと次に試したのがGoogleの生成AI「Gemini（Advanced）」。あまり期待していなかったんですが、こちらは何度か処理を区切りつつもなんとか最後のスライドまで読み込み、要約と文字起こしを出力することができました。Geminiすごい。

プロンプトやいろいろな使い方によっても結果や出力は異なると思うんですが、今日のところはGeminiに軍配。いろいろ使ってみるもんだな生成AIと改めて思ったりの日でした。

関連記事一覧

2019.12.13

2019.01.09

2018.01.07

2021.11.23

2025.04.06

2020.06.03

2018.07.05

2019.04.19