Gemini(Bard)にアップロードできるファイルの種類は?
Googleの生成AIであるGemini(Bard)で扱えるファイルの種類について解説。画像や動画、音声などのファイルがBardで使えるのか紹介します。
Gemini入門コースを公開
Geminiを学べるコースを公開しました🎉無料で学ぶことができます。興味のある方はぜひ!
【結論】Bardにアップロードできるファイルは画像のみ
※2024年2月9日からBardはGeminiに名称変更へ
現時点でBardにアップロードできるファイルは画像に限定されます。
JPGやPNG、WebPが対応しています。なお、AVIFは対応していません。
ファイルと言っても様々な種類がありますよね。PDFや動画、音声は現時点で対応していません。
冒頭で「現時点で」と注釈を入れたのは、今後のアップデートで対応ファイルが増えていくと予想されるからです。
動画や音声をアップロードして、その内容を理解させる日もそう遠くないと考えています。
PDFは対応していない
PDFは非対応と聞いて「おや」と思った人もいるかもしれません。私も意外と思いましたが、Bardは現時点でPDFに対応していません。
PDFをアップロードしようとしても選択できません。
BardでPDFを取り扱う場合、PDFをアップロードしているURLを渡すことで内容を理解させることができます。
つまり、ローカルに保存しているPDFファイルをアップロードすることはできませんが、どこかのサーバーにアップロードされて公開されているPDFはURLを渡すことで認識させることができます。
試しに政府が作成している少子化に関する報告書(PDF)を渡しましたが、問題なく内容を認識しています。
例えば、海外で公開されているPDF論文を翻訳→要約させるといった使い方も可能です。
動画ファイルは対応していない
MP4やmovなどの動画ファイルをアップロードすることはできません。
動画ファイルをアップロードできるようになれば、AIに動画の内容を認識させて要約させるといった使い方もできそうです。海外の動画でも要約→翻訳ができそうです。
Youtube連携なら動画の要約、翻訳が可能
手元のパソコンからYoutubeをアップロードすることはできませんが、Youtube動画のリンクから動画を認識させることは可能です。
これはBardの拡張機能で実現できます。
Extentionsとも呼ばれますが、Youtube動画のリンクを渡すだけで動画を要約したり翻訳することが可能です。
Bardのトップ画面にアクセスすると画面右上に「拡張機能」のアイコンが表示されています。
次の画面では実装されている拡張機能が一覧で並んでいます。ここからYoutubeをオンにすればOK。
音声ファイルも対応していない
次に音声ファイルですが、こちらも現時点で対応していません。
会議の音声ファイルをアップロードして文字起こしが出来れば便利ですが..実装され次第、当サイトでも共有したいと思います。
XではAIの最新ニュースやプロンプト、活用アイデアを発信しています。フォローよろしくお願いします!(@robothink_jp)
無料で学べるAIスキル、ロボシンク
ロボシンクは4,000名超が学ぶAI学習サービス。無料のコースで生成AIを学べます。AIの学習を開始しましょう🚀