2023年12月7日、Googleの新しい生成AI、「Gemini」が発表されました。今回はGeminiの概要から使い方、何ができるのかなどを確認していきましょう。またBardやGPT-4と比較した性能の違いや、Googleの生成AI「Bard」との関係性についてもご紹介します。ぜひ最後までご覧ください!
◎2024年2月16日、最新モデル「Gemini1.5」について追記しました。
◎2024年2月9日、Googleの生成AIツール「Bard」は「Gemini」にブランド変更されました。(旧Bardでの会話の履歴は残存)
目次
Geminiとは?
Gemini(ジェミニ)とは、Googleによって自然言語処理のタスクに対応するために開発された先進的なAIモデルです。以前は「Bard」として知られていたGoogleのAIチャットツールが「Gemini」にブランド変更され、機能が強化されました。
Geminiは、テキストの生成やリストの作成、計画立案、対話型の会話を通じた新しい知識の獲得など、さまざまなタスクに対応可能です。またテキスト・画像・音声・動画・コードをシームレスに理解し操作できるマルチモーダルの生成AIです。
「マルチモーダル」とは、テキストや画像、音声などから複数の要素を一度に認識し、処理できる技術のことです。
参考:Google Japan Blog: Bard から Gemini へ:Ultra 1.0 とGemini アプリを発表
Geminiは日本語に対応してる?
Geminiは日本語を含む40以上の言語、230以上の国での利用に対応しています。
Geminiの始め方
Geminiを利用するには、Googleアカウントの登録が必須となります。Googleのログインページ[https://accounts.google.com/signin ]にアクセスして、新たなメールアドレスを取得するか、既存のアドレスを使用してアカウントを登録してください。
登録方法の参考サイト(Google公式):Google アカウントの作成
Geminiの使い方は以下の3通りご紹介します。
- AIチャットGemini(旧Bard)で使う方法
- Google CloudのAI Studioで使う方法
- スマホ版Geminiアプリで使う方法
順番に見ていきましょう。
Geminiの使い方(1)AIチャットGemini(旧Bard)で使う
Googleにログインしている状態で、Gemini[https://gemini.google.com/app ]にアクセスすることですぐに利用できます。
入力フォームに質問や指示を入力し送信することで会話を開始できます。
メッセージのテンプレートがいくつか表示されますので、何を送るか迷ったらこちらをクリックしてみると良いでしょう。
その他の基本的な機能は以下の通りです。
①会話の履歴を見る
会話の履歴が自動で保存されています。複数のチャットで同時進行で会話を続行できます。
②新しいチャットを開始する
現在のチャットを離れて新たなチャットを開始したいときにクリックします。
③画像をアップロードする
画像をアップロードして会話できます。例えば、資料をアップして「この画像を説明して」と入力すると、その画像を理解してテキストでその内容を説明してくれます。
④音声で入力する
テキストで入力するだけではなく、音声での入力も可能です。
詳しい機能は下記記事(名称はBardからGeminiに変更されています)を参考にしてみて下さい。
Geminiの使い方(2)スマホ版Geminiアプリで使う
2024年2月よりスマホアプリ版でGemini及びGemini Advanced(有料版)の提供が開始されました。ただし現在は英語版でのみ対応しています。Android版ではGemini専用アプリで既に利用可能、iOS版は数週間以内に『Google』アプリ上で提供開始予定です。
スマホアプリ版Geminiの使用用途の例は以下の通りです。
- パンクしたタイヤを撮影して対処方法を検索する
- パーティーの招待状に使う画像を生成する
- メッセージの返答の作成をサポート
- 撮影した写真のキャプションを作成する
- 読んでいる記事について質問する
- タイマーの設定、通話、スマート ホーム デバイスの制御など、Google アシスタントの音声機能の操作
- SNSの投稿の文章作成をサポート
- 旅行計画のサポート
このように、テキスト、音声、画像など複数のデータを組み合わせ、より柔軟で幅広いタスクに対応できるマルチモーダルな機能が特徴的です。
また今後、一部のスマートフォンでは、電源ボタンの長押しや画面端のスワイプで起動したり、「OK Google」と話しかけることで使えるようになるなど、より簡単にGeminiにアクセスできるようになるようです。
参考:Google Japan Blog: Bard から Gemini へ:Ultra 1.0 とGemini アプリを発表
Geminiの使い方(3)Google CloudのVertex AIで使う
Google CloudのVertex AI(ヴァーテックスAI)にはGeminiモデルが搭載されています。
生成AIモデルのテスト、カスタマイズ、実行を容易にする開発プラットフォームです。ImagenやChirpなど、Googleが誇る最先端の基盤モデルを活用することで、テキストから画像生成、音声からテキスト生成など、様々なタスクをこなすことができます。
▲Google Cloud公式の解説動画(字幕の自動翻訳が可能です)
さらに、Vertex AI Studio(旧名称「Generative AI Studio」)では独自のデータを用いてモデルをカスタマイズできるため、特定のユースケースに最適化された精度の高い生成を実現します。これにより、生成AIモデルを活用したアプリケーション開発を迅速かつ効率的に進めることができます。
Vertex AIは新規登録であれば90日間有効の300クレジット分を無料で試せます。無料トライアルの登録手順は以下の通りです。
- Vertex AI | Google Cloud [https://cloud.google.com/vertex-ai?hl=ja ]にアクセスする
- [Vertex AI無料トライアル]をクリック
- アカウント情報、支払い情報などを入力
- 登録完了
参考:Generative AI Studio | Google Cloud
Geminiのモデル3種類
最初のバージョンGemini 1.0は、さまざまな用途や目的にフィットする3種類のモデルが用意されています。
Gemini Ultra 1.0 | 最高性能のモデル | 非常に複雑なタスクに対応する、Googel社最大かつ最も有能なモデル |
Gemini Pro 1.0→Gemini1.5【2024年2月16日追記】 | Bard に搭載予定 | 幅広いタスクに対応するための最良のモデル |
Gemini Nano | Pixel8に搭載予定 | オンデバイスタスク向けの最も効率的なモデル、より単純な計算処理 |
Ultraが最大規模・最高性能で、クラウド上で大量のデータを処理するような用途に適しています。一方Nanoは、端末上で動作させる場合に少ないメモリと計算リソースで稼働できるよう設計されていて、効率性が最大の特徴です。こちらはPixel8に搭載されています。。
Proはその中間的な位置付けで、幅広いタスクでの汎用性とスケーラビリティを兼ね備えたモデルとされ、旧Bardに搭載されています。またGoogle検索について、Gemini Proの活用により、検索結果に対話型要素を加える検索体験(SGE)の速度が40%向上したとの実績も出ています。
【2024年2月16日追記】Googleが最新モデル「Gemini1.5」を発表
▲Gemini1.5が、アポロ11号のミッションに関する402 ページのPDF文書内の出来事、画像などの詳細な内容ついて会話するデモ動画
2024年2月16日、Googleが’Geminiのスタンダードモデルである「Gemini Pro」における最新モデル「Gemini 1.5」を発表しました。性能は、最高モデルのGemini Ultraに匹敵する品質であるとのこと。具体的には以下のような特徴があります。
- 最大100万トークンに対応
- 単語、画像、動画、音声、またはコードの全体または一部様々な形式で入力可能
- 1時間の動画、11時間の音声、30,000行以上のコードまたは70万字以上のコードベースなど膨大な量の情報を一度に処理可能
現在は開発中で限られたユーザーのみがAI Studio と Vertex AIから利用可能です。
Geminiと旧Bardの関係は?
Gemini(Gemini Pro)はまず第一段階として、2023年12月6日から「Gemini Pro」がGoogelの従来のAIチャットツール「Bard」に実装されました。それまでのBardと比較すると、理解と要約、推論、ブレインストーミング、文章編集、計画の立案などあらゆる能力を向上させました。なお、現在ではBardから「Gemini」に名称が統一されています。
次のステップとしてスマートフォンでは、Pixel 8 ProにGemini Nanoが搭載され、音声録音の要約作成やGboardのスマートリプライ機能に利用されるなど、端末上での柔軟な利用が可能になっています。
2024年2月8日には、高性能な「Gemini Ultra」モデルを活用した「Gemini Advanced」(有料プラン)がリリースされ、さらに強化された機能を広く活用できるようになりました。
同時に「Geminiアプリ」がリリースされ、端末の種類問わずその機能にアクセスできるようになっています。
このほか、Google広告、Chrome、Gemini for Workspace(旧名称「Duet AI」)など、順次他のGoogleサービスにもGeminiが搭載されていく予定です。
Geminiの料金プラン
GeminiはAIチャットツールGeminiで無料で利用できますが、2024年2月8日からさらに高性能のGemini Advancedプランが提供開始されました。料金プランと概要は以下の通りです。
プラン | Gemini(無料版) | Gemini Advanced (有料版) |
料金 | 無料 | 月額2,800円 (無料トライアル2ヶ月あり) |
日本語対応 | ◯ | 英語のみ |
利用可能地域 | 日本を含む230以上の国 | 日本を含む150以上の国 |
搭載モデル | Gemini Pro 1.0 | Gemini Ultra 1.0 |
機能 | 高性能なAIチャット | 複雑な言語処理、創造性の強化、 マルチモーダルなコンテンツ生成、 データ分析など |
その他 | Googleアカウントがあれば使える(旧Bard) | 2TBの保存容量など、 Google Oneプレミアムプランの特典全てが利用可能/Gemini for Workspace(旧名称Duet AI)も導入予定 |
最新情報は公式サイトをご参照ください。参考:Google Japan Blog: Bard から Gemini へ:Ultra 1.0 とGemini アプリを発表
Gemini Advancedに搭載予定の「Gemini for Workspace」(旧名称「Duet AI」)は、GmailやGoogleスプレッドシートなど関連アプリケーション上でシームレスに利用できる生成AIツールです。詳しくは下記関連記事をご覧ください。
Geminiで近未来的なAI技術を体験をしよう
Geminiの登場により、AI分野でまた新たな可能性が広がろうとしています。マルチモーダルな高性能AIを手軽に使えるようになれば、私たちの生活はより便利で豊かなものへと変わっていくことでしょう。画像認識や映像解析といった実用的な機能はもちろん、創造性を解き放つツールとしても大いに期待されます。今後の展開を楽しみに待ちましょう。
生成AIについての詳しい資料はこちら
生成AIについて独自にまとめた資料を無料でダウンロードいただけます。
2023年の生成AIトレンドから2024年のAI動向予想まで、活用例を含めてご紹介しています。