皆さんは、すでにニュースで話題になっているので、ご存知かもしれないですが、Google AI が開発した大規模言語モデル「Gemini」をご存知でしょうか。
日本で最初にニュースで取り上げられたのは、2023年12月6日でまだまだ謎に満ちたAIです。そのために、Google全体のトレンドとしても検索数が、12月6日から急速に伸びています。
実は、このGemini は、すでにさまざまな分野で活用され始めています。例えば、Google 検索では、Gemini がSEOの精度を向上させるために使用されています。また、Google 広告では、Gemini がユーザーの興味や関心に合った広告を表示するために使用されています。
Gemini は、私たちの生活を大きく変える可能性を秘めた技術です。
この記事では、Gemini の概要と、Gemini をいつから、どうすれば使えるのかについて、説明していきます。
Google AI 「Gemini」とは
Gemini とは、Googleが開発したマルチモーダルAIです。テキストやコードなどの膨大なデータセットでトレーニングされた AI モデルで、テキストの生成、翻訳、要約、質問への回答、画像や、動画の処理など、さまざまなタスクを実行することができます。
Gemini は、テキストとコード、画像、動画等、膨大なデータセットで学習されているマルチモーダルAIです。際立っているのは、学習当初からマルチモーダルモデルとして構築されていることである。Gemini は、以下のことができるようになります。
以下は、実際にGeminiの能力を見せつけてくれている動画です。見たときは正直、脳が追いつきませんでした。Geminiとの会話のやり取りが収録されている動画で、カメラで写しているものをGeminiが認識して、受け応えています。
Chat GPTとGeminiは何が違うのか。
ChatGPT は、テキストとコードの膨大なデータセットでトレーニングされていますが、Gemini は、テキストとコードに加えて、画像や音声などのマルチモーダルなデータセットでトレーニングされています。そのために、圧倒的な画像・動画処理技術を誇ります。
基盤となっているのが、DeepMindを採用しています。かの有名な囲碁のチャンピオンを打ち負かした、Alpha Goの基盤です。
出典:最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
上記のグラフを見てみると、マルチモーダル・コード生成が、現時点では、Chat GPTよりも数値が上回っているように見えますね。
Geminiはいつから使用することができるのか
Gemini自体は、Google Bardにアクセスすることによって、無料で使用することができます。ただし、現在は英語版のみですので、言語を英語に切り替えて使用してください。
Geminiを使用するには
- Googleのアカウントを開設 or ログインする
- 言語設定が日本語の場合、英語に切り替える
- Bardにアクセスして利用→現在は、Bardを通じて、Geminiを利用することができます。
開発環境は、12月13日から利用することができるようです。Geminiは、モデルとして、3つあるようで今後は有料版モデルも出るとのことです。
Gemini 3つのモデル
Gemini Nano
- スマートフォンで実行するために設計された小型モデル
- 外部サーバーに接続せずに、効率的なAI処理を必要とするタスクを実行
- チャットアプリケーション内の返信の提案、テキストの要約など
Gemini Pro
- Googleのデータセンターで実行されるモデル
- 同社のAIチャットボットBardの最新バージョンでの使用を想定
- 応答時間の短縮、複雑なクエリーの理解が可能
Gemini Ultra
- まだ広く公開されていない最上位モデル
- 大規模言語モデルの研究および開発で広く使用されている32の学術ベンチマークのうち30で、現在の最先端の結果を上回る
- 極めて複雑なタスク向けに設計
個人的には、このGeminiを、情報収集やアイデア創出の玉手箱として、活用していきたいなと思います。皆さんもぜひ、どう活用すれば、効率的に物事を進められるか考えてみても面白いかもしれないですね!
Geminiについて最新情報
2023年12月19日に、GoogleからGeminiについての最新情報が発表されました。Bardで、"Googleのその他のサービス、アプリとの拡張機能ベースで連携できるになった"とのことです。
Googleの提供しているサービスの中でも例えば、Gmail、Google ドキュメント、Google ドライブ、Google マップ、YouTube などです。また、日本語での対応もスタートしました。仕事やプライベートにおいて、様々な角度からbardを用い、シームレスな情報連携が可能となりました。
何かの計画を立てる際には、今まで複数タブを同時進行で開いて行っていた作業をBard1つのタブで行うことができます。このことで、作業効率も上がってくることが予想されます。例えば、「東京から箱根まで 車での道のり」とプロンプトを入れ込むと、以下のようにGoogle Mapを用いて時間まで記載してくれます。
精度が上がれば、いつの日かBard単体で検索をする日もくるかもしれないですね。
Googleからの最新情報は以下から。