Obok ChatGPT firmy OpenAI, Copilot od Microsoft i Apple Intelligence, Google Gemini jest jedną z dominujących sił w świecie sztucznej inteligencji (AI) i chatbotów. Gemini to zarówno nazwa chatbota Google, jak i LLM, który go napędza, a korzystanie z niego jest bezpłatne za pośrednictwem przeglądarki internetowej lub na urządzeniu mobilnym, ale istnieje płatna wersja o nazwie Gemini Advanced, która ma kilka soczystych funkcji, takich jak Gemini Live.
Google Gemini wkroczyło na scenę w lutym 2024 roku i od razu wywołało duże poruszenie w świecie AI, ale to wydanie Gemini Live na wydarzeniu Google w sierpniu 2024 naprawdę umieściło go w czołowej stawce. Gemini LIve to wersja Gemini, która działa na telefonach z Androidem i umożliwia prowadzenie swobodnych rozmów na złożone tematy za pomocą głosu, zamiast konieczności pisania na klawiaturze.
Zasadniczo Google uprościło sprawy, nazywając zarówno podstawowy model, jak i samego chatbota Gemini. Ponadto dostępna jest teraz bezpłatna aplikacja Gemini na Androida, a Gemini może zastąpić Asystenta Google na telefonie z Androidem, jeśli sobie tego życzysz. Na iOS Gemini jest obecne w aplikacji Google. Istnieje również bezpłatna wersja Google Gemini, do której można uzyskać dostęp za pośrednictwem dowolnej przeglądarki internetowej.
Gemini to rozległy parasol dla wielu funkcji i funkcjonalności AI dostarczanych różnymi kanałami. Ma takie same możliwości generowania jak inne chatboty, takie jak ChatGPT, więc jeśli powiesz Gemini, dokąd jedziesz w następną podróż, będzie w stanie pomóc ci się spakować. Albo poproś go, aby wyjaśnił, kim był Sokrates i usiądź wygodnie na lekcji historii.
Gemini to multimodalny LLM. Innymi słowy, może obsługiwać różne formy danych wejściowych i wyjściowych, w tym tekst, kod, dźwięk, obrazy i filmy. Daje mu to dużą elastyczność w wykonywaniu szerokiego zakresu zadań. Prześlij zdjęcie, a Gemini przeanalizuje obraz i powie ci o nim kilka rzeczy. Wklej kod do pola monitu i poproś o jego skontrolowanie, a Gemini to zrobi.
Istnieją jednak cztery oddzielne LLM-y, które Google wdrożyło za pomocą swojej AI. Są to Gemini Ultra, Pro, Flash i Nano. Jeśli przejdziesz na stronę Gemini i zadajesz pytanie chatbotowi, użyjesz Gemini Flash, czyli lekkiego modelu Google, zoptymalizowanego pod kątem szybkości i wydajności. Jeśli jesteś członkiem płatnego poziomu za pośrednictwem Gemini Advanced, uzyskasz dostęp do Gemini Ultra, który jest największym modelem i nadaje się do bardzo złożonych zadań, oraz Gemini Pro, który Google opisuje jako „najlepszy model do ogólnej wydajności w zakresie zadań”. Wreszcie model Gemini Nano jest mniejszy i przeznaczony do użytku na mobilnym urządzeniu. Jest używany w telefonach Pixel 9, które mają funkcję Gemini Live, umożliwiającą tryb głosowy, który przypomina prawdziwą rozmowę z człowiekiem.
Więc co Gemini tak naprawdę potrafi? Odpowiadać na pytania, streszczać tekst, pisać kod, tłumaczyć i tworzyć obrazy. Google opracowuje własną odpowiedź na Midjourney w Imagen 3 i wyobrażamy sobie, że niedługo zostanie ona zintegrowana również z Gemini. Ponadto łączy się z innymi usługami Google – jest podłączony do takich usług jak Gmail, Mapy Google i YouTube. Tak więc, jeśli poprosisz go o rekomendacje dotyczące zwiedzania, oznaczy je w Mapach Google.
Darmowa wersja daje wiele opcji, szczególnie dla użytkowników Androida. Jednak płatna jest w rzeczywistości o wiele bardziej szczegółowa. Gemini Ultra oferuje cały szereg potężnych możliwości, takich jak obsługa zapytań wieloetapowych i pomoc w bardziej złożonych zadaniach, choćby kodowaniu.