Gemini – nowa era czy jedynie nowy produkt? tło

Gemini – nowa era czy jedynie nowy produkt?

Wraz z końcem 2023 roku mogliśmy usłyszeć o najnowszym projekcie generatywnej sztucznej inteligencji – Gemini. Projekt ten realizowany jest przez zespół Google AI, który obejmuje pracowników przedsiębiorstwa DeepMind. Firma ta funkcjonuje od 2010 roku, a 4 lata później została wykupiona przez Google.

Nie wiadomo, kiedy projekt zostanie udostępniony użytkownikom – nie znamy daty premiery. Wiemy natomiast, że Gemini otworzy nowy rozdział w rozwoju sztucznej inteligencji i jest prekursorem innowacji. O tym zapewnia Google i pokazuje pierwsze rezultaty przeprowadzonych testów. Na stronie tego technologicznego giganta, jak również DeepMind, znajdziemy wiele materiałów, z których możemy dowiedzieć się więcej na temat projektu.

język programowania, 3D

Czym jest Gemini?

Gemini to multimodalny generatywny model językowy. Z takimi modelami mieliśmy już kontakt dzięki produktom OpenAI i nie tylko. Gemini ma wyprzedzić swoich poprzedników i pozostawić ich daleko w tyle. W jaki sposób to osiągnie? Dzięki możliwości przetwarzania i generowania informacji w różnych formatach i swobodnie się między nimi przełączać.

Gemini ma operować nie tylko tekstem, ale również obrazami, dźwiękiem, wideo, a nawet kodem. To zapewnia mu unikatową wszechstronność. Zostało stworzone z liczby parametrów – 1,5 biliona. Już teraz zasila Google Bard, czyli odpowiednik ChatGPT. Co więcej, model ten był trenowany na zbiorze danych, który obejmował informacje pochodzące z języków nie-łacińskich, dzięki czemu urozmaiciło swoje zasoby.

krople, konstelacja, konstrukcja

Gemini 1.0 (1,2 biliona parametrów) zostało zoptymalizowane dla trzech rozmiarów:

  • Gemini Ultra – największy model (10 bilionów parametrów) stworzony do zadań specjalnych, czyli najbardziej złożonych. Będzie dostępny tylko dla przedsiębiorstw, centrów danych i wybranych partnerów Google.
  • Gemini Pro – również stosowany do skomplikowanych zadań, ale o mniejszej liczbie parametrów – 1,56 biliona. Jest określany odpowiednikiem ChatGPT 3.5.
  • Gemini Nano – wersja posiadająca 1,8 miliarda parametrów, przeznaczona dla urządzeń mobilnych. Ma trafić do smartfonów Google Pixel.

Gemini – klejnot w koronie AI

Ten model językowy został wyszkolony do rozpoznawania i rozumienia tekstu oraz innych wcześniej wspomnianych formatów. Dzięki temu pomoże użytkownikowi w zrozumieniu treści, nawet tych najbardziej skomplikowanych. Poza tym wyjątkową cechą Gemini jest zdolność do generowania kodów w najpopularniejszych językach programowania: Python, Java, C++ i Go.

Ponadto, Gemini zostało przeszkolone przez jednostki przetwarzania tensorowego (TPU), czyli specjalne akceleratory AI (autorstwa Google), które są zoptymalizowane w zakresie szkolenia i wnioskowania dużych modeli sztucznej inteligencji.

konstrukcje, fantazja, abstrakcja cyfrowa

Jak ocenia się sztuczną inteligencję?

Skąd twórcy Gemini wiedzą, że ich model wyprzedza konkurencję? I czy rzeczywiście wyprzedza? Jakie narzędzia w sposób obiektywny mogą porównywać modele językowe?

Jednym z nich jest MMMU, czyli A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI – benchmark stworzony do oceny modeli multimodalnych, który zawiera 11,5 tysięcy pytań z egzaminów uniwersyteckich oraz materiałów takich jak podręczniki i quizy w obrębie 6. dyscyplin naukowych.

Tak sprawdza się wiedzę przedmiotową AI. Możemy to sobie wyobrazić jako maturę dla sztucznej inteligencji. Jednak sam fakt weryfikacji przez MMMU jeszcze o niczym nie świadczy, ponieważ najważniejszy jest wynik. Gemini osiągnęło 59% dokładności, co wcale nie jest rewelacyjnym rezultatem, ale jest to najwyższy wynik spośród grupy podobnych modeli. Innym wynikiem, którym DeepMind się głośno chwali jest uzyskane 90% w benchmarku MMLU (Measuring Massive Multitask Language Understanding).

Zarzuty wobec Gemini

Nie wszystkich przekonują uzyskane przez Gemini wyniki na testach. Między innymi dlatego, że benchmark MMLU bywa uznawany za niewystarczająco precyzyjny. Poza tym Gemini pokonało GPT4 jedynie o 3,6%. Warto dodać, że ludzie osiągają w tym teście wynik 89,8%, więc najnowszy projekt Google może się z nami równać, tak samo jak jego konkurencja.

Należy wspomnieć, że w przeprowadzonych testach AI od Google nie zawsze pokonuje konkurencyjny GPT4, i generalnie oba modele osiągają podobne poziomy zaawansowania. Twórcy Gemini próbują zatem zadziałać na odbiorców poprzez wizualizacje i narrację.

Słynne wideo w serwisie YouTube ,,Hands-on with Gemini: Interacting with multimodal AI” prezentuje robiące wrażenie płynne interakcje z algorytmem w oparciu o przeprowadzone testy. Wygląda to spektakularnie, ale niestety nie jest zgodne z rzeczywistym działaniem Gemini.

 

Twórcy zaznaczyli w opisie filmu następujący fakt: ,,Na potrzeby tego demo opóźnienie zostało zmniejszone, a odpowiedzi Gemini zostały skrócone”. Można zatem porównać Google do producentów żywności, którzy swój najnowszy produkt opakowują w smakowite, estetyczne ilustracje z zaznaczeniem ,,propozycja podania’.

W czym Gemini będzie pomocne?

Oprócz generowania tekstu, Gemini pomoże użytkownikom dzięki umiejętności tłumaczenia języków, pisania kreatywnych treści takich jak scenariusze, opowiadania i wiersze, co może przydać się artystom i twórcom.

Gemini poradzi sobie również w tworzeniu dialogów i ścieżek dźwiękowych. Model ten odpowiadania w sposób informacyjny, nawet na pytania otwarte i trudne, co może przydać się podczas nauki własnej uczniów i studentów. Nauczyciele również mogą skorzystać z rozwoju AI – nowe narzędzie od DeepMind okaże się użyteczne w tworzeniu materiałów dydaktycznych.

Przyda się również projektantom aplikacji mobilnych, produktów i usług, ale także gier i innych form rozrywki dzięki swoim umiejętnościom kodowania. Twórcy serwisów internetowych i sklepów także będą mogli korzystać z tej zaawansowanej technologii przy tworzeniu chatbotów i wirtualnych asystentów, zwiększając dzięki temu jakość obsługi klienta.

kolejka, problem, rozwiązanie, tory

Bezpieczeństwo i etyka

W rozwoju sztucznej inteligencji bardzo ważny jest aspekt bezpieczeństwa oraz etyki. ChatGPT nie uchronił się przez wzbudzeniem kontrowersji w tym zakresie, z czego inne przedsiębiorstwa powinny wyciągnąć lekcję. Twórcy Gemini zdają sobie z tego sprawę z powagi tego zadania, dlatego deklarują odpowiedzialne podejście do projektu. DeepMind przewidziało możliwe zagrożenia wynikające z tworzenia zaawansowanej technologii. Bez wątpienia towarzyszy temu ryzyko stronniczości oraz toksyczności treści.

W związku z tym od początku realizacji projektu pracowano nad ustanowieniem polityki Gemini. Warto zauważyć, że DeepMind współpracuje z zewnętrzną grupą, która identyfikuje wszelkie słabe punkty i testuje stworzone rozwiązania.

Aby zadbać o bezpieczeństwo cyfrowe twórcy skorzystali ze specjalnych klasyfikatorów bezpieczeństwa, filtrów i testów porównawczych, które zapobiegają toksycznym promptom, treściom zawierającym przemoc lub negatywne stereotypy.

Jak wygląda sztuczna inteligencja?

DeepMind zauważyło ciekawe zjawisko związane z wizerunkiem sztucznej inteligencji. Najczęściej AI przedstawiane jest jako ciągi kodów, mózgi, roboty (często białe) i mężczyźni w garniturach. Kolorem dominującym jest niebieski, który często idzie w parze z nauką, ale też polityką.

Te obrazy stały się już naszym pierwszym skojarzeniem z AI, gdy przychodzi o prezentację graficzną. Ponadto stały się też stereotypem. Dlatego Google zdecydował się rozpocząć współpracę z artystami, by na nowo spróbować przedstawić to, jak wygląda sztuczna inteligencja. Wyniki ich pracy zamieściliśmy jako ilustracje do naszego artykułu.

system, klocki, układanka

Najlepsze AI

Warto pamiętać, że modele sztucznej inteligencji tworzą ludzie. Jednym z liderów jest Sundar Pichai, CEO Google i Alphabet. Warto przytaczać nazwiska twórców algorytmów, by pamiętać, że przyszłość AI zależy od ludzi, od wyspecjalizowanych naukowców, którzy dbają nie tylko o nowe możliwości i postęp, ale także bezpieczeństwo, etykę i inkluzywność tworzonych modeli.

Dzięki temu łatwiej może nam będzie oswoić lęk przez rozwojem sztucznej inteligencji. Przy okazji warto również rozwijać zdolność krytycznego myślenia, ponieważ jak się okazuje – ,,Gemini era” to jeszcze nie jest prawdziwe nowe rozdanie dla AI, a jedynie nowy produkt i najlepsza sztuczna inteligencja od Google.

Gemini ma operować nie tylko tekstem, ale również obrazami, dźwiękiem, wideo, a nawet kodem. To zapewnia mu unikatową wszechstronność. Co więcej, model ten był trenowany na zbiorze danych, który obejmował informacje pochodzące z języków nie-łacińskich, dzięki czemu urozmaiciło swoje zasoby.

Komentarze (0)

zostaw komentarz

przesuń, aby odblokować

odblokowano