Patrickův newsletter #65: Google má AI Bard v češtině, na AI maká Elon Musk i já!
Tedy já hlavně tím, že nahrávám podcast znovu, tentokráte AI hlasem :)
Dobrý den,
vítejte u dalšího dílu Patrickova newsletteru!
Před dvěma týdny jsem se při studování posunu v AI dostal ke službám, které převádí text na řeč (TTS - služby Text to Speach). A ukázalo se, že vzniklo několik velmi dobrých hlasových modelů, které už neuráží poslouchat. Samozřejmě, ještě nejsou dokonalé, s lidským hlasem si je nespletete, mají přeci jen stále ještě monotónní intonaci a pokud ji nechcete ručně editovat, je to na delší texty přeci jen únavné. Anglické hlasové modely jsou už o něco dále a umí přidat to přednesu i emoce, navíc dosti věrné, takže se načtený text lépe poslouchá.
Já díky těmto službám zkusím vrátit do hry moje namluvené podcasty. Sám už čas namlouvat je nemám. A jakou službu používám? Kvůli dobré podpoře češtiny službu Speechgen.io. A pokud chcete, můžete si pustit i moje Místostarosti jako podcast!
A co je nového ve světě techniky?
Google Bard v češtině
Největší frmol je znovu v oblasti umělé inteligence. Tak především Google spustil svůj jazykový model Bard v dalších čtyřiceti jazycích, tentokráte včetně češtiny. Bard má být samozřejmě lepší, než ChatGPT, především má být vycvičený na desetinásobném objemu dat. Umí pracovat s obrázky, vytvořit kód v programovacím jazyce, postupně se propojuje do dalších Google služeb, jako je výstup strukturovaných dat do Tabulek nebo Google Lens (zatím jen v angličtině).
Zásadní odlišnost jsou data a jejich aktuálnost. ChatGPT je vycvičen pomocí datové sady textů převzatých z běžného procházení internetu, knih, článků, dokumentů, Wikipedie a internetu. Jeho zdroje jsou však omezeny do roku 2021 a dotazování se ChatGPT na informace o světových událostech povede k neaktuálním odpovědím.
Na druhou stranu Bard přebírá data z celého internetu v reálném čase. Podle Google Bard čerpá odpovědi z 50 % z dialogů na veřejných fórech, 12,5 % z korpusu C4, dále 12,5 % z veřejných dokumentů, 12,5 % z Wikipedie a po 6,25 % z anglických a neanglických dokumentů.
U toho korpusu C4 se na chvíli zastavme. Je velmi důležité, jak se AI dozví to, co nám posléze předkládá. Nejprve se ovšem patří omluva, on ten korpus C4 to není striktně vzato korpus, ale databáze materiálů, z níž si umělá inteligence teprve něco jako korpus vytváří, ale nenapadlo mě příhodnější české slovo. Korpus C4 vytvořil Google pro trénování umělé inteligence a narozdíl od OpenAI tak poměrně přesně říká, čím umělou inteligenci naplnil. C4 obsahuje patnáct milionů webových serverů, přičemž už první tři servery, ze kterých pochází nejvíce tokenů, tedy záznamů, si zaslouží pozornost. Na prvním místě je web Patents společnosti Google, který obsahuje texty patentů vydaných po celém světě, na druhém nepřekvapivě Wikipedia bezplatná online encyklopedie, a na třetím u nás asi málo známý web Scribd, digitální knihovna materiálů, textů a prezentací nahrávaných uživateli, takový Youtube pro texty a prezentace. Na seznamu se umístilo také několik desítek webů s pirátskými knihami včetně webu B-ok.org na pozici 190, který mezi tím americké ministerstvo spravedlnosti zrušilo. Velmi podrobně problematiku analyzuje článek v The Washington Post.
Asi nejvýraznější výhodou v českém prostředí je ovšem cena. Bard je zdarma, zatímco ChatGPT 4 stojí dvacet dolarů měsíčně v podobě tarifu ChatGPT Plus. Zdarma je u ChatGPT jen starší verze. Jenže to společnost OpenAI promptně vyřešila tím, že zdarma nabízí již onu čtvrtou verzi ChatGPT, i když bez pluginů a s možností menšího provozu. Což ovšem není velké omezení.
Zatím si musíte oba modely osahat, neboť vývoj je prudký. Osobně se mi zdál Bard poněkud plovoucí v osobách a rodech, v češtině si zkrátka není tak jistý, jako v angličtině a také ve tvorbě zdrojového kódu mi nepřišel tak dobrý. S aktuálností dat si dříve uměl ChatGPT poradit propojením s Bingem, které před pár dny bylo zrušeno, protože touto integrací lidé obcházeli placení za Plus verzi. To se ale záhy zase jistě změní.
A další model: Anthropic Claude 2
Společnost Anthropic je významný hráč na poli umělé inteligence, od roku 2021 posbírala 1,5 miliardy dolarů investic od společností jako Google, Zoom nebo Salesforce, to abych jmenoval jen ta technologická jména, ne investiční firmy. Firma se zaměřuje na jazykové modely se speciálním určením - ve viditelném spektru se pak její jazykový model nazvaný Claude snaží zpracovávat komunikaci například na Slacku, takže si od něj můžete nechat hlídat kanál na Slacku a pak dostat sumář, co se tam důležitého probíralo. Obchodní model Antrhopicu se zatím zaměřuje na velkoobchodní prodej, tedy na dodávku Claude firmám, které nechtějí podporovat Google a jeho Barda nebo ChatGPT.
Nová verze jazykového modelu Claude 2 je dostupná zákazníkům v USA a Británii, osobně jsem ji ještě nezkoušel. Claude 2 přímo konkuruje ChatGPT jako přátelštější, nadšenější kolega nebo osobní asistent, při hovoru s ním máte prý lepší pocit z komunikace. Ve srovnání s předchozími modely má model také významná vylepšení v kódování, matematice a uvažování. Plus do něj přímo můžete nahrát i rozsáhlý text a popovídat si o něm s Claude. Například si nechat udělat sumář, prověřit některé hypotézy z textu atd. Claude totiž dokáže analyzovat 75 tisíc slov (100 tisíc tokenů), zatímco GPT4 zvládne pouze 32,7 tisíc tokenů. Lidem trvá 5 hodin, než zpracují 100 tisíc tokenů. Claude to zvládne za méně než minutu!
Claude 2 je zatím v stádiu ranného rozjezdu, ale je už teď vidět, že jeho silnou stránkou je zpracování textu, jeho editace, programování a práce s daty. Sledujme ho.
Detaily firma představuje zde.
Elon Musk spouští svůj startup xAI - ano, bude o umělé inteligenci
Nebyl by to souhrn toho zajímavého, abychom si neřekli něco o Elonu Muskovi. Jeho dar vyhmátnout témata, která hýbou technologickým světem a spojit se sebou samým, je legendární. Tentokráte investuje do umělé inteligence. Zase. Proč zase? Inu, v roce 2015 zainvestoval neziskovou společnost OpenAI, která se měla zaměřovat na opensource rozvoj umělé inteligence (Muskova historie s OpenAI). Jenže narazila na zlatou žílu a z otevřenosti nezbylo mnoho, firma se v roce 2019 přeměnila na společnost s "ohraničeným ziskem", rok před tím Musk odstoupil z představenstva společnosti a dneska na její chod prakticky nemá žádný vliv, neboť v investicích do společnosti jeho podíl dávno marginalizoval Microsoft a ostatní.
Musk se zaklíná, že věří otevřenému kódu a sdílení umělé inteligence, od čehož se prý OpenAI odklonilo. Ale že byl byl úplně přehnaně specifický o tom, co bude x.AI dělat, to tedy nebyl. Pouze upřesnil, že se bude snažit dosáhnout AGI, tedy obecné umělé inteligence. Jak? Společnost xAI není zaujatá tržními pobídkami, proto nachází odpovědi, které jsou kontroverzní, ale pravdivé. Příchod AGI očekává Musk na rok 2029 plus mínus rok.
Musk také na otázku, jak chce využít Twitter, zdůraznil, že zatím každá AI společnost použila data Twitteru k tréninku, ve všech případech nelegálně. Scraping v minulých týdnech srazil systém Twitteru na kolena, proto bylo nutné omezit rychlost odpovědí na Twitteru, viz moje zpráva z minulého týdne. xAI Twitter použije, k tréninku budou použity veřejné tweety: text, obrázky a videa. V určitém okamžiku nám ale dojdou lidská data... Takže pro AGI bude potřeba obsah generovaný samotnou umělou inteligencí, podobně, jako se kdysi učilo hrát AlphaGo.
Ještě jedna věc mě z rozhovoru zaujala, to když Musk zmínil dvě důležité metriky pro budoucnost:
1) Poměr digitálních ku biologickým výpočtům v globálním měřítku. Biologické výpočty budou nakonec tvořit <1 % celkových výpočtů. O důležitosti tohoto poměru a jeho prudkém růstu Musk tweetoval již vloni v srpnu. Co je tím myšleno? Počet operací (či chceme-li výpočtů) prováděných počítači se zvyšuje oproti operacím, které provádí lidé.
2) Celková elektrická a tepelná energie na osobu (také exponenciální růst)
Zajímavé je, jak chce Musk přistoupit k rizikům AI: Každý ověřený, skutečný člověk bude moci hlasovat o budoucnosti xAI. No uvidíme...
Myšlenka a článek, na který přišel čas? Hořká lekce z AI
Na čtyři roky starou esej Richarda Suttona nazvanou Hořká lekce dozrál právě čas. Právě přemýšlíme, co bude ten další skok, jak bude vypadat GPT-5 a co nového přinese? Už GPT-4 nespoléhá jen na vyšší počet "slov", ve skutečnosti je konglomerátem několika propojených jazykových a matematických modelů, které si předávají slovo podle toho, který z nich podá nejlepší výsledek (pozor, toto je domněnka, OpenAI detaily nezveřejnila).
Richard Sutton je poměrně známý činovník v AI, profesor na univerzitě v Alabamě atd. A před lety konstatoval, že vývoj AI bude efektivnější nechat na samotné AI, protože výkon počítačů předčí lidský intelektuální vklad: "Největší poučení, které lze vyčíst ze 70 let výzkumu umělé inteligence, je, že obecné metody využívající výpočetní techniku jsou nakonec nejefektivnější, a to s velkým náskokem."
A skutečně. GPT-4 vytvořilo 375 zaměstnanců OpenAI a ani 190 tisíc zaměstnanců společnosti Alphabet nedokázalo způsobit, aby mladou firmu OpenAI předhonil Google. Můžeme spekulovat o tom, že inovační potenciál Google se vyčerpal, jenže to spíše není pravda. Ve skutečnosti a daleko spíše těm zaměstnancům nesmírně pomohl obrovský výpočetní výkon, který si OpenAI nakoupilo a který výzkum jazykových modelů a AI postrčil neskutečným způsobem, přesně jak Sutton před několika lety tvrdil.
Už možná také lépe rozumíte tomu, proč USA se tolik snaží, aby Čína neměla dostatek výpočetní kapacity pro AI...
Doporučení na knihu? Tony Fadel a jeho Budování: Neortodoxní průvodce výrobou věcí, které stojí za to vyrobit
Tonyho Fadela si možná pamatujete z Apple. Měl na starosti například iPhone. A tím vlastně také knihu začíná: Zkoušel jsem iPhone sestavit dvakrát.
O druhém případu ví každý. Tehdy jsme uspěli. O tom prvním ví málokdo.
V roce 1989 to nakreslil zaměstnanec společnosti Apple a intelektuální vizionář Marc Porat...
Ale kniha není o iPhone. Je o tom, jak navrhovat produkty, které uspějí. Vypráví to velký praktik, zkušený člověk, který se v mnohém vzpírá krédům platným v Silicon Valley. Knihu v angličtině si můžete koupit na Amazon.com.
Drobky
Google vydal vzdělávací materiály o velkých jazykových modelech a umělé inteligenci. K nalezení zde.
Čína vydala svůj oficiální operační systém Open Kylin, vyvinutý od začátku čistě jí. Teda struktura připomíná Debian, ale kdo jsem já, abych jim to haněl.
A to je pro dnešek vše.
Vše nejlepší do nového týdne přeje
Patrick Zandl
PS: Tento newsletter byl rozeslán na 2956 adres.