DeepSeek: jak mały chiński startup rzuca na dechy zachodnie bigtechy

Chińska firma DeepSeek, zajmująca się sztuczną inteligencją (AI), wywołała szok wypuszczając na rynek niezwykle wydajne modele AI, które mogą konkurować z najnowocześniejszymi produktami takich amerykańskich firm, jak OpenAI i Anthropic.

Jest to tym bardziej zadziwiające, że założony w 2023 roku DeepSeek osiągnął swoje wyniki kosztem ułamka tego, co zainwestowali amerykańscy giganci – zarówno pod względem technologicznym, jak i finansowym.

Model „rozumowania” R1 firmy DeepSeek wywołał ekscytację wśród badaczy, szok wśród inwestorów i zmieszanie konkurencji.

DeepSeek: ale o co chodzi?

W grudniu 2024 DeepSeek wydał swój model V3 . Jest to bardzo mocny „standardowy” duży model językowy, który działa na podobnym poziomie co GPT-4o firmy OpenAI i Claude 3.5 firmy Anthropic.

Chociaż te modele są podatne na błędy i czasami wymyślają własne fakty, mogą wykonywać zadania takie jak odpowiadanie na pytania, pisanie esejów i generowanie kodu komputerowego. W niektórych testach rozwiązywania problemów i rozumowania matematycznego uzyskują lepsze wyniki niż przeciętny człowiek.

V3 został wytrenowany został kosztem raptem niespełna 6 mln USD. Jest to znacznie tańsze niż na przykład GPT-4, którego opracowanie kosztowało ponad 100 mln USD .

DeepSeek twierdzi również, że wytrenował V3 przy użyciu około 2000 wyspecjalizowanych chipów komputerowych, konkretnie procesorów graficznych H800 firmy NVIDIA . To znowu znacznie mniej niż w przypadku innych firm, które mogły użyć nawet 16 000 mocniejszych chipów H100.

20 stycznia DeepSeek wydał kolejny model, zwany R1. Jest to tzw. model „rozumowania”, który próbuje rozwiązywać złożone problemy krok po kroku. Modele te wydają się być lepsze w wielu zadaniach, które wymagają kontekstu i mają wiele powiązanych ze sobą części, takich jak czytanie ze zrozumieniem i planowanie strategiczne.

Model R1 to zmodyfikowana wersja V3, zmodyfikowana techniką zwaną uczeniem się przez wzmacnianie. R1 wydaje się działać na podobnym poziomie co o1 firmy OpenAI , wydany w zeszłym roku.

DeepSeek wykorzystał tę samą technikę do stworzenia „rozumnych” wersji małych modeli open source, które można uruchomić na komputerach domowych.

Ta wersja wywołała ogromny wzrost zainteresowania DeepSeek, zwiększając popularność aplikacji chatbotów V3 i wywołując ogromny krach cenowy akcji techów. W momencie pisania tego tekstu producent chipów NVIDIA stracił około 600 miliardów dolarów .

Osiągnięcia DeepSeek polegały na osiągnięciu większej wydajności: uzyskiwaniu dobrych wyników przy mniejszej ilości zasobów. W szczególności twórcy DeepSeek opracowali dwie techniki.

Pierwszy dotyczy matematycznej idei zwanej „rzadkością”. Modele AI mają wiele parametrów, które określają ich reakcje na dane wejściowe (V3 ma ich około 671 miliardów), ale tylko niewielka część tych parametrów jest używana dla danego wejścia.

Jednak przewidzenie, które parametry będą potrzebne, nie jest łatwe. DeepSeek użył nowej techniki, a następnie wytrenował tylko te parametry. W rezultacie jego modele wymagały znacznie mniej treningu niż konwencjonalne podejście.

Inna sztuczka dotyczy sposobu przechowywania informacji w pamięci komputera przez V3. DeepSeek znalazł sprytny sposób na kompresję odpowiednich danych, dzięki czemu łatwiej jest je przechowywać i uzyskiwać do nich szybki dostęp.

Modele i techniki DeepSeek zostały udostępnione na podstawie bezpłatnej licencji MIT, co oznacza, że każdy może je pobrać i modyfikować.

Choć dla niektórych firm zajmujących się sztuczną inteligencją może to być zła wiadomość – których zyski mogą zostać nadszarpnięte przez istnienie swobodnie dostępnych, wydajnych modeli – dla np. świata nauki jest to świetna wiadomość.

Również zwykli konsumenci powinni być zadowolenie. Więcej modeli AI może być uruchamianych na własnych urządzeniach użytkowników, takich jak laptopy lub telefony, zamiast działać „w chmurze” za opłatą abonamentową.

Dla badaczy, którzy już mają dużo zasobów, większa wydajność może mieć mniejszy wpływ. Nie jest jasne, czy podejście DeepSeek pomoże tworzyć modele o lepszej wydajności, czy po prostu modele, które są bardziej wydajne.

Autor

Redakcja
View all posts

Cookie	Duration	Description
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Subscribe to newsletter

Autor

Udostępnij:

Zobacz również

DeepSeek: jak mały chiński startup rzuca na dechy zachodnie bigtechy

Chińska firma DeepSeek, zajmująca się sztuczną inteligencją (AI), wywołała szok wypuszczając na rynek niezwykle wydajne modele AI, które mogą konkurować z najnowocześniejszymi produktami takich amerykańskich firm, jak OpenAI i Anthropic.

DeepSeek: ale o co chodzi?

Autor

Udostępnij:

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

Tego autora

srebrny kompas

Współpraca

KUP!

Best of The Best

kup!