DeepSeek | |
![]() | |
Тып | прыватная кампанія[d] |
---|---|
Заснаваная | травень 2023[1] |
Уласьнікі | High-Flyer[d] |
Краіна | |
Разьмяшчэньне | |
Галіна | інфармацыйныя тэхналёгіі і штучны інтэлект |
Матчына кампанія | High-Flyer[d] |
DeepSeek (кіт. спр. 深度求索, піньінь: Shēndù Qiúsuǒ) — кітайская кампанія, якая спэцыялізуецца на распрацоўцы штучнага інтэлекту, а таксама сямейства вялікіх моўных мадэляў. Кампанія базуецца ў Ханчжоў, заснаваная й падтрымліваецца кітайскім хэдж-фондам High-Flyer. DeepSeek выпусьціла свае мадэлі з адкрытым зыходным кодам. Вэрсія DeepSeek-V3 лічыцца параўнальнай зь іншымі моўнымі мадэлямі ў 2024 годзе, такімі як Qwen і ChatGPT.
Выхад мадэлі DeepSeek-R1 у студзені 2025 году выклікаў кароткачасовае, але рэзкае зьніжэньне курсаў акцыяў сусьветных тэхналягічных кампаніяў і дыскусіі пра пераацэнку інвэстыцыяў у ШІ.
У 2015 годзе тры інжынэра з Чжэцзянскага ўнівэрсытэту заснавалі кампанію High-Flyer. Яна выкарыстала машыннае навучаньне для гандлю акцыямі. У 2019 годзе створана кампанія High-Flyer AI, якая займалася дасьледаваньнямі альгарытмаў штучнага інтэлекту[2]. Да 2021 году ўсе стратэгіі High-Flyer выкарыстоўвалі ШІ, яе параўноўвалі з Renaissance Technologies.
У красавіку 2023 году High-Flyer абвясьціла пра новы праекце для дасьледаваньня агульнага штучнага інтэлекту. Ён ня будзе выкарыстоўвацца для гандлю акцыямі і аддзеліцца ад фінансавага бізнэсу High-Flyer[3][4]. У траўні 2023 году кампанія была запушчана пад назвай DeepSeek, яе ўзначаліў адзін з сузаснавальнікаў хэдж-фонду High-Flyer Лян Вэньфэн[2][4]. Распрацоўка DeepSeek фінансуецца High-Flyer[4].
Выпуск DeepSeek-V2 у траўні 2024 году справакаваў цэнавую вайну мадэляў штучнага інтэлекту ў Кітаі, бо прапаноўвалася высокая прадукцыйнасьць па нізкай цане. Яе ахрысьцілі «Pinduoduo ШІ», а іншым буйным тэхналягічным гігантам, такім як ByteDance, Tencent, Baidu і Alibaba, прыйшлося пачаць зьніжаць цэны на свае мадэлі ШІ. Нягледзячы на нізкую цану DeepSeek, кампанія дала справаздачу пра прыбытак у параўнаньні з канкурэнтамі, якія, па-відаць, несьлі страты[5].
На канец 2024 году DeepSeek займаецца дасьледаваньнямі і не заяўляе падрабязных плянаў камэрцыялізацыі[5].
Кітайская газэта South China Morning Post піша, што пры найманьні новых супрацоўнікаў кампанія DeepSeek аддавала перавагу здольнасьцям, а ня вопыту, таму большасьць распрацоўшчыкаў — гэта альбо нядаўнія выпускнікі, альбо распрацоўшчыкі на раньняй стадыі сваёй карʼеры ў сфэры ШІ[4].
Да 2025 году DeepSeek змагла стварыць ШІ з магчымасьцямі як у вядучых тэхналягічных кампаніяў ЗША, але, як заяўлена, на менш магутных чыпах і за малую частку кошту. Супрацоўнікі DeepSeek пішуць, што навучалі мадэль V3 на чыпах Nvidia H800, а яны значна менш магутныя, чым новыя Nvidia Blackwell[6][7]. Незалежныя назіральнікі адзначаюць, што DeepSeek і іншыя кітайскія кампаніі маюць перавагу, бо на кітайскім рынку доступ да ChatGPT і шэрагу іншых мадэляў заблякаваны Вялікім кітайскім фаерволам. DeepSeek, верагодна, цэнзуруе выдачу. Пры гэтым ня ўсе далікатныя для Кітая тэмы гэтаму схільныя[8][9].
Запуск новай мадэлі R1, як мяркуецца распрацаванай нашмат таньней кошту канкурэнтаў, справакаваў рэзкае зьніжэньне курсаў акцыяў сусьветных тэхналягічных кампаніяў. Так, 27 студзеня 2025 году акцыі вытворцы
Узрушэньні на сусьветных рынках праз DeepSeek цягнуліся кароткі час[10]. Пры гэтым аналітыкі Huaxi Securities палічылі тое, што адбылося пераломным момантам, калі ў кітайскіх інвэстараў вырасла цікавасьць да мясцовых кампаніяў, якія працуюць з ШІ[11]. 12 лютага 2025 году Financial Times паведаміла, што на фоне посьпеху DeepSeek ў Ганконгу індэкс кітайскіх тэхналягічных акцыяў вырас больш чым на 20 % за месяц[12].
Таоша Ван (Fidelity International) у лютым 2025 году піша, што кошт распрацоўкі вядучых мадэляў ШІ ўжо ўпаў прыкладна на 80 % за апошнія два гады, а DeepSeek, магчыма, паскорыць гэтую тэндэнцыю. На яе думку, «DeepSeek зьяўляецца напамінам, як хутка ўсё можа зьмяніцца і, хутчэй за ўсё, зьменіцца ў эпоху ШІ»[10].
2 лістапада 2023 году DeepSeek прэзентавала сваю першую мадэль Deepseek Coder, якая была бясплатнай, у тым ліку для камэрцыйнага выкарыстаньня[13]. Кампанія DeepSeek робіць мадэлі з так званым «адкрытай вагой» (open-weight), якія трохі адрозьніваюцца ад цалкам адкрытага зыходнага кода: мадэль можа свабодна выкарыстоўвацца паўторна па ліцэнзіі MIT, можна вывучаць і разьвіваць альгарытм, але зьвесткі для навучаньня не пададзены[14][15].
29 лістапада 2023 году DeepSeek запусьціла DeepSeek LLM (вялікую моўную мадэль) з 67 млрд парамэтраў. Яна была распрацавана, каб канкурыраваць зь іншымі LLM таго часу, і па прадукцыйнасьці набліжалася да GPT-4. У яе паўсталі праблемы з вылічальнай эфэктыўнасьцю і маштабаванасьцю[13]. Таксама была выпушчаная чат-вэрсія мадэлі пад назвай DeepSeek Chat[16].
У траўні 2024 году выйшла DeepSeek-V2. Financial Times паведаміла, што яна была таньней аналягаў, каштавала 2 юаня за кожны мільён выпушчаных токенаў. У рэйтынгу LLM лябараторыі Tiger Lab унівэрсытэта Ўотэрлоа DeepSeek-V2 заняла сёмае месца.
У сьнежні 2024 году запушчана DeepSeek-V3. Тэсты прадукцыйнасьці паказалі, што вэрсія пераўзышла Llama 3.1 і Qwen 2.5, а таксама адпавядала GPT-4o і Claude 3.5 Sonnet[4][17][18][19]. На студзень 2025 году незалежныя праверкі працягваюцца[8]. Выпадак DeepSeek паказаў, што санкцыі ЗША ў дачыненьні да разьвіцьця штучнага інтэлекту ў Кітаі, верагодна, не вельмі эфэктыўныя[20][4]. Амэрыканскі аналітык Рэй Ванг выказаў здагадку, што праз адсутнасьць у Кітая вольнага доступу да перадавых чыпаў ШІ, кітайскія навукоўцы ўкараняюць інавацыі пры абмежаваных рэсурсах[8]. Паводле зьвестак вытворцы, агульны кошт навучаньня мадэлі блізу 5,58 млн долараў ЗША, а само навучаньне заняло блізу двух месяцаў[4].
DeepSeek-V3 мае 685 мільярдаў парамэтраў і мульціэкспэртную архітэктуру (MoE) з 256 экспэртамі, зь якіх 8 актывуюцца для кожнага токена. Кожны токен актывуе 37 мільярдаў парамэтраў.
Этап | Выдаткі (тыс. GPU-гадзін) | Кошт (млн $) |
---|---|---|
папярэдняя падрыхтоўка | 2664 | 5,328 |
пашырэньне кантэксту | 119 | 0,24 |
тонкая налада | 5 | 0,01 |
агульны | 2788 | 5,576 |
У лістападзе 2024 году зьявілася DeepSeek-R1-Lite-Preview для вырашэньня задач, якія патрабуюць лагічнага вываду, матэматычных разваг і вырашэньня праблем у рэальным часе. DeepSeek сьцьвярджаў, што прадукцыйнасьць пераўзышла OpenAI o1 у такіх тэстах, як AIME і MATH[21]. Аднак The Wall Street Journal адзначыла, што пры выкарыстаньні 15 задач з тэстаў AIME 2024 году OpenAI o1 знайшоў рашэньні хутчэй, чым DeepSeek R1-Lite-Preview[22].
У студзені 2025 году выйшлі DeepSeek-R1 і DeepSeek-R1-Zero, заснаваныя на V3. Гэтыя мадэлі больш прасунутыя, чым раньнія. Яны генэруюць адказы крок за крокам, аналягічна развазе чалавека. Па першых тэстах, пры выкананьні пэўных задач па матэматыцы, хіміі і праграмаваньні прадукцыйнасьць R1 знаходзіцца на адным узроўні з o1[14][23][24].
Назіраецца, што афіцыйная API-вэрсія мадэлі R1 выкарыстоўвае мэханізмы цэнзуры для адчувальных тэм, асабліва тых, якія лічацца палітычна значнымі ў Кітаі. Напрыклад, мадэль адмаўляецца адказваць на пытаньні пра падзеі на плошчы Цяньаньмэнь у 1989 годзе. Часам ШІ першапачаткова генэруе адказ, але неўзабаве выдаляе яго і замяняе паведамленьнем: «Прабачце, гэта выходзіць за рамкі маіх магчымасьцяў. Давайце пагаворым пра што-небудзь іншае»[25].
Інтэграваныя мэханізмы цэнзуры і абмежаваньні можна часткова абыйсьці толькі ў адкрытай вэрсіі мадэлі R1. Як толькі закранаюцца «асноўныя сацыялістычныя каштоўнасьці», вызначаныя кітайскімі інтэрнэт-рэгулятарамі, або падымаюцца пытаньні, зьвязаныя з Тайваням, дыскусіі спыняюцца.
Журналіст Энтані Кімеры піша, што сыстэма штучнага інтэлекту патэнцыйна можа быць выкарыстана для ўплыву за мяжой: дэзінфармацыі, назіраньня і распрацоўкі кібэрзброі для кітайскіх спэцслужб. Або што прыкладаньне можа перадаваць пэрсанальныя зьвесткі карыстальнікаў у Кітай[26].
Газэта The Indian Express адзначае, што распаўсюджаныя асьцярогі з нагоды часу запуску DeepSeek-R1 як сыгналу Кітая пра ўзровень разьвіцьця яго ШІ. R1 зьявілася менавіта ў той момант, калі Дональд Трамп стаў прэзыдэнтам ЗША[6].
Аналітыкі брокерскай кампаніі Bernstein мяркуюць, што агульныя выдаткі на навучаньне V3 нашмат вышэй, чым заяўленыя $5,58 млн, і не лічаць мадэлі DeepSeek цудам. Таксама яны зьвяртаюць увагу на тое, што DeepSeek не раскрыла выдаткі на навучаньне R1. Генэральны дырэктар кампаніі Scale AI Аляксандар Ван сказаў у інтэрвію, што нібыта DeepSeek мае 50 000 чыпаў Nvidia H100, але не прывёў доказаў[27][28]. OpenAI і Дэвід Сакс, спэцпрадстаўнік прэзыдэнта ЗША па штучным інтэлекце, западозрылі, што DeepSeek выкарыстала мадэлі канкурэнта для навучаньня[29].