BM129: Inferencja modele LLM: Mniej kosztów, więcej mocy

25 set 2024 · 1 h 9 min. 18 sec.
BM129: Inferencja modele LLM: Mniej kosztów, więcej mocy
Descrizione

Chcesz uruchomić modele LLM (np. Llama, Mistral czy Bielika) na własnych warunkach? W tym odcinku dowiesz się o sprzęcie, oprogramowaniu i trikach, które to ułatwią. Konkretna i praktyczna wiedza, która...

mostra di più
Chcesz uruchomić modele LLM (np. Llama, Mistral czy Bielika) na własnych warunkach? W tym odcinku dowiesz się o sprzęcie, oprogramowaniu i trikach, które to ułatwią. Konkretna i praktyczna wiedza, która Ci się przyda. 

Oglądaj na YouTube: https://youtu.be/_OKLzmaSmg0

🔔 Subskrybuj i włącz powiadomienia - Twoja droga do praktycznego ML zaczyna się od jednego kliknięcia: https://www.youtube.com/@DataWorkshop?sub_confirmation=1
👍 Zostaw like, bo więcej lajków = więcej praktycznych treści dla Ciebie!
💬 Co o tym myślisz? Zostaw komentarz! Masz pytanie? Zadaj je - chętnie odpowiem.
🤝 Poznajmy się lepiej! Zaproś mnie do swojej sieci na LinkedIn:  https://www.linkedin.com/in/vladimiralekseichenko/
🔊 Zainicjuj rozmowę o ML w firmie, polecając ten podcast. Zainspiruj zespół do wdrażania ML!



Poruszam też wątek GPT-4o: czy to rewolucja, czy ewolucja? I dlaczego OpenAI w tym modelu postawiło na inferencję oraz jak to jest powiązane z "rozważaniem". Podaję analogię, aby pobudzić Twoją wyobraźnię :).

Do tego opowiadam jeszcze historię o Elon Musku, jak zorganizował serwerownię z 100 tysiącami kart H100 (+50 tysięcy) w około 4 miesiące, gdzie normalnie zajęłoby to co najmniej rok, i jakie napotkali wyzwania, poza samym zakupem kart GPU (wydał na nie ponad kilka miliardów dolarów). Dla porównania w Polsce na wszystkich uczelniach łącznie jest ok. 1 tys. H100.

Pracując nad tym odcinkiem zrobiłem ​mapę myśli​, aby lepiej ustrektyryzwaoć wiedzę. Tu możesz je znaleźć. Łap! :) Można powiększać i klikać (część linków zostawiłem, chociaż przyznam, że to długi proces, ale uznałem, że może być wartościowy dla Ciebie). 

🔥 https://mm.tt/app/map/3441826029?t=XESxGmZdR8



 Pytania, na które znajdziesz odpowiedzi w tym odcinku:
- Czym jest inferencja modeli LLM i jakie są kluczowe wymagania sprzętowe do jej przeprowadzenia?
Jakie są dostępne opcje dostępu do mocy obliczeniowej potrzebnej do uruchamiania modeli AI i jakie są ich zalety oraz wady?
- Jakie są główne różnice między zamkniętymi a otwartymi modelami AI i którzy są kluczowi gracze w tej dziedzinie?
- Ile RAMu potrzebuje DUŻY model językowy i czy Twój komputer da radę?
- Ile GPU trzeba mieć aby uruchomić Llame 8B, 70B czy nawet 400B?
Jakie są najważniejsze parametry GPU i co one oznaczają w praktyce (tak po ludzku)?
- Czy NVIDIA to JEDYNY wybór dla sprzętu? Poznaj alternatywy!
- Czym jest kwantyzacja modeli LLM i jak wpływa na ich wydajność oraz precyzję?

Partnerem podcastu jest DataWorkshop.

Chcesz więcej? Zajrzyj do moich kursów online i ucz się ML i analizy danych w praktyce!
👉 DS/ML od podstaw - https://dataworkshop.eu/pl/practical-machine-learning
👉 Python - https://dataworkshop.eu/pl/intro-python
👉 Statystyka - https://dataworkshop.eu/statistics
👉 SQL - https://dataworkshop.eu/pl/sql
👉 Time Series - https://dataworkshop.eu/pl/time-series
👉 NLP - https://dataworkshop.eu/pl/nlp

🎧 Słuchaj BM wygodnie na Spotify, Apple Podcasts lub Google Podcasts:
📌 https://open.spotify.com/show/3ZUaHommHHZU6b4WJiyV2I
📌 https://podcasts.apple.com/us/podcast/biznes-myśli/id1215290277
📌 https://music.youtube.com/playlist?list=PLWOCRT27Z94XZzwcRI9-ExMyUXeBrF3W_
mostra meno
Informazioni
Autore Vladimir Alekseichenko
Organizzazione Vladimir
Sito biznesmysli.pl
Tag

Sembra che non tu non abbia alcun episodio attivo

Sfoglia il catalogo di Spreaker per scoprire nuovi contenuti

Corrente

Copertina del podcast

Sembra che non ci sia nessun episodio nella tua coda

Sfoglia il catalogo di Spreaker per scoprire nuovi contenuti

Successivo

Copertina dell'episodio Copertina dell'episodio

Che silenzio che c’è...

È tempo di scoprire nuovi episodi!

Scopri
La tua Libreria
Cerca