Firma Microsoft wypuściła na rynek kolejną wersję swojego lekkiego modelu napędzanego sztuczną inteligencją – Phi-3 Mini – pierwszy z trzech minimodeli, które firma planuje wypuścić na rynek.
Phi-3 Mini mierzy 3,8 miliarda parametrów i jest szkolony na mniejszym zestawie danych w porównaniu do Phi-3 Mini Duże modele językowe, takie jak GPT-4. Jest teraz dostępny na platformach Azure, Hugging Face i Ollama. Microsoft planuje wypuścić Phi-3 Small (parametry 7B) i Phi-3 Medium (parametry 14B). Parametry wskazują liczbę złożonych instrukcji, które model może zrozumieć.
W grudniu firma wypuściła na rynek Phi-2, który działał podobnie do większych modeli, takich jak Llama 2. Microsoft twierdzi, że Phi-3 działa lepiej niż poprzednia wersja i może zapewniać reakcję zbliżoną do modelu 10 razy większego niż to możliwe.
mówi Eric Boyd, wiceprezes korporacyjny platformy Microsoft Azure AI krawędź Phi-3 Mini ma podobne możliwości do programów LLM, takich jak GPT-3.5, „tylko w mniejszej obudowie”.
W porównaniu do swoich większych odpowiedników modele AI są małe Często są tańsze w eksploatacji i osiągają lepsze wyniki osobiście Urządzenia takie jak telefony i laptopy. Informacja Na początku tego roku informowałem, że Microsoft tworzy zespół skupiony szczególnie na lekkich modelach sztucznej inteligencji. Wraz z Phi firma zbudowała także Orca-Math, model skupiający się na rozwiązywaniu problemów matematycznych.
Twórcy szkolili Phi-3, korzystając z „programu nauczania” – mówi Boyd. Inspiracją dla ich projektów było to, jak dzieci uczą się z bajek na dobranoc, książek zawierających prostsze słowa i struktur zdań, które poruszają szersze tematy.
„Nie ma wystarczającej liczby książek dla dzieci, więc wzięliśmy listę zawierającą ponad 3000 słów i poprosiliśmy szkołę LLM o stworzenie „książek dla dzieci” do nauczania Fai” – mówi Boyd.
Dodał, że Phi-3 po prostu opiera się na tym, czego nauczyły się poprzednie iteracje. Podczas gdy Phi-1 skupił się na programowaniu, a Phi-2 zaczął uczyć się myślenia, Phi-3 jest lepszy w programowaniu i rozumowaniu. Chociaż zestaw modeli Phi-3 ma pewną wiedzę ogólną, nie może pokonać GPT-4 ani innego LLM pod względem szerokości – istnieje duża różnica w rodzaju odpowiedzi, które można uzyskać od LLM w pełni przeszkolonego online w porównaniu z mniejszym modelem jak Fi-3.
Boyd twierdzi, że firmy często stwierdzają, że mniejsze modele, takie jak Phi-3, lepiej sprawdzają się w niestandardowych zastosowaniach, ponieważ w przypadku wielu firm ich wewnętrzne zbiory danych i tak będą mniejsze. Ponieważ modele te zużywają mniej mocy obliczeniowej, często są znacznie tańsze.
„Muzyk. Guru kawy. Specjalista od zombie. Adwokat mediów społecznościowych. Introwertyk. Ekstremalny miłośnik jedzenia. Ewangelista alkoholu”.