Meta stellt seinen zweiten benutzerdefinierten Prozessor vor

Meta „MTIA“ V1 (Meta Training and Inference Accelerator) ist fertig

Wenn die meisten Menschen an Meta denken, denken sie an seine Apps, darunter Facebook, Instagram, WhatsApp oder das kommende Metaversum. Viele wissen nicht, dass das Unternehmen einige der weltweit größten und modernsten Rechenzentren für den Betrieb dieser Dienste entworfen und gebaut hat.

Im Gegensatz zu Cloud-Service-Anbietern wie AWS, GCP oder Azure muss Meta abgesehen von seinen OCP-Designs keine Details über seine Siliziumauswahl, seine Infrastruktur oder sein Rechenzentrumsdesign offenlegen, um Käufer zu beeindrucken. Meta-Benutzer wünschen sich bessere und konsistentere Erfahrungen, ohne sich darum zu kümmern, wie es geschieht.

Beispiellose Enthüllungen

Der Mangel an Details änderte sich heute mit der meiner Meinung nach beispiellosen Offenlegung des neuesten KI-Inferenzbeschleunigers des Unternehmens, eines in Produktion befindlichen Videotranscoders, seiner für KI konzipierten Rechenzentrumsarchitektur der nächsten Generation und Details zur zweiten Phase seiner 16.000 GPUs umfassenden KI-Forschung Supercomputer, die erste Phase, die das generative KI-Modell LLaMA antreibt.

Diese Offenlegung sollte für Meta-Stakeholder, einschließlich Investoren, von Interesse sein, da sie sich auf die Markteinführungszeit, die Differenzierung und die Kosten auswirkt.

Anfang dieser Woche habe ich mich mit Alexis Björlin, VP of Infrastructure bei Meta, über den Full-Stack-Ansatz des Unternehmens für seine Halbleiter und weitere Einzelheiten zu seinem neuen KI-Inferenz- und Videobeschleuniger unterhalten.

Ich bin beeindruckt von Metas bisherigen Fortschritten, aber das ist erst der Anfang.

Metas Full-Stack-Ansatz

Bevor ich mich mit „MTIA“ oder „Meta Training and Inference Accelerator“ befasse, wollte ich mir Metas Herangehensweise an Silizium ansehen. Ich freue mich, sagen zu können, dass sich die Siliziumstrategie seit meinem Gespräch mit dem Unternehmen vor anderthalb Jahren nicht geändert hat. Sie können diesen Artikel hier lesen. Meta wird weiterhin Tonnen von handelsüblichem Silizium von AMD, Broadcom, Intel, Marvell und NVIDIA kaufen. Es wird jedoch ein eigenes Modell für spezielle Arbeitslasten entwickeln, bei denen handelsübliches Silizium nicht optimal ist, um die beste Leistung pro Watt und Gesamtbetriebskosten zu liefern.

Dieser Ansatz ist für mich strategisch absolut sinnvoll, da Meta einen „Full-Stack“-Infrastrukturansatz verfolgt und nahezu jede Ebene des Stacks besitzt, von der Infrastruktur bis zur App und alles dazwischen. Wenn Industriestandards für den gesamten Stack optimiert werden, nutzt es diese, und wenn nicht, hilft es bei der Erstellung von Industriestandards wie OCP und PyTorch.

Die Apps und Dienste von Meta sind einzigartig und funktionieren in einem unglaublichen Umfang, was meiner Meinung nach den Bedarf und die Vorteile von kundenspezifischem Silizium noch verstärkt. Facebook- und Instagram-Nutzer sehen sich riesige Mengen an Videos an und erhalten ständig Empfehlungen von Personen, mit denen sie sich vernetzen können, Beiträge, mit denen sie interagieren können, und natürlich Anzeigen, auf die sie klicken können. Sie können sich vorstellen, wie KI-gestütztes Metaversum und generative KI den Bedarf an leistungsschwächeren, besser optimierten Lösungen erhöhen werden.

MSVP: Meta-skalierbarer Videoprozessor

MTIA ist nicht das erste maßgeschneiderte Silizium von Meta. Der MSVP oder „Meta Scalable Video Processor“ ist in Produktion. Letztes Jahr wurden einige Details zum Videotranscoder bekannt, aber das Unternehmen hat beschlossen, heute noch mehr preiszugeben.

Laut Meta verbringen Facebook-Nutzer 50 % ihrer Zeit damit, täglich 4 Milliarden Videos anzusehen. Jedes Video wird nach dem Hochladen komprimiert, gespeichert und dann in ein geeignetes Format dekomprimiert, wenn der Benutzer es ansehen möchte. Diese Videos werden mit Standardformaten wie H.264 und VP9 transkodiert (komprimiert/dekomprimiert). Der Trick besteht darin, die Datei schnell zu verkleinern, schnell zu speichern und in höchster Qualität für das entsprechende Gerät (z. B. Telefon, Tablet, PC) in höchstmöglicher Qualität zu streamen.

Der im MSVP V1 (Meta Training and Inference Accelerator) verpackte Chip von Meta.

Diese Art von Workload-Eigenschaft ist perfekt für einen ASIC (Application Specific Integrated Circuit), einen Workload, der die höchste Effizienz über einen festen Standard hinweg erfordert. ASICs sind am effizientesten, aber nicht so programmierbar wie eine CPU oder GPU. Wenn der Videostandard von H.264 und VP9 auf AV1 wechselt, was wahrscheinlich in der Zukunft der Fall sein wird, muss Meta einen neuen ASIC erstellen, eine neue Version von MSVP.

Meta sagte, dass es in Zukunft für „Kurzformvideos“ optimiert wird, um eine effiziente Bereitstellung generativer KI, AR/VR und anderer Metaverse-Inhalte zu ermöglichen. Einen MSVP-fokussierten Artikel finden Sie hier.

Auf KI-Inferenzierung.

MTIA V1: Meta-Training und Inferenzbeschleuniger

Ich denke, die bedeutendste Ankündigung auf der Meta-Veranstaltung ist ihr Vorstoß in die benutzerdefinierte KI-Inferenzierung. KI hat für Verbraucher alles verändert und wird sich in Zukunft noch mehr verändern. Meta ist in seinem Arbeitsablauf kein Unbekannter in Bezug auf KI. Derzeit nutzt es KI bei der Inhaltsauswahl, bei Anzeigenvorschlägen, bei der Inhaltsfilterung eingeschränkter Inhalte und sogar bei Tools für seine internen Programmierer. Sie können sich vorstellen, wie viel KI für seine metaversen und generativen KI-gestützten Erfahrungen benötigt wird.

Wie der MSVP ist auch der MTIA ein ASIC, konzentriert sich jedoch auf Empfehlungsmodelle der nächsten Generation und ist in PyTorch integriert, um ein optimiertes Ranking-System zu erstellen. Denken Sie daran, wann einem Facebook- oder Instagram-Nutzer Inhalte, neue „Freunde“ oder Werbung empfohlen werden. Ich denke, es ist wahrscheinlich einer der am häufigsten verwendeten KI-Workloads auf der Plattform.

Bis zu 12 MTIA V1 M.2-Karten wurden im Jahr 2020 entwickelt und können in einem Server untergebracht werden, um mit PyTorch entwickelte Inferenzempfehlungs-Workloads für „kleine Chargen mit niedriger“ und „mittlerer“ Komplexität zu beschleunigen. Die Auswertung von Meta ergab, dass MTIA V1 eine optimale Empfehlungsleistung, gemessen in TFLOPs pro Watt, lieferte. Weitere Details zu den Empfehlungstests von Meta finden Sie hier. Meta sagt, dass „GPUs nicht immer optimal waren, um die spezifischen Empfehlungs-Workloads von Meta mit dem für unsere Größenordnung erforderlichen Effizienzniveau auszuführen.“

Das Training dieser Modelle steht eindeutig auf der Roadmap, daher das „T“ in „MTIA“. Letztendlich wird Meta weiterhin handelsübliche Silizium-GPUs für die Arbeitslasten verwenden, bei denen die GPU eine bessere Leistung pro Watt bietet. Vergessen Sie nicht, dass Hunderte von KI-Workloads auch heute noch besser auf GPUs und vielen anderen Frameworks außer PyTorch funktionieren.

Einpacken

Aufgrund der Offenlegungen von Meta glaube ich, dass das Unternehmen bewiesen hat, dass es ein fähiger Akteur im Bereich selbst hergestelltes Silizium ist. Ich habe Meta aufgrund seiner Beiträge zu OCP lange als Innovator im Bereich Infrastruktur betrachtet, aber Silizium ist noch einen großen Schritt weiter. Viele Dienstleistungs- und Geräteunternehmen, vom Rechenzentrum bis zum Smartphone, haben sich mit selbst hergestelltem Silizium beschäftigt und sind ausgestiegen, aber ich glaube nicht, dass dies hier der Fall sein wird. Aufgrund der einzigartigen Anforderungen und der Größe von Meta ist der Gewinn höher als bei Unternehmen, die homogenere Anwendungen oder in kleinem Maßstab betreiben.

Im Großen und Ganzen glaube ich, dass es für Meta-Stakeholder, einschließlich Investoren, wichtig sein sollte, wenn Meta aufgrund seiner einzigartigen Anforderungen und seines Umfangs weiterhin erfolgreich heimisches Silizium hinzufügen kann. Selbstgebautes Silizium führt, wie wir bei Apple und AWS gesehen haben, richtig gemacht zu Vorteilen bei der Markteinführungszeit, der Differenzierung und den Kosten. Das allein dürfte die Aufmerksamkeit der Anleger erregen. Die aggressivsten Ingenieure wollen für Technologieführer arbeiten, die an coolen Dingen arbeiten. Das selbst entwickelte Silizium von Meta ist cool und ergänzt die anderen coolen Entwickler-, Infrastruktur- und KI-Projekte wie Grand Teton, PyTorch und den neuesten Research SuperCluster des Unternehmens.

Ich freue mich darauf, die künftigen selbst entwickelten Technologien von Meta zu bewerten.

Moor Insights & Strategy bietet oder hat kostenpflichtige Dienstleistungen für Technologieunternehmen wie alle Forschungs- und Analyseunternehmen der Technologiebranche bereitgestellt. Diese Dienstleistungen umfassen Recherche, Analyse, Beratung, Consulting, Benchmarking, Akquise-Matchmaking sowie Video- und Vortragssponsoring. Das Unternehmen hatte oder unterhält derzeit bezahlte Geschäftsbeziehungen mit 8×8, Accenture, A10 Networks, Advanced Micro Devices, Amazon, Amazon Web Services, Ambient Scientific, Ampere Computing, Anuta Networks, Applied Brain Research, Applied Micro, Apstra, Arm, Aruba Networks (jetzt HPE), Atom Computing, AT&T, Aura, Automation Anywhere, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, C3.AI, Calix, Cadence Systems, Campfire, Cisco Systems, Clear Software, Cloudera , Clumio, Cohesity, Cognitive Systems, CompuCom, Cradlepoint, CyberArk, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Dialogue Group, Digital Optics, Dreamium Labs, D-Wave, Echelon, Ericsson, Extreme Networks, Five9, Flex, Foundries .io, Foxconn, Frame (jetzt VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Revolve (jetzt Google), Google Cloud, Graphcore, Groq, Hiregenics, Hotwire Global, HP Inc., Hewlett Packard Enterprise, Honeywell, Huawei Technologies, HYCU, IBM, Infinidat, Infoblox, Infosys, Inseego, IonQ, IonVR, Inseego, Infosys, Infiot, Intel, Interdigital, Jabil Circuit, Juniper Networks, Keysight, Konica Minolta, Lattice Semiconductor, Lenovo, Linux Foundation, Lightbits Labs , LogicMonitor, LoRa Alliance, Luminar, MapBox, Marvell Technology, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Merck KGaA, Mesophere, Micron Technology, Microsoft, MiTEL, Mojo Networks, MongoDB, Multefire Alliance, National Instruments, Neat , NetApp, Nightwatch, NOKIA, Nortek, Novumind, NVIDIA, Nutanix, Nuvia (jetzt Qualcomm), NXP, onsemi, ONUG, OpenStack Foundation, Oracle, Palo Alto Networks, Panasas, Peraso, Pexip, Pixelworks, Plume Design, PlusAI, Poly (ehemals Plantronics), Portworx, Pure Storage, Qualcomm, Quantinuum, Rackspace, Rambus, Rayvolt E-Bikes, Red Hat, Renesas, Residio, Samsung Electronics, Samsung Semi, SAP, SAS, Scale Computing, Schneider Electric, SiFive, Silver Peak (jetzt Aruba-HPE), SkyWorks, SONY Optical Storage, Splunk, Springpath (jetzt Cisco), Spirent, Splunk, Sprint (jetzt T-Mobile), Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, Telesign, TE Connectivity , TensTorrent, Tobii Technology, Teradata, T-Mobile, Treasure Data, Twitter, Unity Technologies, UiPath, Verizon Communications, VAST Data, Ventana Micro Systems, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zayo, Zebra, Zededa, Zendesk , Zoho, Zoom und Zscaler. Patrick Moorhead, Gründer, CEO und Chefanalyst von Moor Insights & Strategy, ist Investor in dMY Technology Group Inc. VI, Fivestone Partners, Frore Systems, Groq, MemryX, Movandi und Ventana Micro.

Beispiellose EnthüllungenMetas Full-Stack-AnsatzMSVP: Meta-skalierbarer VideoprozessorMTIA V1: Meta-Training und InferenzbeschleunigerEinpacken