Mac-TV wagt sich an ein neues Experiment! Wir beantworten knifflige technische Fragen von Zuschauen. Risikoooo! Durch einen Aufruf im Forum wurden (und werden) Zuschauer dazu eingeladen, ihre Fragen einzureichen. Die erste eingegangene Frage betrifft die Nutzung von Robotern in der Produktion bei Apple, ein Thema, das aufgrund früherer Berichte über den Einsatz von Robotern bei Foxconn und den jüngsten Einblicken in die Produktion der Vision Pro aktuell ist. Natürlich haben wir keine direkten Einblicke in die Produktion von Foxconn, aber wir versuchen, aus aktuellen Trends etwas abzuleiten. Wir zeigen dazu ein paar aufschlussreiche Videos über Roboter — teilweise, wie sie schon eingesetzt werden und teilweise, wie sie derzeit in den Laboren errorscht werden. Das zweite Thema widmet sich der Frage, ob Microsoft womöglich dauerhaft die Nase vorn hat bei der Integration von KI in Office. (Spielzeit: 42 Minuten.)
Von Gastautor Yusuf. Welche technischen Möglichkeiten gibt es, diese hohe Zentralisierung von einer Handvoll Unternehmen umzukehren?
Die Option über mehr Regulatorik hat nicht richtig funktioniert, eher im Gegenteil, mehr Regulatorik führt in der Regel zu einer höheren Konzentration.
Beispiel DSGV & Cookie Law: Große Unternehmen haben viele Juristen und die finanziellen Mittel, um jede Vorgabe und jedes Gesetz einzuhalten und umfangreiche Prüfungen vorzunehmen. Der kleine Unternehmer hat es i.d.R. sehr schwer, solche Themen ordentlich umzusetzen. Weiterlesen »
Beispiel Cloud (= Corporate Network): Wenn wir von „Cloud“ reden, meinen wir schlichtweg einen Computer/Server im Besitz einer anderen Firma (AWS, Microsoft Azure, Google Cloud, Apple’s iCloud etc.). Der Eigentümer der Hardware hat meist eine große Macht über die drauf laufende Software und in machen Fällen sogar über die Daten auf dem Server. Auch wenn u.a. Apple durch Verschlüsselung, 2FA und einer guten Struktur User-Daten nicht einsehen kann, handhaben es andere Anbieter machmal anders. Zusätzlich man muss auf die Aussagen der Unternehmen vertrauen, denn „closed source“ macht eine Überprüfbarkeit unmöglich.
Umkehr der Machtverhältnisse —> Blockchain Network
In diesen Netzwerken hat der Eigentümer der Hardware (= Knoten-Betreiber, auch "Node" genannt) nicht die gleichen weitreichenden Optionen wie bei einem Corporate Network.
„Traditional computers are ultimately controlled by people, either directly in the case of personal computers or indirectly through organizations. Blockchains invert this power relationship, putting the code in charge. A game theoretic mechanism — a so-called consensus mechanism — makes blockchains resilient to modifications to their underlying physical components, effectively making them resilient to human intervention.“?
— Chris Dixon
In einem Blockchain Netzwerk werden Computer so miteinander verknüpft, dass eine Art virtueller Computer entsteht.
Die Daten sind, wie bei der klassischen Cloud auch, zwar auf einem „anderen“ Computer gespeichert, diese können aber nur von denjenigen eingesehen werden, die auch den passenden „Schlüssel“ (= auch genannt "Seed-Phrase") haben. Da der Code der Software, komplett offen ist (= Open Source) und der Eigentümer der Hardware keine nachträglichen Änderungen am Code vornehmen kann, handelt es sich bei dieser Art von Computer um etwas ganz Spezielles, dass wir bisher so nicht hatten.
Chris Dixon schreibt:
„Blockchains are computers that can make commitments.“
Somit wird aus „Don’t be evil.“ [Google] —> „Can’t be evil.“. Man muss nicht mehr dem Eigentümer der Hardware vertrauen, sondern dem Code des Blockchain Netzwerks!
Schauen wir uns mal ein Bespiel an (email stack vs. blockchain stack):
Diese Grafik möchte ich später etwas genauer erklären, wir konzentrieren uns zunächst auf E-Mail und SMPT, da dieser Teil für uns bereits bekannt ist.
Wir haben auf der einen Seite einen E-Mail-Client wie Google Mail, Yahoo, Apple Mail usw. und beispielsweise das E-Mail Protokoll „SMTP“ zum Versenden und Empfang einer E-Mail. Man kann die Clients beliebig austauschen oder beispielsweise eine eigene Domain kaufen und einen E-Mail-Server bei DigitalOcean aufsetzen. Sollte DigitalOcean zu teuer werden oder einen anderen Schritt unternehmen, um den User schlechter darzustellen, kann dieser beispielsweise zu AWS wechseln.
Die große Frage lautet. Kann diese Technologie auch verwendet werden, um beispielsweise soziale Netzwerke wie Twitter/X anders aufzubauen?
Von Gastautor Yusuf. Ich wage hier mal ein Experiment und schreibe zu einem Themen-Gebiet, dass auch unter Nerds nicht richtig verstanden und daher gerne ignoriert (oder sogar bekämpft) wird!
Ich glaube, dass hier die User im Forum die groben Ursprünge des kommerziellen Internets (Ender der 90er / Anfang der 200er Jahre) erlebt haben. Der große Vorteil war der *offene* Charakter. Jeder konnte etwas aufbauen, ohne jemanden nach einer Erlaubnis zu fragen. Es gab keine API’s, App-Stores oder große Unternehmen, die gefragt werden mussten. Man konnte auf vorhanden Protokollen (wie beispielsweise HTTP / HTTPS, SMTP etc.) Dienstleistungen aufbauen und diese auch besitzen, ohne die Befürchtung haben zu müssen, dass durch eine API-Änderung das Aufgebaute zu verlieren.
Visuell könnte man sich das Internet in den Anfängen wie folgt vorstellen:
Über die Zeit sind große, sehr wertvolle (auch in Bezug auf die Marktkapitalisierung) und auf Werbeeinnahmen basierte Unternehmen wie Google, Facebook, Instagram und Twitter (= „Big Tech“) entstanden. Weiterlesen »
Das änderte die Spielregeln für viele Teilnehmer dieser Netzwerke radikal. Wir sind von einem erlaubnislosen und offenen Internet zu einem mehr und mehr geschlossenen Internet übergegangen.
Plötzlich musste man nach Erlaubnis fragen und Regeln einhalten, die von diesen Unternehmen teilweise willkürlich geändert werden konnten. Zusätzlich werden teilweise hohe Gebühren fällig, von 100% (Facebook, Instagram & Twitter) bis hin zu 15%/30% Apple. Damit meine ich, dass Facebook beispielsweise den Content seiner User nimmt, Werbung zwischen die Posts schaltet und die User an den Gewinnen nicht mit beteiligt.
Einige hier können sich vielleicht an das Unternehmen "Zynga" erinnern. Dieses Unternehmen wurde mit Browser-Spielen auf sozialen Plattformen wie Facebook und Myspace und den Spielen FarmVille und CityVille bekannt und auch finanziell sehr erfolgreich.
Es kam wie es kommen musste und Facebook änderte irgendwann die Spielregeln, so dass das Unternehmen schnell an Bedeutung verlor.
Dazu hat Chris Dixon eine sehr interessante Erklärung:
Am Anfang, wenn diese Unternehmen noch klein sind, machen sie alles, um viele User und Content-Ersteller anzuziehen (= attract).
Je größer diese Unternehmen werden, desto eher werden diese Spielregeln dann so verändert, dass der Plattform-Betreiber einen monetären Vorteil zieht (= extract).
Das Internet, dass wir aktuell kennen, hat mittlerweile für alle Teilnehmer (außer für die großen Unternehmen) zum Teil große Nachteile:
Gibt es eine *technische* Lösung, um die Vorteile des offenen Internets wie in den Anfängen wieder zu erhalten und weg von der hohen Zentralisierung hin zu mehr Dezentralisierung (und damit mehr an die "Ränder" und somit an die User und Content-Ersteller) zu gehen?
Nächste Live-Sendung: Sonntag, 28. April um 19:00 Uhr
Sie sind neu hier? Herzlich willkommen! Unsere Live-Sendung findet normalerweise am Sonntag um 19 Uhr statt, aber natürlich gibt's auch mal Verschiebungen oder Sondersendungen. Unten sehen Sie die demnächst geplanten Sendungen.
Tipp: Abonnieren Sie unseren Kalender, um automatisch immer die aktuellen Termine in Ihrem Kalender angezeigt zu bekommen.
Falls Sie eine Live-Sendung verpasst haben, finden Sie die Aufzeichnung meist nach einem Tag in der rechten Spalte unter dem Titel "ReLive". Die ReLive-Sendungen enthalten zusätzlich zu den einzelnen Beiträgen immer noch einige kleinere Themen oder Schabernack.
Termine im April:
Sonntag, 28. April, 19:00 Uhr
Termine im Mai:
Sonntag, 05. Mai, 19:00 Uhr
Dienstag, 07. Mai, 15:00 Uhr (Keynote-Sondersendung)
Die Wahl des richtigen Displays für Mac-Nutzer stellt oft eine Herausforderung dar, insbesondere wenn es um die Abwägung zwischen Preis und Leistung geht. Während der Markt günstige 4K-Displays von Herstellern wie LG, Samsung, Dell und HP bietet, zeichnen sich Apples 5K- und 6K-Displays durch ihre höhere Auflösung aus. Die Frage, ob es möglich wäre, die Vorteile beider Welten zu kombinieren, um hochauflösende Panels zu einem erschwinglicheren Preis anzubieten, steht im Raum. Trotz der offensichtlichen Vorteile von 5k scheint es jedoch keinen großen Markt für solche Displays zu geben. Umso interessanter ist ein 5K-Display von Samsung, das als direkter Konkurrent zu Apples Studio Display positioniert wird, während das bisherige LG UltraFine 5K-Monitor aus dem Rennen zu sein scheint. Direkt zum Film »
Inspiriert von einem Vorschlag aus dem Forum beleuchten wir ein scheinbar kleines, aber entscheidendes Element, das bei den Anwendern offenbar sehr beliebt ist: Die Verwendung von Magneten in Apple-Produkten. Es erinnert an die Innovationsfreude von Steve Jobs. Denn Magnete verleihen den Geräten nicht nur eine angenehme Haptik, sondern zeugen auch vom außerordentlichen Aufwand, den die Ingenieure betreiben, um solche Details zu perfektionieren. Diese Verliebtheit in Details, die Produkte mit einem befriedigenden "Klack" schließen oder öffnen lässt, steht exemplarisch für die Eleganz der Apple-Geräte. Wir zeigen wesentliche Produkte und Meilensteine, die mit Magneten zu tun hatten. Direkt zum Film »
In einer neuen Serie beantworten wir knifflige oder interessante Fragen der Zuschauer. In der aktuellen Folge geht es um eine kürzlich aufgedeckte Sicherheitslücke in Apples M-Prozessoren. Diese Lücke ermöglicht potenziell das Extrahieren geheimer Schlüssel. Da es sich um ein hardwarebedingtes Problem handelt, sind die Möglichkeiten zur Behebung durch Software-Updates begrenzt. Diese Sicherheitslücke wirft wichtige Fragen auf. Erstens, wie funktioniert das? Zweitens, wie gefährlich ist es? Drittens, was kann Apple dagegen tun? Wie wird Apple auf diese Herausforderung reagieren, und welche Auswirkungen könnte dies auf die Nutzer haben? Direkt zum Film »
Mark Zuckerberg meint damit, dass der Umbruch durch KI so groß sein wird, dass es sich vergleichen lässt mit dem Umbruch, überhaupt Computer zu haben. Ob ein Computer nützlich ist, wird in Zukunft danach bemessen werden, wie gut seine KI ist.
So äußerte sich Zuckerberg in einem Podcast-Interview (hier das Transkript) anlässlich der Veröffentlichung seiner eigenen KI-Variante, die in mehreren Größen und Qualitätsstufen veröffentlicht wird. Manches davon als Open Source. Weiterlesen »
Hier ist dieses bemerkenswerte Zitat im Zusammenhang. Er wurde gefragt, ob KI womöglich zu den größten Erfindungen der Menschheit gehören könnte — eine Bewertung, der ich zustimme. Dazu sagte er (deutsche Version ist unten angehängt):
»I think it's going to be pretty fundamental. I think it's going to be more like the creation of computing in the first place. You'll get all these new apps in the same way as when you got the web or you got mobile phones. People basically rethought all these experiences as a lot of things that weren't possible before became possible. So I think that will happen, but I think it's a much lower-level innovation. My sense is that it's going to be more like people going from not having computers to having computers.«
(Kurz und auf deutsch: Es wird eine ziemlich fundamentale Bedeutung haben, mehr wie die Schaffung der EDV als solche. Man wird die neuen Anwendungen so bekommen wie damals das Web oder Smartphones. Die Leute haben all diese Dinge neu ausgedacht weil plötzlich vieles möglich wurde was vorher unmöglich war. Das wird erneut geschehen, aber es ist eine Neuerung auf einer tieferen, grundsätzlicheren Ebene. Mein Eindruck ist, es ähnelt eher dem Unterschied zwischen »einen Computer haben« und »keinen Computer haben«.)
Auswirkungen auf heutige Software
Zuckerberg äußerte sich zu den Auswirkungen auf die jetzigen Apps und Dienste. Er sagte, der Umbruch würde jede App betreffen (deutsche Version unten angehängt):
»There's obviously a big change in the last few years with ChatGPT and the diffusion models around image creation coming out. This is some pretty wild stuff that is pretty clearly going to affect how people interact with every app that's out there.«
(Kurz und auf deutsch: Es gab offensichtlich eine große Änderung in den letzten paar Jahren mit ChatGPT und mit den Methoden zur Bilderzeugung. Das sind einige ziemliche wilde Sachen, die ziemlich deutlich verändern werden, wie die Leute mit jeder einzelnen Software umgehen werden, die es momentan gibt.)
Das ist der Punkt: Jede Software, und auch die Art, wie sie erzeugt wird, ist davon betroffen.
Wenn das stimmt, dann betrifft es auch jede Software von Apple. Und damit sind nicht etwa nur eine kleine nervige Chatbox und ein paar Hilfsfunktionen gemeint. Sondern Final Cut wird die Fähigkeit bekommen, Videos zu schneiden; Pages wird die Fähigkeit bekommen, Texte zu schreiben, zu redigieren, zu korrigieren. Ein Editor für Programmierer wird programmieren — ich benutze es heute schon. Die Dinger können Code erzeugen und vorhandenen Code korrigieren. Man muss es gesehen haben, um es zu glauben.
Fähigkeiten entstehen
Ein faszinierendes Detail: Manche der Fähigkeiten dieser neuen KI-Systeme entstehen »einfach so«. Je intelligenter sie werden (d.h. je mehr Parameter sie haben und je intensiver sie trainiert wurden) desto mehr Fähigkeiten erscheinen plötzlich »von selbst«.
Zuckerberg beschreibt das anhand einer Funktion ihrer früheren KI (Llama-2). Dort mussten die Entwickler noch von Hand programmieren, dass die KI bei Google oder Bing nach aktuellen Daten sucht. Es war also nicht Teil des KI-Modells, sondern wurde nachträglich auf klassischem Wege hinzu programmiert.
Beim neuen Modell (Llama-3) und für das zukünftige Modell (Llama-4) versucht man hingegen, dass die Systeme solche Fähigkeiten von selbst lernen.
Der geneigte Leser mag sich denken: »Naja, was ist schon dabei?« — Aber das ist eine riesige Sache. Ein digitaler Frankenstein, der plötzlich weiß (ohne dass es jemand programmiert hätte!), wie er sich Daten bei Google holt: das ist gespenstisch. Und er muss ja auch wissen, warum er das tut. Es ist also eine wirklich intelligente Sache.
Der Interviewer hakt deswegen nach, wie das gemeint ist. Es entspinnt sich folgender Dialog, den ich hier auf die wichtigen Punkte kürze:
Zuckerberg: »Some of it is the (…) logic for how Meta AI should work with tools like Google or Bing to bring in real-time knowledge. (…) For Llama-2, we had some of that and it was a little more hand-engineered. Part of our goal for Llama-3 was to bring more of that into the model itself. (…) Our goal for Llama-4 will be to bring more of that into the model.
Interviewer: »What do you mean by “into the model itself”?«
Zuckerberg: »We don't have to hand code all the stuff to have it use Google and go do a search. It can just do that.«
Das bringt auf den Punkt, warum es eine solche Umwälzung ist. Die Software »erwacht« sozusagen ab einer gewissen Größe zu einer Intelligenz, die beliebige Aufgaben lösen kann. Nicht »beliebig« im Sinne von »beliebig komplex und umfangreich«; aber beliebig im Sinne von »es ist nicht auf diese eine Funktion festgelegt«.
Meta überall
Meta wird diese neue Generation ihrer KI namens Llama 3 in verschiedenen Qualitätsstufen (die jeweils unterschiedlich viel Rechenleistung erfordern) in allen ihren Produkten einbauen. Nicht sofort in allen Ländern, aber Schritt für Schritt.
Was heute noch spektakulär und teuer ist, landet bald in WhatsApp, Facebook und Instagram. Sicherlich nicht mit Modellen, die eine Minute für ihre hochkomplexen Berechnungen benötigen. Sondern alles deutlich kleiner und billiger. Aber immerhin — wenn es eingebaut ist in WhatsApp, dann ist die Messe gelesen.
Was ist besser: Mehr oder weniger? Das ist mehr oder weniger die Frage, vor der die Computerwelt gerade steht. Gleichzeitig ist es aber auch die Frage, jedenfalls mehr oder weniger, vor der die Computerwelt auch im Jahr 2007 stand, und vor der sie auch im Jahr 2027 stehen wird.
Drei Minuten bevor Steve Jobs das iPhone im Jahr 2007 vorstellte, war offensichtlich, dass mehr Buttons auf den damaligen Mobiltelefonen zu mehr Funktionen und zu einer besseren Bedienbarkeit führten. Es gab die zehn Ziffern, aber es gab auch praktische Tasten für weitere Funktionen, die man sich ansonsten mühsam in irgendwelchen Menüs hätte suchen müssen.
Drei Minuten nach der Präsentation von Steve war klar, dass plötzlich das Gegenteil galt: Das beste User-Interface ergab sich, wenn man auf Buttons möglichst verzichtete. Apple entschied sich für einen einzigen zentralen Button auf der Vorderseite des Geräts. Es war gleichzeitig einfacher und leistungsfähiger. Weiterlesen »
Zehn Jahre später, mit dem iPhone X, entfernte Apple auch noch diesen einsamen Button von der Vorderseite. Anstatt also von Modell zu Modell hier und da etwas anzustückeln, hielt Apple unerbittlich an seiner ursprünglichen Vision fest und brachte sie nur noch mehr zum glänzen.
Mehr oder weniger. Denn abgesehen von den Buttons hat Apple sehr viel hinzugefügt. Nicht nur die Hardware wurde enorm erweitert (mehr Speicher, mehr Pixel, mehr GigaHertz und GigaFlops), sondern auch die Software: Verschiedene »Ebenen« lassen sich über das Display legen und wieder ausblenden (Control Center, Notifications), verschiedene »Screens« wechseln sich ab (Lock Screen, Home Screen, App Switcher) — und die vielen Einstellungen scrollen, hübsch untereinander angeordnet, ungefähr bis nach Düsseldorf. (Wenn man in Dortmund anfängt.)
Die Frage nach dem nächsten iPhone und dem nächsten iOS lautet ganz simpel: Was kann man noch hinzufügen? Wird es ausreichend viel sein?
Falls nicht, falls es zu wenig ist, werden die kleinen Thumbnails bei YouTube mit traurigen Augen und runtergezogenen Mundwinkeln verkünden, dass man sich das Video am besten nicht anschauen sollte, außer vielleicht, um persönlich Zeuge zu werden von Apples Dummheit.
Hier ist mehr also besser.
Ich persönlich finde, hier wäre weniger besser, aber ich bin bei Social Media ein Außenseiter, was ich gerne akzeptiere.
Google
Schauen wir zu Google. Google präsentiert seinen Kunden seit Jahrzehnten nichts weiter als zehn blaue Links. Diese zehn blauen Links könnten tatsächlich das sein, wonach man gesucht hatte. Vielleicht aber auch nicht.
Wie kann man das verbessern? Wäre es besser, mehr zu zeigen? Etwa zwanzig blaue Links? Oder müssten es weniger sein, etwa fünf?
Google verfolgt sein ein paar Jahren ein Projekt, das dem Home-Button des iPhones entspricht: Das Beste wäre, wenn man überhaupt keine blauen Links zeigen müsste, und wenn der Kunde überhaupt keine Auswahl treffen müsste. Sondern Google sollte eine einzige definitiv richtige Antwort ausgeben.
Dieses Projekt (»One True Answer«) ist die Voraussetzung dafür, dass der Siri-Klon von Google kurze, zutreffende Antworten geben kann. In letzter Zeit sieht man die Antwort auch ganz oben auf der Webseite von Google. Es handelt sich dabei nicht nur um kurze Daten wie z.B. das Wetter. Sondern es sind aus Webseiten extrahierte Antworten auf komplexe Fragen, wie zum Beispiel: »Wie entstanden die ersten Helium-Atome?« Google beschränkt sich dabei auf etabliertes Fakten-Wissen, bei dem es zu einer klar definierten Frage eine klar definierte Antwort gibt.
Natürlich könnte man auch drei unterschiedliche Antworten mit leichten Variationen ausgeben, sodass der Kunde mehr Auswahl hat:
Wie viele Monster verstecken sich aktuell unter meinem Bett?
Keine.
Nicht viele.
Höchstens drei kleine.
Aber hier ist weniger eindeutig mehr.
Humane Ai-Pin
Über den missratenen Ai-Pin wurde viel berichtet, auch von Mac-TV. Aber die Aufregung über die schlecht funktionierende Umsetzung überstrahlte eine wichtige Frage, nämlich, wie man das Smartphone übertrumpfen könnte. Humane wählte dabei einen unglücklichen, miesepetrigen Ansatz, der das Smartphone schmähte, anstatt die Überlegenheit des eigenen Produkts zu beweisen.
Aber eines scheint mir einleuchtend zu sein: Wenn die grundlegende Idee eines Smartphone-Killers darin besteht, noch mehr Funktionen in ein winziges Gadget zu quetschen, dann kann es nur scheitern — genauso wie das iPhone gescheitert wäre, wenn es einfach die Buttons der damaligen Handys vermehrt hätte; oder wenn ein Google-Konkurrent doppelt so viele blaue Links zeigen würde.
Immerhin. Der Ai-Pin gibt einem auf die Frage, ob ein Restaurant gut oder schlecht ist, eine klare Antwort: Ja oder nein, oder ein Rating von 4 Sternen. — Wenn ich frage, ob der Supermarkt noch geöffnet hat, dann antwortet es (ebenso wie Siri): Ja, heute bis 21 Uhr. — Wenn ich Herrn Müller anrufen möchte, dann ruft es Herrn Müller an (ebenso wie Siri, genauer gesagt, Siri ruft gerne auch eine Person mit einem ähnlichen Namen an oder startet eine Playlist).
Ist das vielleicht ein genereller Trend, dass wir in Zukunft nicht nur sehr viele Optionen zur Verfügung haben wollen, dass wir aber überfordert sind, die richtige davon auszuwählen — sodass wir froh sind, wenn uns jemand die Entscheidung abnimmt? Ist das vielleicht ein neuer Steve-Jobs-Moment, bei dem jemand die ganzen Buttons entfernt, ohne die Funktionen zu entfernen?
Vision Pro
Apples Superbrille weist in die gegenteilige Richtung. Alles ist mehr, mehr, mehr, mehr, mehr, ein technischer Wahnsinn in jeder nur denkbaren Richtung. Eine technische Glanzleitung, die alles abverlangt, was Prozessoren, Displays und Software heute leisten können. Auch dem Anwender wird einiges abverlangt: hoher Preis, unbequeme Nutzung, Druckstellen, Hitze, zerwühlte Frisuren, Isolation.
Dafür bekommt man 3D statt 2D, das ist mehr. Dafür bekommt man 4k statt 2k, das ist mehr. Fotos werden zur »Experience«, der Desktop-Hintergrund wird zur virtuellen Umgebung, gerne mit einer Mondlandschaft. Mit Sound, das ist mehr. Das Musikvideo wird zum atemberaubenden Erlebnis, ein Schmetterling setzt sich einem buchstäblich auf den Finger (oder was man der Brille stattdessen hinhält, ich habe schreckliche Dinge gesehen).
Man kann Fenster nicht nur vorne anordnen, sondern auch seitlich, oben und unten. Das ist mehr. Sogar hinten. Das ist noch mehr.
Man kann iPad-Apps starten, aber auch native Apps und den kompletten Mac-Desktop. Das ist mehr.
Man könnte eine Tabellenkalkulation so breit ziehen, dass die Spalten bis hinaus auf den Flur reichen. Oder bis runter auf die Straße, bis zum nächsten Supermarkt; und, falls der geöffnet hat, auch bis zur Kasse. Spalten, Spalten, Spalten, mehr, mehr, mehr. Theoretisch könnte man an den Spalten vorbei spazieren wie vor einer Häuserwand; aber nicht nur alleine, sondern mit fünf weiteren virtuellen Teilnehmern, denn das ist noch mehr.
Was die Leute aber mit so vielen Spalten überhaupt anfangen sollen, bleibt unklar. Vielleicht möchten sie einfach fragen: »Was zum Teufel bedeuten diese Spalten für den Erfolg meiner Werbekampagne? Welche Ausgaben haben sich gelohnt? Welche nicht?« — Die Idee, dass die App dann einfach fünfhundert weitere Spalten auswirft, ist absurd. Wir brauchen nicht Spalten, sondern Antworten.
Der Ai-Pin hat als Produkt und Smartphone-Alternative nicht die richtige Antwort gegeben, aber das Team stellte zumindest die richtige Frage. Apples fantastische Ingenieure haben die richtige Antwort gegeben, aber auf welche Frage?
Was ist nun das Next Big Thing? Ist es KI oder die Brille oder ein Pin? Eins scheint mir jedenfalls einleuchtend: Es muss zunächst wieder simpel anfangen. Es muss das, was heute kompliziert ist, einfach machen. Und es muss dennoch mehr können. Das macht es so schwierig. Aber genau das kann Apple besonders gut. Mehr oder weniger.
Viele Leute denken, die neuen KI-Systeme wären ein Ersatz für Google, quasi eine Frage-und-Antwort-Maschine. Der Unterschied zu Google ist jedoch, dass nicht einfach eine häufig genannte Antwort aus den Weiten des Webs gefischt wird. Sondern die neuen Systeme können eigene Schlüsse ziehen und auf diese Weise Antworten finden, die man mit einer Google-Suche nicht erhalten kann. Sie können auch herausfinden, worin überhaupt das Problem besteht.
Hier ein eindrucksvolles Beispiel:
Man stelle sich vor, ein Team in einem Büro oder in einer Arztpraxis müsste eine erkranktes Mitglied, Herrn Meier, ersetzen.
Herr Meier verfügt über die Fähigkeiten X und Y. Nur eine weitere Person im Team verfügt über X und Y, alle anderen beherrschen nur eine davon, entweder X oder Y. Deswegen ist der Ausfall von Herrn Meier nicht leicht zu ersetzen. Die Frage ist, wie der Dienstplan so geändert werden muss, dass beide Fähigkeiten an jedem Tag abgedeckt sind, und dass sich möglichst wenig ändert?
Was tun? Eine Google-Suche nützt hier überhaupt nichts. Man kann es sich wohl auf einem Blatt Papier austüfteln, aber das Beispiel habe ich nur deswegen so simpel gewählt, weil es sprachlich etwas mühsam zu beschreiben ist und ich mich kurz fassen muss. Es ist aber leicht einzusehen, dass es für Menschen enorm schwierig wird, sobald noch die Fähigkeiten A, B und C zu berücksichtigen wären, und sobald es 80 Mitarbeiter beträfe, und sobald weitere Bedingungen hinzu kämen, etwa der freie Nachmittag von Herrn Schulze oder ein gesetzliches Limit für Überstunden. Weiterlesen »
Der klassische Ansatz für die Lösung eines solchen Problems liegt darin, eine Software zu entwickeln. Der Programmierer würde irgendeinen Weg finden, um Personalpläne zu erzeugen; aber das ist nicht einfach. Schon die Erfassung der Daten in digitaler Form (Mitarbeiter, Fähigkeiten, bisheriger Dienstplan, wer fällt aus) wäre eine recht große Aufgabe für einen Programmierer. Vielleicht wird aber die Personalplanung einfach anhand einer Tafel an der Wand des Personalbüros vorgenommen, was sich vielleicht als viel praxistauglicher erwiesen hat als irgend ein digitaler Schnickschnack.
Mit der neuen KI kann man solche Probleme lösen, ohne eine Software zu schreiben. Die KI findet eigenständig einen Weg. Nichtmal die Eingabe der Daten benötigt ein festes Format, sondern die KI »versteht«, was man meint. Sie kann sich die Daten sogar aus einem Screenshot oder einer Fotografie besorgen, beispielsweise der Fotografie eines Dienstplans.
Hier ist ein Transkript, wie GPT-4-Turbo (die derzeit beste KI-Engine) das Problem löst. Zuerst meine Eingabe:
Löse das folgende Problem, bei dem Mitarbeiter mit ihren Fähigkeiten X und Y so im Wochenplan verteilt werden, dass jede Fähigkeit, X und Y, an jedem Tag zur Verfügung steht. Ein Mitarbeiter ist erkrankt und muss durch die anderen Mitarbeiter ersetzt werden. Ändere den Wochenplan so, dass sich möglichst wenig ändert und trotzdem alle Fähigkeiten an jedem Tag zur Verfügung stehen.
Gib den neuen Wochenplan so aus, dass neben dem Namen in Klammern angegeben wird, welche Aufgabe er abdeckt. Beispiel: Frau Heinrich (X).
Mitarbeiter, Fähigkeit:
Herr Müller, Y
Frau Schulze, Y
Frau Heinrich, X und Y
Herr Meier, X und Y
Frau Haller, X
Herr Mett, X
Wochenplan:
Montag: Frau Heinrich, Herr Müller
Dienstag: Herr Meier, Frau Schulze
Mittwoch: Frau Haller, Herr Müller
Donnerstag: Herr Mett, Herr Müller
Freitag: Frau Heinrich, Frau Schulze
Erkrankte Person: Herr Meier.
Die KI gab daraufhin folgende Antwort. Auch die Anmerkungen sind von der KI. Ich habe nichts hinzugefügt.
Um den Ausfall von Herrn Meier zu kompensieren, müssen wir jemanden finden, der sowohl Fähigkeit X als auch Y besitzt, da Herr Meier beide Fähigkeiten hat. Die einzige andere Person mit beiden Fähigkeiten ist Frau Heinrich. Wir müssen also den Wochenplan so anpassen, dass Frau Heinrich an einem Tag arbeitet, an dem Herr Meier ursprünglich eingeplant war, ohne dabei die Abdeckung der Fähigkeiten X und Y an den anderen Tagen zu beeinträchtigen.
Ursprünglicher Wochenplan:
- Montag: Frau Heinrich, Herr Müller
- Dienstag: Herr Meier, Frau Schulze
- Mittwoch: Frau Haller, Herr Müller
- Donnerstag: Herr Mett, Herr Müller
- Freitag: Frau Heinrich, Frau Schulze
Da Frau Heinrich bereits am Montag und Freitag arbeitet, können wir sie nicht für Dienstag einplanen, ohne einen anderen Tag zu beeinträchtigen. Wir müssen also jemand anderen finden, der am Dienstag arbeiten kann und zumindest eine der Fähigkeiten abdeckt, die Herr Meier hat. Da Frau Heinrich die einzige andere Person mit beiden Fähigkeiten ist und sie nicht verfügbar ist, müssen wir uns auf die Mitarbeiter konzentrieren, die entweder X oder Y haben.
Eine Möglichkeit besteht darin, einen Mitarbeiter mit Fähigkeit X für Dienstag einzuplanen, da Frau Schulze, die an diesem Tag arbeitet, bereits Fähigkeit Y abdeckt. Wir könnten also entweder Frau Haller oder Herrn Mett für Dienstag einplanen. Da Frau Haller bereits am Mittwoch arbeitet, wäre es sinnvoll, Herrn Mett für Dienstag einzuplanen, um die Änderungen im Wochenplan zu minimieren.
Neuer Wochenplan:
- Montag: Frau Heinrich (X und Y), Herr Müller (Y)
- Dienstag: Herr Mett (X), Frau Schulze (Y)
- Mittwoch: Frau Haller (X), Herr Müller (Y)
- Donnerstag: Herr Mett (X), Herr Müller (Y)
- Freitag: Frau Heinrich (X und Y), Frau Schulze (Y)
Mit dieser Anpassung stellen wir sicher, dass an jedem Tag beide Fähigkeiten, X und Y, abgedeckt sind, und minimieren gleichzeitig die Änderungen im Wochenplan.
Man kann an diesem Beispiel sehen, wie gut die KI die (übrigens auf deutsch geschriebene) Aufgabe verstanden hat. Sie gibt gleich im ersten Absatz eine Zusammenfassung des zu lösenden Problems. Anders als bei einer klassischen Software sind der KI auch die Zusammenhänge bekannt: Wochentage, Wochenarbeitszeit, Personen, übermäßige Arbeitszeiten. Eine Software mit solchen Kenntnissen zu füttern ist nicht gerade trivial. Bei der KI scheinen sie einfach vorhanden zu sein.
Anschließend beschreibt die KI ihre Lösungsschritte und worauf es dabei ankam. Sie wägt verschiedene Lösungsmöglichkeiten ab und zeigt Spielräume. Anschließend entscheidet sie sich für eine Lösung und gibt sie aus.
Was bedeutet das?
Erstens, es ist eine riesige Revolution. Zweitens, es wirft die Frage auf, welche Software überhaupt noch geschrieben werden muss. Ein Software-Entwickler würde wohl nicht mehr monatelang (mindestens!) an einer Lösung tüfteln, sondern würde die KI einfach zum Kern seiner Software machen und sich nur noch um das »Drumherum« kümmern. Beispielsweise ein Knopf, mit dem eine Person krankgemeldet werden kann, und dann spuckt die Software einen neuen Dienstplan aus, ohne dass man einer KI das Problem erst noch erklären müsste.
Das wiederum bedeutet: Wir stehen vor einem immensen Umbruch sowohl bei den Fähigkeiten von Software, als auch beim Tempo, mit der sie entwickelt wird.
Drittens, diese Revolution ist zur Abwechslung mal tatsächlich nützlich. Seit der mobilen Revolution mit dem Smartphone und schnellen Mobilfunknetzen ist nicht mehr viel passiert, abgesehen von schwachsinnigem Schwachsinn wie Facebook, Twitter, Instagram und TikTok. Und abgesehen von Werbetracking. Und abgesehen von Cookie-Warnungen. Und abgesehen von Newslettern, Spam und noch mehr Spam. Silicon Vally wirkte in den letzten zwanzig Jahren, als würde es geleitet von Fix & Foxi.
Viertens, es macht die Nutzung von IT-Intelligenz viel leichter erreichbar, sodass mehr Menschen davon profitieren können — wie das Beispiel mit der Arztpraxis gezeigt hat.
Das war die Idee des ersten Macintosh. Man muss nicht immer jedes technische Detail wissen und beherrschen, sondern man hat vielleicht eine gute Idee und möchte sich darauf konzentrieren. Die Software soll das ermöglichen. Sozusagen der Computer als das »Fahrrad für den menschlichen Geist«, so sah es der junge Steve Jobs.
In einem kürzlich geführten Interview in der New York Times beleuchtete Dario Amodei, eine prominente Figur im Bereich der künstlichen Intelligenz (KI), die eskalierenden Kosten und den erforderlichen Maßstab, um die KI-Technologien voranzutreiben. Amodei wies darauf hin, dass die aktuelle Generation von KI-Modellen, die im Jahr 2023 veröffentlicht wurden, bereits eine Investition von rund 100 Millionen Dollar für das Training erfordert, eine Zahl, die um den Faktor zwei oder drei variieren kann. GPT-4 (von OpenAi und Microsoft) oder Gemini (von Google) dürften am obersten Ende dieser Skala angesiedelt sein, weil sie enorm viel größer sind als die Generation zuvor.
Blickt man in die Zukunft, prognostiziert Amodei einen steilen Anstieg dieser Ausgaben. Modelle, die derzeit in Entwicklung sind, werden voraussichtlich nahezu 1 Milliarde Dollar kosten. Dieser Trend wird voraussichtlich anhalten, wobei die Kosten bis 2025 oder 2026 möglicherweise 5 bis 10 Milliarden Dollar erreichen könnten. Weiterlesen »
Was verursacht derart hohe Kosten? Die Kosten werden hauptsächlich durch den Bedarf an leistungsfähigeren Rechenressourcen getrieben, da KI-Modelle eine erhebliche Menge an Rechenleistung benötigen, die in der Regel stundenweise gemietet wird. Die Firmen mieten Rechenzeit oder bauen selber solche Kapazitäten auf. Die Komplexität und Größe dieser Modelle erfordern immer längere Trainingszeiten und mehr Daten, was die Kosten weiter in die Höhe treibt. Es handelt sich um eine exponentielle Kurve: Um die nächste Stufe der Verbesserung zu erreichen, muss man jedes mal sehr viel mehr Rechenzeit investieren.
Die Elite
Mit dem Anstieg der finanziellen Eintrittsbarriere könnte das Feld der KI-Entwicklung bald von einer ausgewählten Gruppe dominiert werden – nämlich großen Unternehmen oder riesigen Konsortien mit dem notwendigen Kapital, um in solch teure Projekte zu investieren. Unternehmen wie Amazon und Microsoft investieren bereits Milliarden in KI-Vorhaben, und Google verfügt über eigene erhebliche Ressourcen. Darüber hinaus beginnen einige Regierungen und staatlich unterstützte Fonds (beispielsweise Saudi-Arabien), darin zu investieren, weil sie der KI eine strategische Bedeutung für die jeweilige Wirtschaft des Landes zuerkennen.
Diese Konzentration der KI-Entwicklungsmacht unter einer Handvoll globaler Akteure wirft Fragen nach Vielfalt, Gerechtigkeit und Zugang im Bereich auf. Sollte der Trend anhalten, könnten kleinere Einheiten und unabhängige Forscher es zunehmend schwieriger finden, zu den Fortschritten der KI beizutragen, was möglicherweise Innovationen hemmt und die Bandbreite der in der KI-Forschung erkundeten Perspektiven und Anwendungen einschränkt. Ein solches Szenario würde die Dominanz der reichsten Unternehmen und Regierungen weiter verfestigen und möglicherweise zu einer Monopolisierung der KI-Fortschritte und ihrer Vorteile führen.
Fazit
Zusammenfassend beleuchtet das Gespräch zwischen Amodei und Klein einen kritischen Aspekt der KI-Entwicklung: die eskalierenden Kosten und ihre Auswirkungen auf die Zukunft des Feldes. Während wir am Rande potenziell transformativer Fortschritte in der KI stehen, ist es entscheidend, nicht nur die technologischen Herausforderungen, sondern auch die wirtschaftlichen und gesellschaftlichen Auswirkungen der Art und Weise zu betrachten, wie KI-Forschung und -Entwicklung finanziert und durchgeführt werden. Der Weg nach vorne sollte idealerweise sicherstellen, dass die Vorteile der KI zumindest mittelfristig für alle zugänglich sind.
»Hallo zusammen! Jörn, Michael und ich präsentieren Euch jeden Sonntag epische Beiträge rund um das Thema Apple. Wir bemühen uns, die Beiträge so prägnant wie möglich und so ausführlich wie nötig zu gestalten, so dass möglichst keine Fragen offen bleiben. Aber stimmt das? Gerade im Bereich von Apple tauchen ständig neue Fragen auf, egal ob Neuling oder Profi. Vielleicht gibt es auch eine Diskussion, die Euch besonders interessiert?
Deshalb laden wir Euch ein, Eure Fragen zum Thema Apple im Forum zu sammeln.
Egal, ob es Fragen zur Funktionsweise von Face ID oder die aktuellsten Gerüchte zu den kommenden Macs sind, wir beantworten sie in einer der kommenden Sendungen.
Prozessoren wurden endlich wieder richtig spannend, insbesondere durch Apple. Noch bevor alle M3-Modelle das Tageslicht erblickt haben (es fehlt noch die Ultra-Variante), soll schon der M4 als Nachfolger mit seinen digitalen Hufen scharren. Dies könnte in Zusammenhang stehen mit dem (berechtigten) Hype um Künstliche Intelligenz. Dafür werden sehr schnelle Prozessoren benötigt. Den Hype nutzen offenbar auch Microsoft und Intel, um eine neue PC-Generation einzuläuten: Der »AI PC« soll speziell für diese Aufgaben ausgerüstet sein. Man darf sich auf riesige Werbefeldzüge freuen: Intel inside! Wie wird Apple darauf reagieren? Mit einer verbesserten Neural-Engine und der Möglichkeit von bis zu 512 GB RAM könnte der M4-Prozessor neue Maßstäbe setzen. Direkt zum Film »
Es gibt Neuigkeiten von der Vision Pro, die in Deutschland noch nicht verfügbar ist. Doch je näher wir an die WWDC heranrücken, desto wahrscheinlicher wird es, dass sie auch in weiteren Ländern erhältlich sein könnte. In den USA ist bereits die nächste Bewertungsrunde im Gange. Mit etwas mehr Zeit und Abstand gibt es mittlerweile interessante Einsichten über die Stärken und Schwächen des Geräts, vor allem aber über menschliche Eigenschaften, die dazu beitragen, dass man die Brille mehr oder weniger gerne trägt. Wir werden uns heute über die neuesten Entwicklungen informieren und auch einige der jüngsten Bewertungen aus der Blogosphäre zusammenstellen. Direkt zum Film »
Wir werfen einen Blick auf die ersten Berichte über den Humane AI Pin. Es soll uns vom Smartphone-Wahnsinn befreien und dennoch die wichtigsten Funktionen bieten: Kommunikation, Information und Unterhaltung — natürlich in Maßen. Weniger ist mehr, so ungefähr lautet die Idee. Zentrales Element ist dabei die Künstliche Intelligenz. Hingegen: Zentrales Element der Smartphone-Ära sind Apps. Es ist also ein ganz anderer Ansatz. Obwohl die ersten Testberichte nicht sonderlich positiv waren, ist das Konzept dennoch faszinierend. Denn ähnlich wie das Internet einst nur einem Computer im Haushalt vorbehalten war, könnten wir bald eine Vielzahl von intelligenten Geräten haben, die miteinander verbunden sind. Ist es ein zukunftsträchtiges Produkt? Direkt zum Film »
Man könnte annehmen, dass es unmöglich wäre, beide Fragen zu beantworten, bis Apple zur WWDC 2024 endlich den Vorhang beiseite zieht. Woher will man wissen, was eine unbekannte Software leisten wird?
Natürlich ist das spekulativ. Aber man kann Spielräume ausloten, die sich Apple demnächst bieten. Der Zweck des Artikels ist also nicht, definitive Behauptungen aufzustellen, sondern darzulegen, wie das Umfeld aussieht, in dem sich Apple bewegt. Weiterlesen »
Es bewegt sich
Zunächst: Bewegt sich Apple überhaupt? Die kurze Antwort ist: Ja, das wissen wir sicher. Die massiv skalierte KI, und dort ein ganz spezielles Phänomen namens MMLU, wird die gesamte Software-Industrie auf den Kopf stellen.
MMLU bedeutet: Massive Multitask Language Understanding. Damit ist die Fähigkeit gemeint, verschiedene Wissensbereiche (»Multitask«) so zu verstehen, dass es einem Expertenwissen entspricht. Gemessen wird es an komplexen Benchmarks, aber man kann es sich vereinfacht so vorstellen, dass man die KI mit den Fragen einer Examensprüfung in Jura, Medizin, Informatik oder anderen Wissensbereichen konfrontiert, und dann misst, wie viele Aufgaben korrekt gelöst wurden. Das Ergebnis wird dann in Prozent ausgedrückt, beispielsweise 87%.
Entscheidend ist dabei eine Sache, die in der Öffentlichkeit oft missverstanden wird: Es geht hier nicht um reines Wissen, also nicht um ein Nachplappern von Wikipedia-Artikeln. Sondern es geht bei MMLU darum, Schlüsse zu ziehen. Es geht um das Verständnis eines Sachverhalts oder eines Problems. Anschließend muss die KI ihr Wissen darauf anwenden, um zu einer Lösung zu gelangen. In der Öffentlichkeit werden die KI-Systeme oft gebraucht als ein bequemer Ersatz für Google, quasi als Suchmaschine für »die richtige Antwort«. Aber das ist nicht, was die neue KI so interessant macht.
Ein Beispiel: In der letzten Live-Sendung vom 7. April habe ich demonstriert, wie eine KI aus einem Artikel von MacRumors.com jene Abschnitte erkennt, die zu einer Kontroverse führen könnten. Das Ziel war, ein Sendekonzept für Mac-TV zu schreiben. Dazu muss man erkennen, worin die diskussionswürdigen Details bestehen. Die KI hat nicht nur die Kontroversen gefunden, sondern auch, welche Pro- und Contra-Argumente man dabei abwägen müsste.
Das beweist, das MMLU tatsächlich ein Verständnis für das jeweilige Thema entwickeln kann. Bei dem Demo handelte es sich nur um einen »Shortcut«, also um keine ausgefeilte Software. Aber man kann sich ausmalen, was größere Teams mit besseren Werkzeugen damit anstellen können (und werden).
Skalierung
Diese verblüffende Fähigkeit ergibt sich aus einer massiven Skalierung. Die KI-Modelle sind mittlerweile so gigantisch groß, dass man es sich kaum vorstellen kann. Das Demo mit dem Sendekonzept basiert auf GPT-4, was angeblich 1,8 Billionen (1800 Milliarden) Parameter so verschaltet und gewichtet, dass am Ende diese Fähigkeiten entstehen. Derzeit skizziert man schon Modelle, die auf 10 Billionen Parameter basieren — niemand weiß genau, welche Fähigkeiten dadurch möglich werden.
Man weiß aber sicher, dass die Fähigkeit, Schlüsse zu ziehen, mit der Größe der Modelle wächst. Hier ist eine Grafik, die das anschaulich macht:
Die Grafik zeigt die Namen verschiedener KI-Modelle. Der rote Pfeil weist die Richtung, in der man die Grafik lesen muss. Je weiter rechts sich eine KI befindet, desto besser schneidet sie bei den MMLU-Tests ab. Die besten Systeme liegen bei 85 Prozent. Das kostenlose ChatGPT 3.5, was derzeit die meisten Anwender benutzen dürften, liegt bei nur 65 Prozent.
In einer einzigen Generation gelang GPT ein Sprung von 65 auf 85 Prozent. Googles »Gemini« sprang von 70 auf 85 Prozent. Das sind Werte von Systemen, die 2023 entstanden. Was wird wohl im Jahr 2024 entstehen?
Je mehr Parameter die Modelle haben, desto schlauer werden sie offenbar. Ganze Rechenzentren müssen monatelang vor sich hin rechnen, um derart leistungsfähige KI-Gehirne zu erzeugen. Anschließend folgen noch weitere Stufen zum Training, die ungefähr ein halbes bis ganzes Jahr dauern. Eine neue Generation benötigt derzeit etwa ein Jahr an Rechenzeit und Training.
Merke: Die Leistung ist verbunden mit Skalierung; und die Skalierung ist verbunden mit Kosten.
Der Preis ist heiß
Es sind massive Investitionen, die vorab getätigt werden müssen, ehe man auch nur einen Cent verdienen könnte. Microsoft hat gerade beschlossen, ein Budget von 100 Milliarden Dollar bereitzustellen, um damit neue Rechenzentren zu bauen. Das sind selbst im Zeitalter von Cloud-Diensten völlig unbekannte Dimensionen. Auch für Apple sind das astronomische Zahlen.
Wir sind es gewohnt, dass fast alles, was mit dem Internet zu tun hat, kostenlos verteilt wird. Aber solche Beträge kann niemand einfach verschenken.
Oder vielleicht doch? Oder beinahe? Es gibt nämlich durchaus einen Markt für einfache und billige Systeme. Manche Aufgaben erfordern nicht viel Rechenzeit oder können sogar lokal auf dem Gerät berechnet werden. Für einfache Zwecke kann das reichen. Andererseits ist es für Apple immer verlockend, einen Premium-Preis für das beste Produkt zu verlangen. Und hier scheint die neue KI eine wahre Goldgrube zu sein. Denn die besten KI-System sind nicht etwa ein paar Prozent teurer. Sie kosten auch nicht das Doppelte. Sondern das Zehnfache.
Das Bild oben zeigt die Preise für KI-Systeme auf einer logarithmischen Skala, d.h. jeder Skalenstrich (von oben nach unten) bedeutet eine Verzehnfachung. Man kann daran ablesen, dass die besten Systeme mit 100 Dollar pro 1 Million »Tokens« abgerechnet werden. Es existiert ein mittleres Segment, zu dem auch ChatGPT 3.5 zählt. Es kostet 10 Dollar. Dann gibt es eine Reste-Rampe für 1 Dollar.
Das bedeutet: Die besten Anbieter können einen zehnfachen oder sogar hundertfachen Preis verlangen. Klingt das nach Apple?
Falls Apple tatsächlich zu den Besten gehören wird (irgendwann in der Zukunft), dann muss Apple gigantische Investitionen wettmachen. Die Gerüchte, Apple würde iOS 18 einfach so mit wunderlichen KI-Fähigkeiten ausstatten, sind sehr wahrscheinlich falsch. Richtig ist vermutlich, dass Apple recht niederwertige KI-Fähigkeiten einbauen wird, die in einem begrenzten Rahmen nützlich sein werden, beispielsweise begrenzt auf bestimmte Funktionen innerhalb einer App.
Bestimmte hochwertige Funktionen gibt es eben nur mit iCloud+ oder »iCloud AI«, weil hochwertige KI eine unglaubliche Rechenleistung erfordert, wie sie nur Rechenzentren bieten. Abgerechnet wird es per 100 Anfragen zu je 5 Dollar. Oder so ähnlich.
Apple hat im Prinzip zwei Möglichkeiten, um mit den Kunden ins Geschäft zu kommen. Entweder bieten sie das beste Produkt. Oder das bequemste: Wenn die Funktionen hübsch integriert sind in die Apps, die wir sowieso benutzen, und wenn wir dazu nur einen Schalter bewegen müssen, um mehr Leistung zu erhalten — dann werden viele Kunden bei Apple bleiben. Das ist das Prinzip von iCloud.
Auf der anderen Seite: Die besten und teuersten KI-Systeme sind derzeit zu Leistungen imstande, die absolut haarsträubend sind. Wer das gesehen hat und für sich nutzen kann, wird es haben wollen, egal von wem. In den letzten zwei Jahrzehnten waren wir es gewohnt, dass PC-Anwender zum Mac gewechselt sind. Der Trend könnte sich wieder umkehren. Der Unterschied zwischen den »mäßigen« und den »guten« KI-Systemen ist größer als das, was Apple mit der Eleganz ihrer Software wettmachen könnte. Manchmal zählt einfach die schiere Leistung.
Niemand weiß das besser als Apple. Warum? Weil Apple Tausende von Programmierern beschäftigt, die diese Revolution als erste spüren. KI-Systeme können einen Programmierer produktiver machen auf eine Weise, die einfach unglaublich ist. Ich sage voraus, dass es innerhalb eines Jahres keinen Programmierer mehr geben wird, der ohne einen KI-Assistenten arbeitet. Die ganze Branche wird innerhalb eines Jahres komplett umgekrempelt. In Apples Großraumbüros wird vermutlich über kaum etwas anderes geredet. Es ist absolut unmöglich, dass Tim Cook es überhört.
Was sagt uns das?
Apples zukünftige KI wird vermutlich sehr klug sein und irgendwann 90 Prozent eines MMLU-Benchmarks erreichen — weil es die besten Systeme heute schon können. Diese Klugheit wird einen Preis haben und nicht kostenlos in iOS oder macOS integriert sein. Die kostenlose Variante wird nur die Grundschule besucht haben. Aber für begrenzte Szenarien innerhalb von Apps wird sie nützlich sein.
Wir können eine weitere Vorhersage wagen: Das ganze Unterfangen ist riesig groß. Man muss sich ganz und gar darauf einlassen, oder man lässt es besser bleiben. Man kann nicht Milliarden ausgeben für eine unwichtige Funktion in irgendeiner App. Aber das ist der Preis, um überhaupt noch mitspielen zu können. Apple hat keine Wahl, als mit beiden Füßen auf den neuen Zug aufzuspringen. Entsprechend vielfältig werden Apples Versuche sein, seine Investitionen wieder reinzuholen.
Die Erwartungen an die WWDC 2024 sind hoch, besonders bezüglich iOS 18, das bereits als das umfangreichste Update in der Geschichte von Apple gehandelt wird. Anders als in den Vorjahren, wo lange Listen von Neuerungen oft wenig Überraschung boten, hält sich die Informationsflut diesmal in Grenzen. Dieses Mal steht insbesondere die Integration von Künstlicher Intelligenz im Fokus, ein Bereich, der das Potential hat, die Nutzung von Smartphones grundlegend zu verändern. Auch iMessage und Maps stehen auf der Liste der erwarteten Überarbeitungen, die signifikante Verbesserungen versprechen. Im Laufe unserer Sendung werden wir die kursierenden Gerüchte eingehend untersuchen und diskutieren, wie relevant und wahrscheinlich diese Veränderungen für die Nutzer sein könnten. Direkt zum Film »
Apple hat über die Jahre hinweg seine Fähigkeit unter Beweis gestellt, Geschäftsbereiche gezielt und klar zu strukturieren, wobei stets eine Konzentration auf das Wesentliche im Vordergrund stand. Die ursprüngliche Produktmatrix von Steve Jobs, die zwischen Consumer- und Pro-Produkten sowie Laptops und Desktops differenzierte, wurde mit der Zeit durch eine beeindruckende Produktvielfalt, insbesondere seit der Einführung des iPhones, erheblich erweitert. Eine Betrachtung der Entwicklungen über die letzten Jahrzehnte bietet spannende Einblicke: Welche Leitideen prägten die verschiedenen Phasen? Welche Innovationen gelten heute als überholt, welche sind noch immer bedeutend? Und vor allem: Welche Visionen treiben Apple heute an und führen in die Zukunft? Direkt zum Film »
Die M-Prozessoren bergen viele interessante Geheimnisse und Details. Besonders wichtig sind dabei die Performance-Cores und Efficiency-Cores, die sowohl für Leistung als auch Effizienz sorgen. Wir werden uns genauer ansehen, wie diese Cores in den Prozessoren zusammenarbeiten und welche Rolle sie spielen. Die Cores werden in sogenannte Cluster zusammengefasst. Dabei vergleichen wir die bisherigen Prozessor-Generationen, um herauszufinden, wie (und warum) sich Cluster-Zusammensetzung unterscheidet. Was bedeutet das für die Leistungsfähigkeit der aktuellen M3-Chip-Familie im Vergleich zum Vorgänger, dem M1-Chip? Achtung, Nerd-Alarm! Direkt zum Film »
Zwei Themen schafften es in unsere muntere Rundschau. Erstes Thema: Die Programmierung künstlicher Intelligenz mit Prompt Engineering, die Nutzung von Few-Shot-Examples, und all das verbunden mit dem Mac und mit Shortcuts. Klingt kompliziert! Aber es handelt sich um einfache und dennoch höchst wirksame Methoden, um einer KI beizubringen, was man haben möchte. Jörn wird zeigen, wie man auf dem Mac einen Text aus einem Video extrahiert und daraus einen Einleitungstext für eine Webseite bastelt. Automatisch und ohne weitere Software. — Zweites Thema: Der Browserkrieg ist wieder eröffnet! Microsoft zwängt sich frech zwischen Chrome und Anwender. Wir haben Beweise! Direkt zum Film »
Das obige Spiel wurde vollständig von einer künstlichen Intelligenz programmiert. Man kann den linken Puck mit der Maus nach oben/unten bewegen. Der rechte Puck wird von der KI gesteuert. Es hat mich nur wenige Minuten gekostet, das kleine Spiel zu erzeugen.
Ich habe die KI gebeten, Buttons zu erzeugen, mit denen die Anwender die Hintergrundfarbe der Webseite ändern können. Die KI hat das Problem in 10 Sekunden wie folgt gelöst:
Wann ist eine Computerfirma wichtig und mächtig? Liegt das an den Umsätzen? Nicht auf Dauer. Denn die Wichtigkeit und die Macht einer Computerplattform ergibt sich aus den APIs und deren Verwendung. Unter APIs versteht man Bausteine eines Betriebssystems, mit denen Software-Entwickler ihre Apps aufbauen können. APIs ermöglichen es Entwicklern, auf bereits vorhandene Funktionen zuzugreifen, ohne diese von Grund auf selbst entwickeln zu müssen. Weiterlesen »
Das hat drei wichtige Folgen: Erstens, eine leistungsfähige API kann eine ganze Plattform auf ein höheres Niveau heben, weil die Entwickler bereits von einem höheren Niveau starten können. Das hält die Plattform attraktiv und wettbewerbsfähig für die Anwender. Zweitens, eine leistungsfähige API bindet die Entwickler an die Plattform. Drittens, eben dies ist die Voraussetzung dafür, dass es überhaupt jemanden interessiert, wenn Apple zu einer WWDC einlädt, um die neuen Funktionen zu demonstrieren. Es ist also ein Kreislauf: Gute APIs sind die Voraussetzung für gute Apps, dies bindet die Kunden, dies bindet die Entwickler, und dies macht den Anbieter relevant, sodass er die APIs weiter ausbauen kann.
Wenn dieser Kreislauf ins Stocken gerät, verliert der Plattformbetreiber seinen Einfluss. Selbst wenn er gute Innovationen bieten würde, käme es nicht mehr im Markt an. Es ist daher unverzichtbar, dass ein Plattformbetreiber es erreicht, dass seine APIs benutzt werden.
Neue Spielregeln
Mit dem überfallartigen Erfolg von Künstlicher Intelligenz ändert sich das Spiel. Aktuell dominiert OpenAI das Feld der KI-Entwicklungswerkzeuge, unterstützt durch die Partnerschaft mit Microsoft. Ihr Erfolg liegt nicht nur in der Leistungsfähigkeit ihrer KI-Modelle, sondern auch in der Vielfältigkeit und Zugänglichkeit ihrer APIs. Diese Werkzeuge ermöglichen es Entwicklern, Anwendungen zu erschaffen, die weit über einfache Chatbots hinausgehen. Tatsächlich steht die KI-Technologie an der Schwelle, die nächste große Plattform zu werden, vergleichbar mit der Revolution durch das Smartphone und dessen App-Ökosystem.
In der allgemeinen Öffentlichkeit wird KI derzeit verbunden mit Quassel-Engines wie ChatGPT: Sie sind unterhaltsam, können Texte kürzen und eventuell als Ersatz für Google oder Wikipedia dienen. Aber sonst?
Tatsächlich ist das nur die Spitze des Eisbergs. ChatGPT ist lediglich eine Anwendung der neuen Technik. Das wahre Potenzial der KI liegt in ihrer Fähigkeit, die Grundlage für zukünftige Apps und Workflows zu bilden. Man kann damit programmieren, nur viel schneller; und man kann damit Lösungen erzeugen, die mit klassischer Programmierung völlig außer Reichweite sind.
Die neuen KI-Systeme sind also nur scheinbar eine »Anwendung«. Unter der Haube verbergen sich Plattformen. ChatGPT ist also weniger eine Konkurrenz zu einer herkömmlichen App (oder zu Siri), als vielmehr eine Konkurrenz zu einem Betriebssystem — in dem Sinne, dass darauf Apps und Lösungen aufgebaut werden.
Ist das gefährlich? Ja. Denn wenn ein Entwickler erhebliche Zeit aufwendet, um damit eine neue Lösung zu bauen, dann wird er nicht bei nächster Gelegenheit zurückkehren zu Apple, falls diese irgendwann ein ähnliches System anbieten. Sondern weg ist weg. Das trifft auf KI-Systeme noch stärker zu als auf klassische APIs, weil KI-Systeme zusätzlich trainiert werden müssen, um sie fit zu machen für bestimmte Anwendungen. Man kann es nicht ohne weiteres auf ein anderes System übertragen. Manchmal dauert es eine Weile, bis ein KI-System zuverlässig die richtigen Antworten gibt oder die richtigen Entscheidungen fällt.
Vermutlich hat Microsoft deswegen so hastig eine Partnerschaft mit OpenAI eingefädelt. Es ging wohl weniger um einen Chatbot innerhalb von Word. Sondern es ging um die APIs, mit denen sich Apps und Anwendungen bauen lassen. Microsoft hat verstanden, dass es sich um eine Plattform handelt. Es geht darum, Entwickler zu binden.
Ein Beispiel
Hier ist ein konkretes Beispiel, welche Art von App man per KI realisieren könnte — und wohlgemerkt, es geht darum, ob der Aufwand dafür so gering ist, dass es sich überhaupt lohnt:
Nehmen wir an, ich würde gerne eine App entwickeln, mit der man sich fit halten, ein paar Kilo abnehmen und etwas gesunder leben könnte. Die App würde Tipps geben, ein tägliches Training vorschlagen und Kochrezepte empfehlen. Es soll aber alles abhängig sein von den Daten des Anwenders. Die Daten wären also nicht fest vorgegeben.
Die Infos dazu (Trainingspläne, Kochrezepte, ein paar kluge Sprüche) hätte ich bereits in Form einiger Bücher. Vielleicht wäre ich selber ein Autor und würde nun das Wissen der Bücher in diese App übertragen wollen.
Das ist mit Apples herkömmlichen APIs eine sehr große Aufgabe. Aber eine KI würde sich die Infos aus den Büchern holen. Ich würde dann eine Reihe von Beispielen geben, wie die zu erwartenden Fragen der Anwender beantwortet werden sollten. Das muss keineswegs vollständig sein, sondern die KI soll nur Beispiele bekommen.
Wenn das Training der KI erledigt ist, sage ich der App genau, was sie tun soll: Jeden Tag eine motivierende Meldung ausgeben, den aktuellen Trainingsplan erläutern, nach dem heutigen Befinden fragen, drei Kochrezepte vorschlagen. Die KI findet selbstständig heraus, wie es diese Aufgaben löst. Es muss nicht programmiert werden. Das ist der Clou.
OpenAI und Microsoft bieten schon heute Werkzeuge an, mit denen sich eine solche App realisieren liesse. Die API ist noch nicht sehr umfangreich, aber man kann immerhin schon eine KI anhand eigener Daten (die man als Datei hochlädt) trainieren. Man kann einen Fragenkatalog hochladen, anhand derer die KI den Anwender befragt, um daraus Schlüsse zu ziehen.
Es ist nicht Siri
In der Gerüchteküche über Apple hört man davon nichts. Man hört von einzelnen Apps wie »Apple Music«, die automatisch irgendwelche Playlisten erzeugen sollen. Oder von einer besseren Version von Siri. Aber das ist überhaupt nicht das, warum es in Zukunft gehen wird. Es geht um Werkzeuge für Entwickler, damit diese dann tausende von neuen Anwendungen schaffen.
Die neuesten Gerüchte von Mark Gurman behaupten, Apple würde Funktionen zeigen, die den Anwendern in ihrem täglichen Leben helfen (»assist users in their daily lives«). Das klingt nach Siri und nach ein paar Komfort-Funktionen. Aber der eigentlich wichtige Punkt ist: Wird Apple überzeugende APIs für Entwickler bereitstellen, sodass die nächste Revolution losbrechen kann? Oder werden sie nur ein paar eigene Apps etwas verbessern? Darauf sollte wir bei der nächsten WWDC achten.
Apple hat wiederholt neue Funktionen vorgestellt, die sich an den Nutzer anpassen können. Diese Anpassung erfolgte durch maschinelles Lernen. Die Ergebnisse waren teils gut, oft nur vage spürbar und manchmal sogar enttäuschend. Diese Erfahrungen könnten die teils ablehnende Haltung einiger Apple-Nutzer gegenüber der neuen Künstlichen Intelligenz erklären. Dabei handelt es sich jedoch um grundlegend verschiedene Konzepte. Weiterlesen »
Was ist Maschinelles Lernen?
Maschinelles Lernen könnte man beschreiben als "Versuch zu erraten, was der Nutzer möchte". Ein Beispiel hierfür wäre, wenn das iPhone einen Foto-Rückblick einer Reise vorschlägt, die vor einem Jahr unternommen wurde. Das iPhone ist zwar für die Erstellung eines Foto-Rückblicks programmiert. Die Kriterien für ein besonderes Ereignis bleiben jedoch offen. Man könnte sich vorstellen, dass der Nutzer zu einem bestimmten Zeitpunkt besonders viele Fotos gemacht hat. Technisch gesehen wird hier nach einem Muster gesucht, ohne dass die Entwickler genau festlegen müssen, worin dieses Muster besteht. Maschinelles Lernen kann unterschiedlichste Muster erkennen, auch solche, an die noch niemand gedacht hat. Es ist jedoch ein statistisches Verfahren.
Solche ML-Systeme können beeindruckende Fähigkeiten entwickeln, wie das Erkennen von Krankheiten anhand von Röntgenbildern oder Blutanalysen. Sie entdecken kleinste Unregelmäßigkeiten im Gang eines Menschen, die auf eine beginnende Nervenkrankheit hinweisen können. Bei intensivem Training können sie sogar die Genauigkeit erfahrener Ärzte übertreffen. Dennoch gelten diese Systeme nicht als intelligent, da sie lediglich Muster erkennen.
Was ist Künstliche Intelligenz?
Künstliche Intelligenz hingegen kann Aufgaben bewältigen, die bisher Menschen vorbehalten waren. Erstaunlich ist ihre Fähigkeit, Problemstellungen zu verstehen, die von keinem Programmierer explizit eingegeben wurden. Ab einer bestimmten Systemgröße, die bis vor Kurzem unvorstellbar schien, kann eine KI Schlüsse ziehen und Schritt für Schritt Lösungen entwickeln. Die Zuverlässigkeit dieser Antworten ist in manchen Bereichen nicht so hoch wie gewohnt, doch der Vorteil, neue und unvorhersehbare Aufgaben zu lösen, überwiegt deutlich.
Beim maschinellen Lernen muss ein Programmierer jede Funktion explizit programmieren, wobei statistische Daten innerhalb des Programms automatisch entstehen. Ein Beispiel wäre eine Diktierfunktion, die aus Nutzerkorrekturen lernt und sich an Fachbegriffe oder Dialekte anpasst. Der Code ist festgelegt, aber die Daten sind variabel. Da die meisten Nutzer keinen Code schreiben können, sind die Anwendungsmöglichkeiten begrenzt.
Künstliche Intelligenz erfordert keinen vom Nutzer erstellten Code. Die Maschine erkennt selbstständig, welche Schritte notwendig sind, um Nutzerwünsche zu erfüllen, und programmiert sich quasi selbst. Nutzer können komplexe Aufgaben in natürlicher Sprache formulieren und sind in ihrer Aufgabenstellung völlig frei.
Ist es tatsächlich intelligent?
Derzeit weiß niemand genau, warum sich KI-Systeme auf bestimmte Weisen verhalten und welche Fähigkeiten sie besitzen. Ab einer gewissen Skalierung entwickeln sie Fähigkeiten, mit denen Entwickler und Wissenschaftler nicht gerechnet haben. Die neuen Systeme erlangen ihre Fähigkeiten auf Basis einer riesigen Datenmenge quasi von selbst. Es werden ständig neue Fähigkeiten entdeckt, die zuvor unbekannt waren. Auf der grundlegendsten Ebene sind die Funktionen klar und einfach, zumindest für Mathematiker. Doch im großen Maßstab sind die Ergebnisse unvorhersehbar.
Als die ersten Sprachmodelle wie ChatGPT plötzlich weltbekannt wurden, flog der Trick schnell auf. Die KI prognostizierte auf intelligente Weise das nächste Wort, um eine stimmige Antwort zu generieren, die möglichst auf ähnliche Fragen passt. Auf die üblichen Blabla-Fragen bekam man die üblichen Blabla-Antworten. Doch dann entdecke man, dass die Systeme tatsächlich Probleme lösen konnten. Man kann ihnen beispielsweise einen Programmcode vorlegen und sie fragen, ob sie einen Fehler erkennen, den man selber nicht zu finden vermochte.
Die Frage, ob diese Systeme »wirklich« intelligent sind, wird intensiv diskutiert. Es scheint, als habe man ein Prinzip entdeckt, das – weiterverfolgt – zu immer intelligenteren Systemen führt. Dabei basieren die Antworten nicht mehr auf einem »Trick«, sondern auf einer fundierten Analyse von Problemen und ihren Lösungen.
Ein großer Teil der Arbeit, um diese Systeme auf nützliche Antworten zu trainieren, besteht aus Feinabstimmungen durch verschiedene Gewichtungen und Parameter. Es ist, einfach gesagt, eine Tüftelei. Eigentlich sind wir es gewohnt, dass Informatiker und Programmierer mit mathematischer Präzision arbeiten. Bei großen KI-Systemen mit Trillionen von Parametern ist dies jedoch nicht mehr möglich. Man ändert vielleicht eine Gewichtung, die für die »Quasselfreudigkeit« oder für gewisse »kreative Abweichungen« steht, von 0.7 auf 0.8. Und dann schaut man, wie sich das System verhält; also ob es anfängt, zu spinnen.
Eine KI, die Texte für Bücher und Zeitungen erzeugt, muss etwas freier antworten können, als eine KI, die auf eine Klageschrift eines Anwalts reagiert; oder die eine Buchhaltungssoftware auf ein neues Gesetz anpassen soll. Es ergibt sich also (zumindest vorübergehend) die Notwendigkeit, mit viel Tüftelei ein solches Grundsystem auf eine bestimmte Anwendung zu trainieren und zu optimieren.
Das lässt Spielraum für eine Vielzahl von Anbietern. Beispielsweise könnte es eine Firma oder eine Community geben, die ein solches System ganz besonders erfolgreich auf medizinische Fragen trainiert. Eine andere Gruppe könnte dasselbe System zu einem sehr guten Lehrer formen, der über ausgezeichnete pädagogische Fähigkeiten verfügt. Es ist also nicht der Fall, dass eine einzige KI jede nur denkbare Fähigkeit im bestmöglicher Weise bietet. Es ist aber definitiv der Fall, dass eine grundlegende KI in jeder dieser Disziplinen trainiert werden kann.
Es könnten am Ende eine oder zwei Grundsysteme existieren, die von allen Gruppen als Basis benutzt wird — so wie es derzeit bei Betriebssystemen der Fall ist. Analog dazu können auf dieser Basis sehr viele spezialisierte Varianten entstehen — wie es derzeit bei Apps der Fall ist. Man kann leicht erkennen, wie sich das gewohnte System aus »Betriebssystem und App« in Zukunft wandeln wird: Wenn irgendeine Firma (BMW, Miele, Adidas, …) früher eine Software für interne Zwecke geschrieben hätte, und zwar auf Basis von Windows oder macOS, dann wird sie in Zukunft vermutlich eine grundlegende KI für die eigenen Zwecke trainieren. Die »spezialisierte KI« ist sozusagen die »neue App«.
Ob Apple dann zu den wichtigen Anbietern gehören wird, muss man wohl abwarten.
(Die Bilder des Artikels wurden erzeugt mit KI und Stable Fusion.)
Es ist eine Bombe, die nicht ganz unerwartet einschlug: die Eröffnung eines Monopolprozesses gegen Apple durch das amerikanische Justizministerium. Es erinnert an vergangene Zeiten, als Microsoft die IT-Branche dominierte. Nun steht Apple vor ähnlichen Herausforderungen. Die Diskussion darüber ist von großer Bedeutung, weit über bloße AGB-Streitigkeiten der EU hinaus. Die Klage wirft Apple vor, durch sein iPhone eine monopolistische Position auf dem Smartphone-Markt zu nutzen, was sowohl Verbrauchern als auch der Konkurrenz schadet. Dies wirft Fragen auf über Apples Geschäftspraktiken und potenzielle Auswirkungen auf den Markt. Was sind die genauen Vorwürfe und wie wird Apple darauf reagieren? Direkt zum Film »
Angeblich sucht Apple nach einem Partner, der die KI-Technik für die kommenden Versionen von Apples Betriebssystemen bereitstellen kann. Es heißt, Apple wäre dazu (noch nicht) in der Lage. Aussichtsreiche Kandidaten für den Job wären Google und OpenAI. Diese verfügten zudem über die massive Rechenkapazität, die Apple noch fehlt.
Das klingt alles sehr vernünftig. Jedoch gibt es einen kleinen Haken, den man in der Hektik des Nachrichtengeschäfts vermutlich übersah: Apple hat nämlich zwei Milliarden Anwender. Es existiert auf dem gesamten Planeten kein KI-Anbieter, der einen solchen Ansturm bewältigen könnte. Selbst wenn man sie alle kombinieren würde. Weiterlesen »
Angeblich sucht Apple nach einem Partner, der die KI-Technik für die kommenden Versionen von Apples Betriebssystemen bereitstellen kann. Es heißt, Apple wäre dazu (noch nicht) in der Lage. Aussichtsreiche Kandidaten für den Job wären Google und OpenAI. Diese verfügten zudem über die massive Rechenkapazität, die Apple noch fehlt.
Das klingt alles sehr vernünftig. Jedoch gibt es einen kleinen Haken, den man in der Hektik des Nachrichtengeschäfts vermutlich übersah: Apple hat nämlich zwei Milliarden Anwender. Es existiert auf dem gesamten Planeten kein KI-Anbieter, der einen solchen Ansturm bewältigen könnte. Selbst wenn man sie alle kombinieren würde.
Man hört, Siri (oder iMessage) würde in Zukunft alle Fragen beantworten wie ChatGPT. Allerdings wird Siri schlanke 25 Milliarden mal benutzt pro Monat, sagt Yael Garten, einer der für Siri zuständigen Manager. Das sind Größenordnungen, die völlig außer Reichweite sind von allen KI-Systemen, die so ähnlich funktionieren wie ChatGPT oder Gemini. Hinzu kommt, dass Apple-Anwender ihre neuen Spielsachen gerne am ersten Tag ausgiebig testen. Das Desaster beim Launch von MobileMe, bei dem die Server für mehrere Tage komplett lahmgelegt waren, ruft uns in Erinnerung, wie sich ein solcher Ansturm auswirkt.
Wie funktioniert es also?
Alle KI-Anbieter, darunter auch Google und das Gespann aus OpenAI und Microsoft, begrenzen den Ansturm auf zweierlei Weise: Erstens, bei den kostenlosen Systemen handelt es sich um stark abgespeckte Varianten. Bei Überlastung werden neue Anfragen abgelehnt. Zweitens, die leistungsfähigen Varianten sind kostenpflichtig. Und zwar nicht zu knapp. Es gibt verschiedene Stufen, die nicht selten einen fünfzigfachen Preisunterschied aufweisen. Manche Systeme kosten 2 Dollar pro Anfrage. Es ist richtig teuer.
Falls Apple einen kostenlosen KI-Assistenten bietet, dann ist dieser sehr wahrscheinlich in seinen Fähigkeiten am unteren Ende der Skala angesiedelt. Siri könnte vielleicht etwas gesprächiger werden und besser verstehen, was man will. Das wäre schon ein guter Fortschritt. Aber mehr ist kostenlos nicht drin — einfach weil die Kapazität nicht existiert. Vermutlich wird Siri die meisten Funktionen exakt so handhaben wie bisher, und nur wenige Anfragen werden weitergeleitet an die neue KI. Man braucht keine KI, um einen Timer für die Pizza zu stellen.
Eine weitere Möglichkeit wäre, dass es sich um Funktionen handelt, die nicht häufig benutzt werden. Also nicht Siri, sondern vielleicht ein Schreibassistent innerhalb von Pages. Man verstreut ein paar solche Funktionen innerhalb von iWork, Shortcuts oder Safari. Und bei Safari wird’s schon gefährlich.
Kosten im Quadrat
Sehr wahrscheinlich wird Apple die Menge an Informationen begrenzen, die an die KI geschickt werden. Man schickt zwei Dinge an den Server: Den eigentlichen Befehl und den Kontext. Der Kontext kann zum Beispiel ein Dokument sein, das man gerne korrigiert hätte. Je länger der Kontext ist, desto teurer wird es. Die Kosten steigen aber nicht linear, sondern im Quadrat. Mehr als tausend oder zweitausend Zeichen wären geradezu ein Wunder. Ich fände schon 500 Zeichen eindrucksvoll.
Das würde aber ausreichen, damit Siri nicht vergisst, was man vor zehn Sekunden gesagt hatte. Denn bei den KI-Systemen wird im Hintergrund immer der bisherige Verlauf mitgeschickt; auf diese Weise entsteht der Eindruck, die KI würde sich merken, was man zuvor geplaudert hatte. Vielleicht könnte Siri die letzten zwei Anfragen mitsenden.
Eins ist klar: So schnell wie Siri derzeit antwortet (nämlich meist unmittelbar oder überhaupt nicht), kann es per KI nicht funktionieren. Schon deswegen wäre es unklug, einfach alles per KI zu verarbeiten.
Bilderzeugung
In den einschlägigen Meldungen heißt es, die Anwender könnten mit Googles KI-Technik auch Bilder anhand von Text-Kommandos erzeugen. Das schürt Zweifel, ob es sich wirklich um durchgesickerte Informationen handelt. Denn Bilderzeugung gehört zu jenen KI-Aufgaben, die sich durchaus lokal auf den Geräten erledigen lassen. Apple hat eine solche Engine bereits in iOS eingebaut, abgeleitet von »Stable Fusion«, einem Open-Source-Projekt.
Aber wozu soll das gut sein? Vielleicht kann man sich damit ein paar Illustrationen für Pages und Keynote erzeugen lassen. Doch Adobe wird drauf pfeifen. Adobe entwickelt ihre eigene Technik. Dasselbe gilt für Microsoft mit Word und PowerPoint. Warum also sollte Apple sich dafür an Google oder OpenAI wenden? Die Gerüchte sind an dieser Stelle einfach nicht plausibel.
Man mag sich auch fragen, ob Apple wirklich eine Anwendung auf einen Server auslagert, weil sie viel Rechenleistung benötigt? Immerhin verdient Apple seine Brötchen genau damit, dass sie den Grafikprofis sehr schnelle Maschinen verkauft. Wenn die bisherigen Geräte an die Grenze ihrer Leistungsfähigkeit kommen, ist das für Apple sehr gut. Umso eher kaufen die Kunden das neueste Modell.
Kooperation
Es gibt eine weite Bandbreite an Möglichkeiten, sich Partner zu suchen und voneinander zu profitieren. Von Apple wird ein großer Befreiungsschlag gefordert, aber die Technik steht noch ganz am Anfang. Vor allem ist es immens teuer. Man kann nicht erwarten, dass Apple mal eben gratis in iMessage einbaut, worin andere Firmen zehn Jahre und Milliarden an Dollar investiert haben.
Es ist auch aus Sicht der Anwender eine komplexe Technologie. Wer sich nicht intensiv damit beschäftigt, wird kaum verstehen, warum die KI mal geniale und mal törichte Antworten gibt. Apple möchte die Dinge einfach und durchschaubar halten. Sie müssen sich auf jene Anwendungen konzentrieren, die einfach, zuverlässig und nützlich sind. Von dort arbeitet man sich vorwärts.
Es herrscht große Aufregung im Web über die Nachricht, Apple würde angeblich die KI-Technik von Google lizenzieren. Ausgerechnet Google! Aber was bedeutet das eigentlich?
KI ist als Begriff reichlich nebulös und lädt zu mannigfaltigen Missverständnissen ein. Deswegen ist es verblüffend, dass der zugrunde liegende Bloomberg-Artikel nicht genauer nennt, was überhaupt damit gemeint ist. Welche konkrete Aufgabe soll gelöst werden? Was bekommt der Anwender zu sehen? Und was läuft lediglich hinter den Kulissen? Weiterlesen »
Siri 2.0
Nehmen wir Siri als offensichtliches Beispiel. Soll Siri in Zukunft jede mögliche Frage beantworten können, ähnlich zu ChatGPT? Das wäre natürlich gut. Aber was genau würden wir von Siri halten, wenn es uns auf eine komplexe Frage eine ebenso komplexe Antwort geben würde? Selbst kurze Antworten von ChatGPT umfassen oft eine ganze DIN-A-4 Seite. So etwas macht für eine Sprachassistenten überhaupt keinen Sinn. Siri ist dazu da, sehr knappe Informationen zu geben. Siri soll vor allem die Funktionen des iPhones und dessen Apps leicht zugänglich zu machen. Es ist ein Assistent für Funktionen. Was hat das mit Google zu tun?
Die neuen KI-Systeme sind verblüffend gut darin, die Anfragen des Anwenders zu verstehen. Derzeit ist das eine Schwäche von Siri. Geht es also lediglich um irgendeinen Schnickschnack hinter den Kulissen, sodass die Kommandos an Siri besser verstanden werden? Dann wäre es nur eine sekundäre Komponente und all die Aufregung nicht wert.
Aktuelle Daten
Bleiben wir noch etwas bei Siri. Von Siri erwarten wir aktuelle Informationen, ähnlich einer Suchmaschine. Für ganz bestimmte Bereiche lizenziert Apple schon heute die dazu passenden Dienste, beispielsweise Sportergebnisse, Wetter oder Kino. Während Siri nur etwa alle 14 Tage aktualisiert wird, verwendet Apple Live-Datenbanken von Drittanbietern für spezielle Fragen.
Vergleichen wir das mit den modernen KI-Systemen. Sie zu trainieren benötigt jeweils drei bis sechs Monate. ChatGPT basiert hauptsächlich auf Daten, die älter sind als ein Jahr, weil noch Zeit benötigt wird für ein verfeinertes Training der Grundintelligenz. Man sieht daran: Ein solches System, so schlau es auch sein mag, ist zu langsam für Siri.
Geht es also bei der Lizenz einfach um die aktuellen Daten? Google hat vor ein paar Wochen eine interessante Technologie vorgestellt, mit der man die schwerfälligen KI-Daten aktuell halten kann, ohne sie komplett neu zu berechnen. Geht es vielleicht nur um diese Komponente?
Apps, Apps, Apps
Eine sehr interessante Frage besteht darin, wo uns die Intelligenz überhaupt begegnet. Natürlich könnte Apple eine Chat-App programmieren. Doch der eigentliche Clou besteht darin, diese Intelligenz innerhalb von Apps zu verwenden. Nicht nur, weil sie uns dort bei unseren konkreten Aufgaben helfen kann. Sondern vor allem, weil die Entwickler sehr komplexe Aufgaben realisieren können, die den Anwender ansonsten überfordern würden. Es ist nämlich gar nicht so einfach, einer KI mitzuteilen, was man möchte.
Apple wird sicherlich APIs (Programmierwerkzeuge) zur Verfügung stellen, mit denen die Entwickler gut arbeiten können. Andererseits ist es aber auch nicht zwingend erforderlich. Denn letztlich ist es eine triviale Kommunikation mit einem Server. Man kann heute schon eine Textverarbeitung programmieren, die den jeweils aktuellen Text zu einer KI schickt, um ihn auf Fehler zu untersuchen. Der Entwickler benötigt Apple nicht dafür. Er kann selbst entscheiden, welchen der verschiedenen Anbieter er benutzt.
Man kann sich das leicht klarmachen mit Apps, die sowohl unter iOS als auch unter Android, macOS und Windows funktionieren sollen. Der Entwickler entscheidet sich für einen KI-Anbieter und schickt seine Anfragen dorthin. Es ist nicht abhängig von Apple.
Was bedeutet es dann überhaupt noch, wenn es heißt, Apple lizenziert die künstliche Intelligenz von Google? Was sich innerhalb der Apps abspielt, bestimmt nicht Apple. Sondern der Entwickler.
Money, Money, Money
Früher hat Apple den Entwicklern bestimmte Werkzeuge kostenlos überlassen, die eigentlich gutes Geld wert waren. Beispielsweise Datenbanken auf Apples Servern: Viele Apps benutzen im Hintergrund solche Datenbanken, um einen Highscore oder andere Daten des Anwenders zu speichern. Auch die Synchronisierung verschiedener Geräte basiert oft auf diesen kostenlosen Datenbanken. Kostenlos sind sie natürlich nur deswegen, weil Apple von allen Umsätzen eine gute Provision einbehält.
Es wäre durchaus denkbar, dass Apple den Entwicklern erneut ein verlockendes Angebot macht. Künstliche Intelligenz wie ChatGPT oder Gemini ist sehr teuer. Es könnte sein, dass Apple seine KI kostenlos abgibt oder zumindest ein großzügiges Freikontingent einräumt, vorausgesetzt, Apple wäre per AppStore wieder bei den Umsätzen beteiligt.
Wahrscheinlicher ist jedoch, dass die ganze Herrlichkeit etwas kosten wird; und dann liegt es am Anwender (oder am Entwickler), wie er sich entscheidet. Dass es plötzlich eine »Apple-KI« gibt, die sich ungefragt in alles einmischt und der niemand entkommt, ist aus finanziellen Gründen unwahrscheinlich; abgesehen von trivialen Funktionen.
Ich weiß, dass ich nichts weiß
Dieses weise Zitat beschreibt recht gut, was man über den angeblichen Deal zwischen Apple und Google (oder sonstwem) weiß. Betrifft es vielleicht nur Server-Kapazität? Betrifft es nur die »untrainierte« Grund-Intelligenz, die dann von Apple weiter verfeinert wird? Da könnte man in der Tat zusammenarbeiten. Betrifft es aktuelle Daten?
Es ist doch recht verblüffend, dass in den Gerüchten nichts darüber zu erfahren ist. Dennoch findet man in den amerikanischen Foren viel Aufregung, dass Apple jetzt abhängig wäre von der Google-Krake. Wenn man genauer nachfragt, gibt es darauf aber keinen Hinweis.
Künstliche Intelligenz? Gähn. Lasst uns bloß damit in Ruhe. — So oder ähnlich reagieren viele genervte Anwender, die den Hype um KI nicht mehr hören können. Zu lange und zu oft wurde versprochen, dass Siri damit endlich verstehen würde, was wir meinen. Die tatsächlich erbrachten Ergebnisse haben nie viel getaugt. Doch plötzlich gelang ein immenser Durchbruch. Man hat entdeckt, wie es funktioniert. Der Aufwand dafür ist gigantisch, aber die Ergebnisse sind absolut verblüffend. Es ist längst kein Geheimnis mehr: Dies ist die neue Epoche nach der Smartphone-Revolution. Vermutlich sogar größer. In der Sendung möchten wir alle ins Boot holen, die noch skeptisch sind und die nicht wissen, ob sie sich wirklich für das neue Zeug interessieren sollen. Kann nicht einfach alles so bleiben, wie es war? Direkt zum Film »
Apple ist berühmt dafür, seine Hardware exakt auf die Software abzustimmen, und umgekehrt. Das war Apple derart wichtig, dass man sogar die Mühe auf sich nahm, komplett eigene Prozessoren zu entwickeln. Bisher waren die Ziele klar: eine möglichst hohe Performance bei gleichzeitig niedrigem Energieverbrauch und einem besonderen Augenmerk auf eine flüssige Grafik. Mit dem iPhoneX kam zum ersten Mal die Neural Engine hinzu, von der damals noch kaum jemand ahnte, wie wichtig sie werden würde. In den kommenden Jahren (und sehr viel schneller, als wir alle glauben!) werden sich die Anforderungen an Apples Prozessoren dramatisch erhöhen. Künstliche Intelligenz braucht eine brachiale Prozessorkraft. Was wird Apple an seinen Prozessoren vermutlich ändern, um das zu erreichen? Direkt zum Film »
Künstliche Intelligenz? Gähn. Lasst uns bloß damit in Ruhe. — So oder ähnlich reagieren viele genervte Anwender, die den Hype um KI nicht mehr hören können. Zu lange und zu oft wurde versprochen, dass Siri damit endlich verstehen würde, was wir meinen. Die tatsächlich erbrachten Ergebnisse haben nie viel getaugt. Doch plötzlich gelang ein immenser Durchbruch. Man hat entdeckt, wie es funktioniert. Der Aufwand dafür ist gigantisch, aber die Ergebnisse sind absolut verblüffend. Es ist längst kein Geheimnis mehr: Dies ist die neue Epoche nach der Smartphone-Revolution. Vermutlich sogar größer. In der Sendung möchten wir alle ins Boot holen, die noch skeptisch sind und die nicht wissen, ob sie sich wirklich für das neue Zeug interessieren sollen. Kann nicht einfach alles so bleiben, wie es war?
Zwei Themen schafften es in unsere muntere Rundschau. Erstes Thema: Die Programmierung künstlicher Intelligenz mit Prompt Engineering, die Nutzung von Few-Shot-Examples, und all das verbunden mit dem Mac und mit Shortcuts. Klingt kompliziert! Aber es handelt sich um einfache und dennoch höchst wirksame Methoden, um einer KI beizubringen, was man haben möchte. Jörn wird zeigen, wie man auf dem Mac einen Text aus einem Video extrahiert und daraus einen Einleitungstext für eine Webseite bastelt. Automatisch und ohne weitere Software. — Zweites Thema: Der Browserkrieg ist wieder eröffnet! Microsoft zwängt sich frech zwischen Chrome und Anwender. Wir haben Beweise!
Live-Sendung fast jeden Sonntag um 19 Uhr mit zahlreichen Themen, Live-Chat und Votings. Login ab 18:50 Uhr, Start um 19 Uhr. Wiederholung der Beiträge im Archiv.