Belle II Detektor: Mit Methoden der Künstlichen Intelligenz auf der Suche nach Neuer Physik

Kurzfassung

Den Belle II-Detektor am SuperKEKB-Elektron-Positron-Collider durchqueren pro Sekunde weit über 100 Millionen Teilchen. Selbst modernste Datenerfassungssysteme sind momentan nicht in der Lage, diese ungeheure Datenrate für spätere physikalische Analysen auf externe Speicher zu sichern. Eine solche umfassende Datenspeicherung ist auch nicht sinnvoll: Zum einen wäre sie zu teuer und zum anderen kommt nur ein winziger Bruchteil dieser Daten tatsächlich aus Elektron-Positron-Kollisionen, die für physikalische Untersuchungen interessant wären. Um die „echten“ Signale in den Sub-Detektoren von Belle II von unbrauchbaren Daten („Untergrund“) zu unterscheiden, kommt eine spezielle schnelle Elektronik zum Einsatz, der sogenannte Trigger (Auslöser). Durch die Trigger-Elektronik wird entschieden, ob es sich lohnt, die Daten des Detektors auszulesen und permanent zu speichern. Die Aufgabe des Triggers ist also im Wesentlichen eine Mustererkennung mit Hilfe der verschiedenen Subdetektoren im Belle II Experiment, um die „Spreu“ (den Untergrund) vom „Weizen“ (den physikalisch relevanten Reaktionen) zu trennen. Hier kommt die Künstliche Intelligenz ins Spiel, die für solche Mustererkennungsaufgaben in besonderem Maße geeignet ist: Seit dem Jahr 2021 kommt im Belle II Detektor ein äußerst erfolgreiches innovatives und weltweit einzigartiges Triggersystem zur Anwendung, das auf neuronalen Netzwerken basiert. Das System nutzt Echtzeitsignale aus der zentralen Driftkammer („CDC“), um diejenigen Ereignisse zu erkennen, in denen die Teilchen aus dem Kollisionspunkt der Elektronen und Positronen kommen. Somit wird der dominierende Untergrund weitestgehend zurückgewiesen und die Effizienz für Ereignis-Signaturen zu Neuer Physik deutlich erhöht.  

Trotz großer Erfolge kann das Standardmodell der Teilchenphysik viele offene Fragen nicht beantworten, wie zum Beispiel die Abwesenheit nennenswerter Ansammlungen von Antimaterie im Universum, die Natur der Dunklen Materie, die zur Erklärung der Dynamik von Galaxien und Galaxienhaufen notwendig ist oder die Gravitation, die sich bisher einer erfolgreichen quantenmechanischen Formulierung entzieht. Daher wird in der experimentellen Teilchenphysik nach „Neuer Physik“ gesucht, die sich höchstwahrscheinlich mit der Entdeckung neuer Teilchen manifestieren wird. Heutzutage sind zwei große Teilchenbeschleuniger in Betrieb, der Large Hadron Collider LHC am CERN in Genf, in dem Protonen bei 13 TeV Schwerpunktsenergie aufeinander geschossen werden und der Collider SuperKEKB am KEK in Japan, in dem Elektronen mit Positronen bei einer deutlich geringeren Energie von 10 GeV kollidieren.

Während man am LHC vor allem darauf setzt, neue, vermutlich schwere, Teilchen direkt zu produzieren und nachweisen zu können, liegt der Schwerpunkt bei SuperKEKB auf der präzisen Vermessung physikalischer Prozesse und deren Vergleich mit den Vorhersagen des Standardmodells. Abweichungen der Messungen von diesen Vorhersagen, oder Messungen von Prozessen, die im Standardmodell „verboten“ sind, wären klare Indizien für Neue Physik: Sie würden auf zusätzliche Beiträge durch neue Teilchen hinweisen, die sich als „virtuelle Kräftevermittler“ indirekt manifestieren. Der Vorteil der indirekten Beobachtung neuer Teilchen bei SuperKEKB gegenüber der realen Produktion am LHC liegt darin, dass die Massenskala für die virtuellen Teilchen nicht limitiert ist: Am SuperKEKB lassen sich mit dem Belle II Detektor also Teilchen indirekt nachweisen, die zu schwer sind, um sie am LHC direkt zu produzieren. Hierzu müssen sehr viele Ereignisse detektiert und ausgewertet werden, damit eventuelle Abweichungen vom Standardmodell mit ausreichender Sicherheit festgestellt werden können. Dies setzt voraus, dass der SuperKEKB mit enorme Kollisionsraten, wissenschaftlich als "Luminosität" bezeichnet, am Limit der technologischen Möglichkeiten operiert. Wegen der statistischen Natur der physikalischen Prozesse in Elektron-Positron-Kollisionen sollte im Prinzip jedes Teilchen, das in Belle II detektiert wird, aufgezeichnet werden, um die gelieferte Luminosität voll auszunutzen.  Die Kollisionsraten bei SuperKEKB sind jedoch so hoch, dass selbst die fortschrittlichsten Datenerfassungssysteme nicht in der Lage sind, alle Ereignisse für eine spätere physikalische Analyse permanent auf einem externen Speicher abzulegen.

Warum also hohe Luminositäten verlangen, wenn nicht alle Ereignisse aufgezeichnet werden können? Die Antwort liegt auf der Hand: Viele physikalisch interessante Ereignisse, hier als Signale bezeichnet, sind sehr selten, d. h. sie werden mit einer sehr geringen Rate erzeugt, so dass es lange dauert, bis auch nur ein solches Ereignis beobachtet wird. Eine hohe Luminosität ist also zwingend erforderlich um die Rate interessanter Teilchen pro Zeiteinheit zu maximieren. Andererseits ist ein überwältigender Anteil der bei den Kollisionen erzeugten Ereignisse für die Forscher*innen uninteressant oder, was noch schlimmer ist, sie stammen nicht von der Kollision der Strahlteilchen (Elektronen und Positronen) selbst, sondern von Strahlkollisionen mit Elementen des Strahlführungs- oder des Detektorsystems. Diese beiden Klassen von Ereignissen werden als Untergrund bezeichnet. Es liegt auf der Hand, dass Untergrundereignisse vom Detektor nicht aufgezeichnet, während Signalereignisse mit hoher Effizienz erfasst werden sollten.

Wir brauchen also ein Auswahlverfahren, mit dessen Hilfe Signale in Echtzeit vom Untergrund unterschieden werden können. Ein solches Auswahlverfahren, das komplexe, in schneller Hardware implementierte Algorithmen realisiert, wird als "Trigger" oder „Auslöser“ bezeichnet. Der Trigger muss aufgrund der hohen Rate der eingehenden Ereignisse in sehr kurzer Zeit zu speichernde Signalereignisse identifizieren, während Untergrundereignisse verworfen werden sollten.

Ein einfaches Beispiel soll die Aufgabe und Funktionsweise des Triggers verdeutlichen. Man stelle sich ein Förderband vor, auf dem eine Reihe verschiedener Objekte von links nach rechts transportiert werden. Bei den Objekten auf dem Förderband handele es sich um eine bestimmte Obstsorte, z. B. Kirschen, aber auch um andere, weniger "begehrte" Objekte wie Kieselsteine, Blätter oder andere unerwünschte Objekte. Um bei der physikalischen Analogie zu bleiben, seien die Kirschen ("Signal") den Kieselsteinen und den anderen Objekten ("Untergrund") zahlenmäßig weit unterlegen. Außerdem sei das Förderband so abgedeckt, dass die Kirschen und Kieselsteine bis auf eine bestimmte Öffnung („Kollisionszone“) von etwa einem halben Meter Länge nicht zu sehen sind. Nun läuft das Förderband mit hoher Geschwindigkeit von links nach rechts ("hohe Luminosität"), und die Kieselsteine, Kirschen und andere Objekte passieren schnell die Öffnung. Ein menschlicher Beobachter ("Detektor") steht direkt an der Öffnung und beobachtet die schnell vorbeiziehenden Objekte. Er hat die Aufgabe ("Trigger"), die Kirschen aufzunehmen, aber die Kieselsteine und andere unerwünschte Objekte auf dem Band zu lassen.  Natürlich muss der Beobachter die schnell vorbeiziehenden Objekte auf dem Band erkennen, unterscheiden, seine Hand ausstrecken, die Kirschen ergreifen und sie vom Band entfernen ("Datenerfassung"). Pro „Kirsche“ dürfte der menschliche „Trigger“ ungefähr eine Sekunde benötigen.

Im Belle II Experiment liegt die Zeit, die dem Trigger zur Verfügung steht, um "seine Kirschen vom Band zu greifen", in der Größenordnung von wenigen Mikrosekunden.  Die Rolle des kirschensammelnden Menschen wird von der Trigger-Elektronik übernommen, auf der eine Reihe einfacher logischer Bedingungen für den Auslöser festgelegt sind, die über die Signalsignaturen der Subdetektoren definiert sind, zum Beispiel Ereignisse mit hohen Energiedepositionen im Kalorimeter, oder mit Spuren geladener Teilchen mit hohem Transversalimpuls. Beim Belle II-Experiment wird die Triggeraufgabe dadurch erschwert, dass nicht nur nach "Kirschen" gesucht wird, sondern auch nach einer Vielzahl anderer interessanter "Früchte" mit komplexen Mustern im Detektor. 

Hier kommt nun die künstliche Intelligenz ins Spiel, insbesondere künstliche neuronale Netze, die in ihrer Architektur vom biologischen Modell des menschlichen Gehirns abgeleitet sind. Die Architektur eines Neuronalen Netzes besteht im einfachsten Fall (siehe Abb. 1) aus einer Schicht von Eingaben, die in eine Schicht von Neuronen eingespeist werden, wobei jede der Eingaben mit jedem der Neuronen in der Schicht, auch "versteckte Schicht" genannt, verbunden ist. Alle Neuronen der versteckten Schicht sind dann mit einem oder mehreren Ausgangsneuronen verbunden, die die "Antwort" (Ausgabe, Output) des Netzes auf den "Reiz" (Eingabe, Input) liefern. Bei einer bestimmten Eingabe wird die Ausgabe des neuronalen Netzes durch die Stärke der Verbindungen zu den Neuronen in der verborgenen und in der Ausgabeschicht bestimmt. Um eine gewünschte Ausgabe für eine bestimmte Eingabe (oder eine Reihe von Eingaben) zu erhalten, muss die Stärke der neuronalen Verbindungen, häufig "Gewichte" genannt, "trainiert" werden. Ähnlich wie beim Lernprozess im menschlichen Gehirn - man denke an das Auswendiglernen einer Reihe von Wörtern in einer Fremdsprache (Output) angesichts einer Reihe von Wörtern in der Muttersprache (Input) - müssen die Inputs wiederholt angeboten werden, um ein Ergebnis mit ausreichender Präzision zu erzielen. Bei künstlichen neuronalen Netzen wird dieser Lernprozess in einem mathematischen Verfahren formuliert, wobei dem Netz die Eingaben mehrfach angeboten werden und die Gewichte systematisch solange verändert werden, bis die Ausgaben dem gewünschten Ergebnis entsprechen. Dieser Prozess wird als "überwachtes Lernen" bezeichnet, was bedeutet, dass das Lernschema von einem „Lehrer“ geleitet wird, der die richtigen Antworten für einen gegebenen Stimulus kennt.

Zurück zu den "Kirschen und Kieselsteinen": Angesichts der "Muster" dieser Objekte können die Gewichte der neuronalen Verbindungen im Netz mit einer Reihe von "Stimuli", wie Form, Größe und Farbe der verschiedenen Objekte, trainiert werden, indem sie mehrfach angeboten werden, bis das Netz die Objekte richtig identifiziert (oder zumindest in der Mehrzahl der Fälle, ähnlich den möglichen Fehlern eines sogar gut trainierten menschlichen Gehirns). Die Ein- und Ausgänge künstlicher neuronaler Netze sind Zahlenwerte, ebenso die Gewichte zwischen den einzelnen Neuronen. Im Falle der Objekterkennung auf dem Förderband würden die „Kirschen“ mit einer Zahl nahe "1" (hohe Wahrscheinlichkeit), die Kieselsteine mit einer Zahl nahe „0“ klassifiziert.  Eine Netzantwort von beispielsweise 0,89 wird dann mit hoher Wahrscheinlichkeit als "Kirsche" bewertet und vom Band genommen, während ein Wert von 0,14, einem Kieselstein zugeschrieben wird, der somit auf dem Förderband verbleibt. Auf moderner FPGA Hardware (Field Programmable Gate Arrays) [1] implementiert, können neuronale Netze die komplexe Aufgabe der Mustererkennung zuverlässig und in deutlich weniger als einer Mikrosekunde erledigen. Aus der Architektur der neuronalen Netze in Abb. 1 lässt sich auch der Grund für die hohe Geschwindigkeit erkennen: Die vielen Berechnungsschritte von einer Lage in die nächsthöhere können vollkommen parallel ausgeführt werden, die Ausführungszeit ist für jedes Ereignis die gleiche und hängt nur von der Anzahl der versteckten Lagen und der darin angelegten Neuronen ab.    

Im Fall von Belle II ist der auf neuronalen Netzen basierende Trigger so konzipiert, dass er Teilchenspuren aus der nur wenige Millimeter großen Kollisionszone der Elektronen und Positronen erkennen soll und Spuren von außerhalb zurückweist: Geladene Teilchen hinterlassen Signale an den Drähten der 56-lagigen großen zentralen Driftkammer ("CDC") von Belle II, die zur präzisen kinematischen Rekonstruktion dieser Teilchen dienen. Wegen der geforderten kurzen Ausführungszeit ist die Echtzeit-Rekonstruktion der Teilchenspuren aus den einzelnen Drähten der CDC im Trigger derzeit noch nicht möglich. Stattdessen werden die Eingänge zu den Netzen mit vordefinierten Drahtmustern (den so genannten "Spursegmenten") aus 9 speziellen Lagen der CDC gefüttert. Die Ausgabe der Netze besteht aus zwei Neuronen, von denen eines den Ursprung der Spur in Strahlrichtung ("z-Vertex") liefert, das andere den polaren Streuwinkel („θ“) der Spur. Trainiert werden die Netze mit offline rekonstruierten Spuren, die die Zielwerte für den z-Vertex und den Polarwinkel θ liefern. Die von den Netzen erzielte Auflösung in der momentan genutzten einfachen Netzwerkarchitektur in Abb. 1 beträgt 3 cm in z-Richtung.

Der neuronale Spur-Trigger, der auf der ersten Triggerstufe läuft, kam nach einer intensiven Testphase im Frühjahr 2021 zum ersten Mal zum Einsatz [2]. Zu dieser Zeit war die von SuperKEKB bereitgestellte Luminosität – und damit auch der Untergrund - schon so weit angestiegen, dass der konventionelle Spur-Trigger, der keine Information über die Lage der Teilchen in der z-Richtung liefert, die zulässige Rate des Datennahmesystems überstieg. Seitdem wird der neuronale „z-Trigger“ für alle Ereignisse mit zwei oder mehr Spuren innerhalb der CDC verwendet: Er löst aus, wenn mindestens eine Spur mit |z| < 15 cm in einem Ereignis gefunden wird (der Kollisionspunkt liegt bei z = 0). Hierdurch wird der überwältigende Anteil an Untergrundereignissen (|z| > 15 cm) verworfen und die Gesamtrate der Trigger der ersten Stufe im zulässigen Rahmen gehalten.  

Mit den neuronalen Algorithmen gelang noch ein weiterer Erfolg: Unter Verwendung der zweiten Ausgabe des neuronalen Netzes, nämlich des Polarwinkels θ, ist es sogar möglich, einen Trigger mit nur einer einzigen Spur in der CDC zu realisieren („Single-Track-Trigger (STT)“). Wegen der dominierenden Prozesse der Quantenelektrodynamik, bei denen Elektron-Positron-Paare mit sehr niedrigen Energien emittiert werden, benötigt der STT zusätzlich zur Bedingung |z| < 15 cm einen minimalen Impuls von 0,7 GeV, der sich mit dem Polarwinkel θ berechnen lässt. Die Einführung des neuronalen STT bedeutet einen großen Schritt vorwärts für das Belle II Triggersystem. Von der STT profitieren vor allem Ereignisse mit einer geringen Anzahl von geladenen Teilchen, wie sie zum Beispiel in der Tau-Paarproduktion vorkommen. Doch auch neue, bislang unbekannte Physikprozesse könnten so getriggert werden. Zwar gilt für alle Prozesse die Erhaltung der elektrischen Ladung, es gibt also keine Ereignisse mit nur einer oder einer ungeraden Anzahl geladenen Spuren. Nachdem die CDC aber einen begrenzten Raumwinkel abdeckt, muss „die zweite Spur“ bei den vom STT getriggerten Ereignisse von anderen Subdetektoren, z.B. von den Vertexdetektoren, rekonstruiert werden (siehe Abb. 2). Diese Ereignisse können mit einem Zweispurtrigger nicht erfasst werden und würden ohne den STT verloren gehen.

Eine der Stärken des neuronalen Ansatzes im Trigger ist seine Anpassungsfähigkeit bei veränderten und erhöhten Untergrundverhältnissen: Die neuronalen Netze werden anhand der Daten mit erhöhtem Untergrund nachtrainiert. Dies konnte überzeugend mit den Daten aus den verschiedenen Datennahmen belegt werden. Jedoch ist Vorsicht geboten: die Luminosität und die Untergründe werden sich in den kommenden Jahren stark erhöhen. Um auch in Zukunft einen stabilen Betrieb der Spur-Triggers zu gewährleisten, wird derzeit ein umfassendes Upgrade-Programm mit führender Beteiligung von Gruppen aus Deutschland umgesetzt, bei dem zum Beispiel die Auswahl der Spursegmente für die Eingabe in die Netzwerke optimiert wird. Weiterhin werden tiefere neuronale Netze („Deep-Learning“) studiert, die aufgrund neuer FPGA-Hardware nunmehr möglich sind. 

Eine „Schwäche“ haben die bisherigen neuronalen Trigger allerdings: Sie sind für Spuren optimiert, die vom Kollisionspunkt kommen. Damit werden Ereignisse mit Spuren, die von einem stark in der transversalen Ebene verschobenen Vertex kommen, nicht erfasst (siehe Abb.3). Solche Signaturen werden zum Beispiel in Zerfällen dunkler Higgs-Bosonen [3] oder dunkler Photonen [4] bei Belle II erwartet. Auch hier gibt es konkrete Pläne für die nahe Zukunft, das Belle II Spurtriggersystem um neuronale Algorithmen für solche anomalen Ereignistypen zu erweitern. Noch leistungsfähigere FPGAs werden es außerdem ermöglichen, eine ganz neue Klasse von Spurtriggern zu nutzen, die auf sogenannten Graph Neural Networks basieren und selbst bei extrem hohen Untergrundraten sehr präzise und verlässliche Vorhersagen ermöglichen sollen [5,6].  

Prof. Christian Kiesling, Max-Planck-Institut für Physik und Ludwig-Maximilians-Universität München 

[1] https://de.wikipedia.org/wiki/Field_Programmable_Gate_Array
[2] http://arxiv.org/abs/2402.14962
[3] JHEP 04 (2021) 146, https://arxiv.org/abs/2012.08595 
[4] Phys.Lett.B 833 (2022) 137373, https://arxiv.org/abs/2202.03452 
[5] https://arxiv.org/abs/2307.07289 
[6] https://indico.jlab.org/event/459/contributions/11761/

    

 

 

 

 

 

 

 

 

Abb. 1: Die Netzwerkarchitektur des Neuronalen Triggers.

 

 

 

 

Abb. 2: Tau-Paar-Ereignis, das mit dem STT getriggert wurde. Die zweite Spur wird bei flachem Polarwinkel emittiert und durchquert nur die Vertexdetektoren.

 

 

 

 

Abb. 3: MC Ereignis zur Produktion inelastischer Dunkler Materie mit transversal versetztem Vertex.