Große Sprachmodelle
Wir verwenden verschiedene große Sprachmodelle (LLMs) von OpenAI und Cohere. Wir verwenden einen Retrieval-Augmented-Generation (RAG)-Ansatz, bei dem relevante Informationen als Teil des Kontexts für das LLM bereitgestellt werden. Das LLM wird angewiesen, sich auf die bereitgestellten Informationen zu konzentrieren. Cohere-Modelle werden zum Neurangieren von Textelementen als Teil der RAG-Pipeline verwendet. Dies verbessert die Antwortqualität und verringert das Risiko von Halluzinationen.
Hosting
Die LLMs werden alle von Microsoft im Rechenzentrum Schweiz Nord für OpenAI-Modelle und Schweden für Cohere-Modelle gehostet. Es werden keine Benutzerdaten (z. B. Wissensdatenbankinhalte, Benutzereingabeaufforderungen) für das Training oder die Feinabstimmung des LLM-Modells verwendet. Microsoft ist ein zugelassener Unterprozessor für ZOA.
Embeddings
Um die relevanten Wissensdatenbankelemente zu finden, wenden wir den oben erwähnten RAG-Ansatz an. Wenn ein Wissensdatenbankelement gespeichert wird, generieren wir daraus Einbettungen und speichern den Embeddings-Vektor in der Datenbank. Wenn der Benutzer eine Eingabeaufforderung stellt, müssen wir zunächst einen Embeddings-Vektor aus der Benutzereingabeaufforderung generieren, damit wir die semantisch relevantesten Wissensdatenbankeinträge finden können. Der Inhalt der ähnlichsten und relevantesten Wissensdatenbankelemente wird dann als Kontext für das LLM verwendet, um die Benutzereingabeaufforderung zu beantworten.
Speicherung
Alle KI-Konversationen werden auf unserem Server gespeichert. Nur der Benutzer kann auf seine persönlichen Konversationen zugreifen. Der Unternehmensadministrator eines ZOA-Kontos hat keinen Zugriff auf die KI-Konversationen der Teammitglieder.