Die pragmatischste technische Option, um unser Ziel zu erreichen.
Zuerst, laden wir die gesamte lex4you Website mit einem Crawler herunter und zerlegen die Informationen in leicht verdauliche Einheiten für das Large Language Model /LLM (grosses Sprachmodell). Diese Segmente werden mithilfe von Embeddings vektorisiert und in einer Vektordatenbank gespeichert. Dank dieser Embeddings sind die Dokumente, die Informationen zu einer gestellten Frage liefern, schnell gefunden. Diese schicken wir zusammen mit der ursprünglichen Frage an das LLM, um eine Antwort zu generieren. Direkt im Anschluss erhalten die Nutzer*innen die Antwort zusammen mit den entsprechenden Referenzen. Dieser Ansatz heisst «Retrieval Augmented Generation» (RAG).
Diese Quellen sind äusserst hilfreich. Da LLMs manchmal «halluzinieren» und Dinge erfinden, helfen diese Informationen den Nutzer*innen dabei, die Aussagen zu überprüfen. Andererseits verringert die Tatsache, dass sich das System auf eine begrenzte Basis und nicht auf das gesamte Web stützt, das Risiko von Fehlinformationen. Es ist in jedem Fall ratsam, die erhaltenen Antworten zu überprüfen und zu diesem Zweck die mit der Antwort verlinkten Artikel zu lesen. Diese Empfehlung gilt für jede Nutzung von ChatGPT oder anderen LLMs.
Datenblatt
Inhalte abrufen und indizieren:
- NestJS: Backend
- Vuejs: sehr einfache Frontend-Anwendung, um die Frage an das Backend zu senden und das Ergebnis anzeigen
- PostgreSQL: Datenbank (mit pgvector-Erweiterung)
- SimpleCrawler: Durchsuchen der gesamten Website und Eingabe der Daten in die Datenbank
- Cheerio: Extraktion von relevanten Inhalten und Integration in die Datenbank
- OpenAI integration API: hat diese relevanten Auszüge bekommen, damit wir die erhaltenen Integrationen in der Datenbank speichern können
Inhaltsabfrage:
- API zur Integration von OpenAI: erzeugt einen Integrationsvektor, wenn eine Frage übermittelt wird
- Vektor: Durchsuchen der Datenbank, um Textteile und URLs zu extrahieren
- Prompt: Eingabe der Auszüge, bis die Zeichenbegrenzung erreicht ist
- API für die OpenAI «createChatCompletion»: Verarbeitung der erhaltenen Informationen, um das Ergebnis mit Server Sent Events an den Browser zu senden (alle nützlichen Links, die in unserer Datenbank gefunden wurden, werden auch als Referenz und Quelle angezeigt)
Was ist mit dem Datenschutz?
Trotz all dieser Vorteile bietet ChatGPT keine vollständige Transparenz hinsichtlich der Verwendung der Daten. Um bei diesem Problem Abhilfe zu schaffen, werden die Daten und Dokumente der Website lex4you nicht bei OpenAI, sondern ausschliesslich auf unseren Servern gespeichert. Wir nehmen den Datenschutz sehr ernst und prüfen auch alternative Hosting-Lösungen wie Azure OpenAI, die über eine bessere Datenschutzpolitik verfügen. Eine weitere Option wäre, auf die Cloud-Lösung von ChatGPT zu verzichten. Open-Source-LLM-Lösungen sind jedoch derzeit mit sehr hohen Anfangs- und Betriebskosten verbunden.
Die lex4youGPT-Lösung ist ein weiterer Beweis dafür, dass das tägliche Leben durch GPT auf einfache Weise verbessert werden kann, indem der Zugang zu Informationen von öffentlichem Interesse erleichtert wird. Das alles ist der enormen Vorarbeit zu verdanken, die das lex4you-Team in den letzten 5 Jahren geleistet hat. Weil die Teammitglieder so viele hochwertige Inhalte erstellt haben, funktioniert lex4you so gut.
Hast du eine Website mit zahlreichen wertvollen Informationen, die leichter gefunden werden sollten? Kontaktiere uns, damit wir auf Basis von ChatGPT einen Chatbot entwickeln können.