Diktiersoftware und DSGVO: Warum Cloud-Spracherkennung ein rechtliches Risiko ist

Auf einen Blick: Cloud-basierte Diktiersoftware überträgt Sprachdaten an externe Server — ein Problem für die DSGVO und erst recht für Berufsgeheimnisträger nach §203 StGB. Sprachaufnahmen können biometrische Daten enthalten und unterliegen damit dem strengen Art. 9 DSGVO. Lokale Offline-Lösungen umgehen diese Risiken vollständig, weil keine Datenübertragung stattfindet.

Sie diktieren einen Schriftsatz für einen Mandanten. Vertrauliche Details, Aktenzeichen, Namen — alles fließt per Sprache in Ihren Rechner. Aber wohin genau? Bei den meisten Diktierlösungen lautet die Antwort: auf einen Server in der Cloud. Oft in den USA, manchmal in Irland, selten in Deutschland. Für Berufsgruppen mit Schweigepflicht — Anwälte, Steuerberater, Ärzte — ist das nicht nur ein Datenschutz-Thema. Es ist potenziell strafbar. Dieser Artikel erklärt, warum Diktiersoftware und DSGVO ein Spannungsfeld bilden, welche konkreten Risiken Cloud-Lösungen mit sich bringen und welche Alternativen es gibt.

Was passiert mit Ihren Sprachdaten in der Cloud?

Cloud-basierte Diktiersoftware überträgt Ihre Audiodaten an einen externen Server, wo ein KI-Modell die Sprache in Text umwandelt und das Ergebnis zurückschickt. Dabei durchlaufen Ihre Sprachdaten mehrere Netzwerkknoten, werden auf dem Server des Anbieters verarbeitet und häufig zwischengespeichert — ein Vorgang, der weitreichende datenschutzrechtliche Konsequenzen hat.

Das Problem beginnt bereits bei der Übertragung selbst. Laut einer Untersuchung von SkyScribe (2026) laden manche Transkriptions-Apps Audiodaten sogar vor der Zustimmung des Nutzers auf externe Server hoch — über SDKs, die bereits beim Start der App Daten übertragen. Dieser Mechanismus ist für den Nutzer unsichtbar: Die App fordert lediglich Mikrofonzugriff an, während im Hintergrund die Audiodaten an Cloud-Modelle weitergeleitet werden.

Die großen Cloud-Anbieter wie Google, Apple und Microsoft verarbeiten Sprachdaten standardmäßig auf ihren Servern. Bei Apples Siri und Googles Spracherkennung funktioniert die Spracherkennung bei deaktiviertem WLAN überhaupt nicht — ein klares Zeichen dafür, dass die Verarbeitung nicht lokal erfolgt. Für den privaten Gebrauch mag das akzeptabel sein. Für professionelle Anwender mit Vertraulichkeitspflichten ist es ein Compliance-Problem.

Hinzu kommt die Frage der Datenspeicherung. Viele Cloud-Anbieter behalten sich in ihren Nutzungsbedingungen vor, Audiodaten zur Verbesserung ihrer Modelle zu verwenden. Selbst wenn eine sofortige Löschung versprochen wird, fehlen oft transparente Nachweise darüber, dass die Daten tatsächlich vollständig entfernt werden. Ohne klare Löschfristen und nachprüfbare Prozesse bleibt ein Restrisiko, dass Ihre vertraulichen Diktate auf fremden Servern verbleiben.

Ein häufig unterschätzter Punkt: Auch Metadaten sind schützenswert. Selbst wenn der Audiostrom verschlüsselt übertragen wird, können Zeitstempel, IP-Adressen, Geräteinformationen und Nutzungsmuster Rückschlüsse auf Ihre Arbeit zulassen. In einer Kanzlei verraten diese Metadaten beispielsweise, wann an welchem Fall gearbeitet wird — eine Information, die für Gegenseiten oder Wettbewerber wertvoll sein kann.

Datenfluss bei Cloud-basierter Diktiersoftware im Vergleich zu lokaler Verarbeitung

Welche DSGVO-Anforderungen gelten für Diktiersoftware?

Diktiersoftware, die Sprachdaten verarbeitet, unterliegt vollständig der DSGVO, da Audiodaten personenbezogene Daten sind. Sie enthalten die Stimme einer identifizierbaren Person und oft genug auch inhaltlich sensible Informationen über Dritte. Ob ein AVV erforderlich ist, hängt davon ab, ob die Verarbeitung lokal oder auf externen Servern stattfindet.

Die zentralen DSGVO-Anforderungen lassen sich in vier Bereiche gliedern:

Rechtsgrundlage nach Art. 6 DSGVO. Jede Verarbeitung braucht eine Rechtsgrundlage. Bei Cloud-Diktiersoftware kommt meist Art. 6 Abs. 1 lit. f (berechtigtes Interesse) oder lit. a (Einwilligung) in Betracht. Beide sind im professionellen Kontext problematisch: Das berechtigte Interesse muss gegen die Rechte der betroffenen Personen abgewogen werden, und eine wirksame Einwilligung aller in einem Diktat erwähnten Personen ist praktisch kaum einzuholen.

Auftragsverarbeitung nach Art. 28 DSGVO. Sobald ein Cloud-Anbieter Ihre Sprachdaten auf seinen Servern verarbeitet, liegt eine Auftragsverarbeitung vor. Ein AVV (Auftragsverarbeitungsvertrag) ist Pflicht. Er muss Gegenstand, Dauer, Art und Zweck der Verarbeitung, die Art der personenbezogenen Daten und die Pflichten des Auftragsverarbeiters regeln. Fehlt der AVV, verstößt bereits die Nutzung der Software gegen die DSGVO — und zwar unabhängig davon, ob tatsächlich ein Datenschutzvorfall eintritt.

Drittlandtransfer. Viele Cloud-Diktierdienste verarbeiten Daten in den USA oder anderen Drittländern. Seit dem Schrems-II-Urteil des EuGH (2020) ist die Übermittlung personenbezogener Daten in die USA an strenge Voraussetzungen geknüpft. Der aktuelle EU-US Data Privacy Framework bietet zwar eine Grundlage, steht aber bereits wieder unter juristischer Kritik. Laut der DLA Piper Studie (2025) wurden allein 2024 europaweit DSGVO-Bußgelder von 1,2 Milliarden Euro verhängt — Drittlandtransfers gehörten zu den häufigsten Verstößen.

Datenschutz-Folgenabschätzung (DSFA). Wenn die Verarbeitung voraussichtlich ein hohes Risiko für die Rechte natürlicher Personen birgt — etwa bei biometrischen Daten oder bei systematischer Überwachung —, ist nach Art. 35 DSGVO eine DSFA durchzuführen. Sprachdaten können dieses Kriterium erfüllen, insbesondere wenn sie in großem Umfang oder systematisch verarbeitet werden.

Der entscheidende Punkt: All diese Anforderungen gelten nur, wenn überhaupt eine Datenübertragung an Dritte stattfindet. Bei rein lokaler Diktiersoftware, die keine Daten an externe Server sendet, entfällt der gesamte Compliance-Aufwand. Es gibt keine Auftragsverarbeitung, keinen Drittlandtransfer und damit auch keine Pflicht zur DSFA — die DSGVO-Konformität ergibt sich aus der technischen Architektur selbst.

Anforderung	Cloud-Diktiersoftware	Lokale Diktiersoftware
Rechtsgrundlage (Art. 6)	Erforderlich, komplex	Entfällt (keine Daten an Dritte)
AVV (Art. 28)	Pflicht	Nicht nötig
Drittlandtransfer	Häufig (USA-Server)	Ausgeschlossen
DSFA (Art. 35)	Oft erforderlich	In der Regel nicht nötig
Technische Maßnahmen	Abhängig vom Anbieter	Volle Kontrolle

Warum sind Sprachdaten besonders sensibel?

Sprachaufnahmen können biometrische Daten im Sinne der DSGVO enthalten, weil sie physische und verhaltenstypische Merkmale einer Person erfassen — Stimmfrequenz, Sprechrhythmus, Artikulationsmuster. Art. 4 Nr. 14 DSGVO definiert biometrische Daten als personenbezogene Daten, die durch spezielle technische Verfahren gewonnen werden und eine Person eindeutig identifizieren können.

Werden Sprachdaten zur eindeutigen Identifizierung eingesetzt, greift das strenge Verarbeitungsverbot nach Art. 9 Abs. 1 DSGVO. Dieses Verbot lässt nur zehn eng definierte Ausnahmen zu — etwa die ausdrückliche Einwilligung. Für Cloud-Diktierdienste bedeutet das: Selbst wenn ein AVV besteht und die Daten in der EU verarbeitet werden, kann die Verarbeitung gegen Art. 9 verstoßen, wenn der Anbieter die Audiodaten zur Stimmbiometrie nutzt oder nutzen könnte.

Laut dem Positionspapier der Datenschutzkonferenz (DSK, 2019) ist die Eignung biometrischer Daten zur eindeutigen Identifizierung stets bei der Risikoabschätzung zu berücksichtigen — auch wenn die aktuelle Verarbeitung nicht auf Identifizierung abzielt. Die bloße Möglichkeit reicht aus, um erhöhte Schutzmaßnahmen zu rechtfertigen. Das gilt auch für Fälle, in denen der Cloud-Anbieter technisch in der Lage wäre, Stimmprofile zu erstellen — selbst wenn er es aktuell nicht tut.

Ein weiterer Aspekt: Sprachdaten enthalten regelmäßig auch inhaltliche Informationen über Dritte. Wenn ein Anwalt ein Diktat über einen Mandantenfall erstellt, sind darin personenbezogene Daten des Mandanten, der Gegenseite und möglicherweise von Zeugen enthalten. Diese Personen haben weder in die Verarbeitung eingewilligt noch können sie diese kontrollieren. Im Steuerberatungskontext ist die Situation ähnlich: Diktate über Steuerfälle enthalten Einkommensdaten, Familienverhältnisse und Vermögensinformationen von Mandanten — alles hochsensible Daten, die bei einem Cloud-Anbieter auf einem Server landen, den weder der Steuerberater noch der Mandant kontrolliert.

Laut TU Darmstadt und Hochschule Rosenheim stellen Cloud-basierte Spracherkennungssysteme ein erhebliches Risiko dar, weil die übertragenen Aufnahmen sowohl biometrische als auch vertrauliche Informationen enthalten — und missbraucht werden könnten, etwa für sogenannte „Fake Recordings” (authentisch wirkende, künstlich erzeugte Sprachaufnahmen). Dieses Risiko ist bei lokaler Verarbeitung vollständig eliminiert, da die Audiodaten den Rechner nie verlassen.

Was bedeutet §203 StGB für den Einsatz von Diktiersoftware?

§203 StGB verbietet Berufsgeheimnisträgern — darunter Rechtsanwälte, Steuerberater, Wirtschaftsprüfer und Ärzte — die unbefugte Offenbarung von Privatgeheimnissen und stellt Verstöße mit Freiheitsstrafe bis zu einem Jahr oder Geldstrafe unter Strafe. Wer Mandanten- oder Patientendaten per Cloud-Diktiersoftware an Drittserver überträgt, riskiert damit eine strafrechtlich relevante Schweigepflichtverletzung.

Die Rechtsfolgen gehen über die Geldstrafe hinaus. Bei Bereicherungsabsicht drohen bis zu zwei Jahre Freiheitsstrafe (§203 Abs. 6 StGB). Dazu kommen berufsrechtliche Konsequenzen: Anwaltsgerichtliche Verfahren, Entzug der Zulassung, Schadensersatzansprüche der betroffenen Mandanten. Wikipedia bezeichnet Verstöße gegen §203 StGB als ein in seiner Häufigkeit „schwer überbietbares Massendelikt” — eine ernsthafte Verfolgung finde allerdings selten statt. Das sollte jedoch nicht als Entwarnung verstanden werden: Im Ernstfall — etwa bei einem Datenleck beim Cloud-Anbieter — wird die Frage der Sorgfaltspflicht zum entscheidenden Punkt.

Seit der Reform von 2017 erlaubt §203 Abs. 3 StGB zwar die Einschaltung externer Dienstleister als „sonstige mitwirkende Personen”. Voraussetzung ist aber, dass der Berufsgeheimnisträger den Dienstleister sorgfältig auswählt und zur Geheimhaltung verpflichtet. Diese mitwirkenden Personen werden ihrerseits in die Strafbarkeit nach §203 einbezogen — sie machen sich ebenfalls strafbar, wenn sie ein bei Gelegenheit ihrer Tätigkeit bekannt gewordenes Geheimnis offenbaren. Bei Cloud-Anbietern mit Sitz in den USA ist fraglich, ob diese Voraussetzung erfüllt werden kann — insbesondere angesichts der dortigen Überwachungsgesetze wie FISA Section 702 und dem CLOUD Act, die US-Behörden Zugriff auf Daten ermöglichen, auch wenn diese in der EU gespeichert sind.

Der Fachanwalt für IT-Recht Andreas Nörr brachte es in einem Interview mit Future-Law (2026) auf den Punkt: Viele Anwälte beraten ihre Mandanten zum Datenschutz, verwenden aber selbst unsichere Consumer-Tools für vertrauliche Diktate. Die Verwendung von Siri oder Google-Spracheingabe für Mandantendiktate sei ein eklatanter Widerspruch zu den beruflichen Pflichten. Er sieht die Lösung in professionellen Tools, die Daten lokal verarbeiten oder in zertifizierten europäischen Rechenzentren — Consumer-Produkte hätten im Kanzleiumfeld nichts verloren.

Übersicht: Welche Berufsgruppen fallen unter §203 StGB

Welche konkreten Risiken bestehen bei Cloud-Diktiersoftware?

Cloud-basierte Diktiersoftware birgt erhebliche technische, rechtliche, wirtschaftliche und reputationsbezogene Risiken, die sich gegenseitig verstärken können. Ein einzelner Datenschutzvorfall beim Cloud-Anbieter kann gleichzeitig ein DSGVO-Bußgeld, eine strafrechtliche Ermittlung nach §203 StGB, zivilrechtliche Schadensersatzforderungen und einen nachhaltigen Reputationsschaden bei Mandanten und Patienten auslösen.

Technische Risiken. Audiodaten werden bei der Übertragung zum Server über das Internet geleitet. Trotz HTTPS-Verschlüsselung besteht ein Restrisiko bei kompromittierten Zertifikaten oder Man-in-the-Middle-Angriffen. Auf dem Server selbst werden die Daten entschlüsselt und verarbeitet — wer Zugang zum Server hat, hat Zugang zu Ihren Diktaten. Laut dem Cloud-Monitor von KPMG und Bitkom Research steigen die Bedrohungen aus der Cloud gerade für mittelständische Unternehmen stetig an, insbesondere durch Datendiebstahl und Industriespionage. Besonders tückisch: Manche Apps transferieren Audio bereits über SDKs, bevor der Nutzer überhaupt aktiv diktiert hat.

Rechtliche Risiken. Neben DSGVO-Bußgeldern (bis zu 20 Millionen Euro oder 4 % des weltweiten Jahresumsatzes laut Art. 83 DSGVO) und der Strafbarkeit nach §203 StGB drohen auch zivilrechtliche Schadensersatzansprüche. Art. 82 DSGVO gewährt Betroffenen einen Anspruch auf Schadensersatz bei DSGVO-Verstößen — auch bei immateriellen Schäden. Im Jahr 2025 verhängte allein die BfDI ein Bußgeld von 45 Millionen Euro gegen Vodafone wegen mangelhafter Auftragsverarbeitung (DSGVO-Portal, 2026). Im selben Jahr belegte die CNIL Google mit 325 Millionen Euro und Shein mit 150 Millionen Euro.

Wirtschaftliche Risiken. Cloud-Diktiersoftware verursacht laufende Kosten: Abonnements, AVV-Verwaltung, regelmäßige Compliance-Prüfungen, DSFA-Erstellung. Dragon Anywhere kostet als Abo-Modell monatlich zwischen 20 und 30 Euro pro Nutzer bei einer Mindestlaufzeit von 12 Monaten. Hinzu kommen Kosten für die rechtliche Prüfung der Datenschutzkonformität, die bei jedem Anbieterwechsel erneut anfallen.

Reputationsrisiken. Ein Datenschutzvorfall bei einem Cloud-Anbieter betrifft potenziell alle Nutzer gleichzeitig. Für Kanzleien und Praxen kann ein solcher Vorfall existenzbedrohend sein. Die durchschnittliche Anzahl gemeldeter Datenschutzverletzungen stieg laut DLA Piper (2025) auf 363 Meldungen pro Tag in Europa. Im Jahr 2025 wurden den deutschen Behörden insgesamt 10.259 Datenpannen gemeldet — ein Anstieg gegenüber dem Vorjahr mit 8.623 Meldungen (DSGVO-Portal, 2026).

Risikokategorie	Cloud-Lösung	Lokale Lösung
Datenabfluss bei Übertragung	Möglich	Ausgeschlossen
Serverseitiger Zugriff durch Dritte	Möglich (auch US-Behörden)	Ausgeschlossen
DSGVO-Bußgeld	Bis zu 20 Mio. € / 4 % Umsatz	Risiko minimal
§203 StGB Strafbarkeit	Ja, bei Berufsgeheimnisträgern	Nein
Laufende Compliance-Kosten	AVV, DSFA, Prüfungen	Keine

Wie funktioniert lokale Spracherkennung als Alternative?

Lokale Spracherkennung verarbeitet Audiodaten vollständig auf dem eigenen Rechner des Nutzers, ohne Internetverbindung und ohne Übertragung an externe Server. Das KI-Modell läuft direkt auf der lokalen Hardware, wodurch kein Dritter in die Verarbeitungskette eingebunden ist, kein Auftragsverarbeitungsvertrag benötigt wird und die DSGVO-Konformität architektonisch gegeben ist.

Der technologische Durchbruch, der das ermöglicht, heißt OpenAI Whisper. Dieses Open-Source-Modell wurde mit 680.000 Stunden mehrsprachiger Audiodaten trainiert und erreicht für Deutsch eine Word Error Rate (WER) von etwa 5,8 % — vergleichbar mit kommerziellen Cloud-Diensten. Entscheidend ist: Whisper läuft komplett auf lokaler Hardware. Moderne CPUs verarbeiten Diktate in annähernder Echtzeit, mit GPU-Unterstützung (Apple Metal auf Mac, NVIDIA CUDA auf Windows) sogar deutlich schneller.

Durch Modellquantisierung — die Umwandlung von 32-Bit-Fließkommagewichten in kleinere Formate — schrumpft das Modell auf eine handhabbare Größe, ohne die Genauigkeit wesentlich zu beeinträchtigen. Laut MLCommons (2025) erreicht die Whisper-Referenzimplementierung eine Word Accuracy von 97,93 % und reduzierte die Fehlerrate gegenüber dem vorherigen MLPerf-ASR-Modell um über 72 %. Die MIT-Lizenz erlaubt dabei die uneingeschränkte kommerzielle Nutzung — ein entscheidender Vorteil gegenüber proprietären Cloud-Diensten, bei denen Sie an einen einzelnen Anbieter gebunden sind.

Für die DSGVO-Konformität ist das Ergebnis eindeutig: Wenn keine Sprachdaten den Rechner verlassen, gibt es keine Auftragsverarbeitung, keinen Drittlandtransfer und keinen Cloud-Anbieter, dem Sie vertrauen müssen. Die gesamte Compliance-Komplexität entfällt. Auch für §203 StGB ist die Situation klar: Daten, die den Rechner nie verlassen, können nicht „offenbart” werden.

Diktly nutzt genau diesen Ansatz. Die Software verarbeitet Sprache vollständig lokal über das Whisper-Modell. Kein Internet, keine Cloud, keine Serververbindung — nicht einmal für Update-Prüfungen. Für Berufsgeheimnisträger nach §203 StGB ist das der sicherste Weg: Die Daten bleiben auf dem Rechner, die Schweigepflicht wird technisch garantiert.

Ein praktischer Vorteil, der oft übersehen wird: Lokale Spracherkennung funktioniert auch dort, wo es kein Internet gibt — im Gericht, beim Mandantentermin, im Zug oder im Ausland. Während Cloud-Lösungen bei schlechter Verbindung versagen oder mit hoher Latenz kämpfen, arbeitet lokale Software zuverlässig und ohne Verzögerung. Für Steuerberater in der Hochphase der Steuererklärungen und Anwälte mit engen Fristen ist das kein Komfortthema, sondern ein Produktivitätsfaktor.

Welche Anforderungen sollte DSGVO-konforme Diktiersoftware erfüllen?

DSGVO-konforme Diktiersoftware muss sicherstellen, dass Sprachdaten nicht ohne Rechtsgrundlage an Dritte übertragen werden und der Nutzer jederzeit die volle Kontrolle über seine Audiodaten behält. Der Begriff „DSGVO-konform” ist dabei nicht geschützt — prüfen Sie daher konkret, wie die Software mit Ihren Daten umgeht.

Die folgenden Kriterien helfen bei der Bewertung:

1. Datenverarbeitung. Wo findet die Spracherkennung statt — auf Ihrem Gerät oder auf einem externen Server? Testen Sie das, indem Sie die Internetverbindung trennen und ein Diktat starten. Funktioniert die Software offline, ist die Verarbeitung tatsächlich lokal. Dieser Test entlarvt auch Anbieter, die mit „lokaler KI” werben, aber tatsächlich auf Cloud-Verarbeitung angewiesen sind.

2. Netzwerkkommunikation. Prüfen Sie, ob die Software im Hintergrund Daten überträgt. Manche Apps werben mit „lokaler KI”, senden aber dennoch Telemetriedaten, Nutzungsstatistiken oder Modell-Updates über das Netz. Laut der SkyScribe-Analyse (2026) leiten manche Transkriptions-Apps Aufnahmen über Hintergrundprozesse an Cloud-Modelle weiter, obwohl sie nur Mikrofonzugriff anfordern. Achten Sie besonders auf Apps, die beim Start eine Netzwerkverbindung aufbauen, obwohl sie für die Diktierfunktion kein Internet benötigen sollten.

3. AVV und Dokumentation. Wenn die Software Cloud-Komponenten nutzt: Bietet der Anbieter einen vollständigen AVV an? Wo sind die Server? In welchem Land ist der Anbieter ansässig? Welche Subunternehmer sind beteiligt? Ein fehlender oder unvollständiger AVV ist bereits ein DSGVO-Verstoß — unabhängig davon, ob tatsächlich Daten abfließen.

4. Datenspeicherung und -löschung. Werden Audiodaten oder Transkripte gespeichert? Wenn ja, wie lange? Gibt es klare Löschfristen? Fehlen Angaben wie „Löschung nach X Tagen”, besteht laut DSGVO keine Garantie, dass Ihre Daten nicht unbegrenzt gespeichert werden. Achten Sie auch darauf, ob der Anbieter Audiodaten zum Training seiner KI-Modelle verwendet — das ist ein separater Verarbeitungszweck, der einer eigenen Rechtsgrundlage bedarf.

5. Open-Source-Transparenz. Ist die verwendete KI-Engine quelloffen? Bei Open-Source-Modellen wie Whisper (MIT-Lizenz) können unabhängige Sicherheitsaudits durchgeführt werden. Proprietäre Cloud-Modelle sind Blackboxen — Sie müssen dem Anbieter vertrauen, ohne seine Datenverarbeitung nachprüfen zu können.

Wie sieht die Rechtslage bei Cloud-Spracherkennung in der Kanzlei aus?

Cloud-basierte Spracherkennung in Anwaltskanzleien ist nicht per se verboten, aber sie erfordert die Einhaltung sowohl datenschutzrechtlicher als auch berufsrechtlicher Vorgaben. Neben der DSGVO greift die Berufsordnung für Rechtsanwälte (BRAO): §43a Abs. 2 BRAO verpflichtet zur Verschwiegenheit über alles, was in Ausübung des Berufs bekannt geworden ist.

Die Nutzung von Cloud-Diktiersoftware in der Kanzlei erfordert mindestens:

Einen vollständigen AVV mit dem Cloud-Anbieter nach Art. 28 DSGVO
Die Prüfung, ob der Cloud-Anbieter als „sonstige mitwirkende Person” im Sinne von §203 Abs. 3 StGB qualifiziert werden kann
Eine schriftliche Verpflichtung des Anbieters zur Geheimhaltung
Bei US-Anbietern: Prüfung der Auswirkungen von FISA Section 702, CLOUD Act und EU-US Data Privacy Framework
Eine dokumentierte Datenschutz-Folgenabschätzung nach Art. 35 DSGVO
Die Information aller Betroffenen (Art. 13/14 DSGVO) — also auch der Mandanten, über deren Daten diktiert wird

In der Praxis bedeutet das einen erheblichen Verwaltungsaufwand. Wie Simon Reuvekamp, CTO bei der Kanzlei Meyer-Köring und Spezialist für Diktiersysteme, auf legal-tech.de anmerkte: Datenschutz schränkt die Vorteile von Spracherkennung nicht ein — vorausgesetzt, es steckt ein durchdachtes Konzept dahinter. Wer hingegen einfach Siri oder Google-Spracheingabe für Mandantendiktate nutzt, handelt fahrlässig. Er empfiehlt als sicherste Alternative die Nutzung lokaler Spracherkennungslösungen, die ganz ohne Netzwerkübertragung arbeiten — oder zumindest Lösungen, bei denen die Daten ausschließlich über den eigenen verschlüsselten Kanzleiserver laufen.

Die einfachste Lösung, die all diese Anforderungen umgeht: Software, bei der die Spracherkennung komplett lokal auf dem Kanzleirechner läuft. Kein Cloud-Anbieter, kein AVV, kein Drittlandtransfer — und keine offene Flanke bei der nächsten Datenschutzprüfung.

Ein Praxisbeispiel verdeutlicht den Unterschied: Eine Einzelkanzlei, die Dragon Anywhere nutzt, muss den AVV mit Nuance/Microsoft prüfen, die Drittlandproblematik bewerten (die Server stehen laut Anbieter in einem deutschen Rechenzentrum, aber Microsoft als US-Unternehmen unterliegt dem CLOUD Act), eine DSFA erstellen, alle Mandanten gemäß Art. 13 DSGVO informieren und den Cloud-Anbieter als mitwirkende Person nach §203 Abs. 3 StGB qualifizieren und zur Geheimhaltung verpflichten. Dieselbe Kanzlei mit einer lokalen Lösung wie Diktly muss nichts davon tun — die DSGVO-Konformität ergibt sich aus der Architektur.

Was kostet DSGVO-konforme Diktiersoftware im Vergleich?

Die Gesamtkosten DSGVO-konformer Diktiersoftware setzen sich aus dem Anschaffungspreis und den oft übersehenen Compliance-Kosten zusammen — letztere können den reinen Softwarepreis bei Cloud-Lösungen um ein Vielfaches übersteigen. Ein fairer Vergleich muss daher neben den Lizenzgebühren auch AVV-Prüfung, Datenschutz-Folgenabschätzung und laufende Compliance-Dokumentation berücksichtigen.

Lösung	Preis	Modell	Cloud / Lokal	AVV nötig?
Siri / Google Spracheingabe	Kostenlos	—	Cloud	Ja (kaum möglich)
Dragon Anywhere	~25 €/Monat (Abo)	Abo, 12 Mon.	Cloud (dt. Rechenzentrum)	Ja
Philips SpeechLive	~15–25 €/Monat	Abo	Cloud (EU)	Ja
Whisper (Self-Hosted)	Kostenlos (Open Source)	—	Lokal	Nein
Diktly Basic	14,99 € einmalig + MwSt	Einmalkauf	100 % lokal	Nein
Diktly Pro	49,99 € einmalig + MwSt	Einmalkauf	100 % lokal	Nein

Bei Cloud-Lösungen kommen Compliance-Kosten hinzu: Die initiale Prüfung eines AVV durch einen Datenschutzbeauftragten kostet je nach Komplexität 500–2.000 €. Eine Datenschutz-Folgenabschätzung liegt bei 1.000–5.000 €. Diese Kosten fallen pro Anbieter und bei jedem Anbieterwechsel erneut an. Für größere Kanzleien mit mehreren Berufsträgern multiplizieren sich die Lizenzkosten pro Nutzer, während die Compliance-Kosten nur einmal anfallen — bei kleinen Einheiten überwiegt dagegen der Compliance-Overhead deutlich.

Für Solopreneure und kleine Kanzleien fällt die Rechnung besonders deutlich aus: Ein Cloud-Abo summiert sich über zwei Jahre auf 600 € oder mehr — zuzüglich Compliance-Aufwand. Rechnet man die einmalige AVV-Prüfung (ab 500 €) und eine DSFA (ab 1.000 €) hinzu, liegen die Gesamtkosten für den DSGVO-konformen Betrieb einer Cloud-Diktierlösung schnell bei über 2.000 € in den ersten zwei Jahren. Eine lokale Lösung wie Diktly kostet einmalig 14,99 € und erfordert keine laufende Datenschutz-Verwaltung. Auch die vermeintlich „kostenlosen” Consumer-Tools wie Siri oder Google Spracheingabe haben einen Preis: Sie zahlen mit Ihren Daten, und für Berufsgeheimnisträger kommt im Ernstfall der Preis einer strafrechtlichen Auseinandersetzung hinzu.

Häufige Fragen zu Diktiersoftware und DSGVO

Ist Diktiersoftware DSGVO-konform?

Das hängt von der Architektur ab. Cloud-basierte Diktiersoftware überträgt Sprachdaten an externe Server und erfordert einen Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO. Lokal installierte Software wie Diktly verarbeitet alles auf dem Rechner — keine Datenübertragung, kein AVV nötig, DSGVO-konform by Design.

Warum sind Cloud-Diktierlösungen datenschutzrechtlich problematisch?

Cloud-Dienste übertragen Audiodaten an externe Server, oft außerhalb der EU. Sprachaufnahmen enthalten biometrische Merkmale und potenziell vertrauliche Inhalte. Ohne korrekte Rechtsgrundlage, AVV und Datenschutz-Folgenabschätzung verstößt die Nutzung gegen die DSGVO.

Was hat §203 StGB mit Diktiersoftware zu tun?

§203 StGB schützt Privatgeheimnisse von Berufsgeheimnisträgern wie Anwälten, Steuerberatern und Ärzten. Wer Mandanten- oder Patientendaten per Cloud-Diktiersoftware an Drittserver überträgt, riskiert eine Verletzung der Schweigepflicht — strafbar mit bis zu einem Jahr Freiheitsstrafe.

Brauche ich einen AVV für Diktiersoftware?

Nur wenn die Software Daten an externe Server überträgt. Bei Cloud-basierten Lösungen ist ein Auftragsverarbeitungsvertrag nach Art. 28 DSGVO Pflicht. Bei rein lokaler Software entfällt diese Pflicht, da keine Auftragsverarbeitung stattfindet.

Welche Diktiersoftware funktioniert komplett offline?

Diktly verarbeitet Sprache vollständig lokal auf dem Rechner und benötigt kein Internet. Auch die klassische Dragon-Desktop-Version arbeitet lokal. Die meisten modernen Alternativen wie Siri, Google Spracheingabe oder Dragon Anywhere nutzen dagegen Cloud-Server.

Sind Sprachdaten biometrische Daten nach DSGVO?

Stimmaufnahmen können biometrische Daten im Sinne von Art. 4 Nr. 14 DSGVO sein, wenn sie zur eindeutigen Identifizierung einer Person verarbeitet werden. In diesem Fall greift das strenge Verarbeitungsverbot nach Art. 9 DSGVO mit seinen eingeschränkten Ausnahmen.

Was kostet DSGVO-konforme Diktiersoftware?

Die Preisspanne ist groß. Diktly Basic kostet einmalig 14,99 € plus MwSt. Cloud-Lösungen wie Dragon Anywhere kosten oft 20–30 € monatlich im Abo. Hinzu kommen bei Cloud-Lösungen versteckte Kosten für AVV-Verwaltung, Datenschutz-Folgenabschätzung und Compliance-Dokumentation.

Fazit: Lokale Verarbeitung ist der sicherste Weg zur DSGVO-Konformität

Die Frage ist nicht, ob Cloud-Diktiersoftware DSGVO-konform betrieben werden kann. Mit genug Aufwand — AVV, DSFA, Drittlandprüfung, §203-Absicherung — ist das theoretisch möglich. Die Frage ist, ob sich dieser Aufwand lohnt, wenn es eine einfachere Lösung gibt.

Lokale Spracherkennung eliminiert das Problem an der Wurzel. Wenn keine Daten den Rechner verlassen, gibt es keinen Auftragsverarbeiter, keinen Drittlandtransfer und keine Schweigepflichtverletzung. Die Compliance ist nicht aufwändig — sie ist architektonisch gegeben. Dank Open-Source-Modellen wie Whisper ist die Erkennungsqualität lokaler Lösungen heute auf dem Niveau kommerzieller Cloud-Dienste angekommen — der häufig genannte Qualitätsvorteil der Cloud ist kein Argument mehr.

Wenn Sie als Anwalt, Steuerberater oder Arzt Diktiersoftware einsetzen, prüfen Sie heute: Wo landen Ihre Sprachdaten? Wenn die Antwort „in der Cloud” lautet, ist es Zeit für einen Wechsel. Diktly verarbeitet alles lokal, kostet einmalig ab 14,99 € und erfordert keinen einzigen Compliance-Prozess. Denn der beste Datenschutz ist der, bei dem es nichts zu schützen gibt — weil die Daten Ihren Rechner nie verlassen.