Dlaczego rozwiązania dyktowania w chmurze są problematyczne pod względem ochrony danych?

Usługi w chmurze przesyłają dane audio na zewnętrzne serwery, często poza UE. Nagrania głosowe zawierają cechy biometryczne i potencjalnie poufne treści. Bez odpowiedniej podstawy prawnej, umowy powierzenia i oceny skutków dla ochrony danych wykorzystanie narusza RODO.

Co ma paragraf 203 kodeksu karnego wspólnego z oprogramowaniem do dyktowania?

§203 KK chroni tajemnice zawodowe profesjonalistów takich jak prawnicy, doradcy podatkowi i lekarze. Kto przekazuje dane klientów lub pacjentów przez oprogramowanie do dyktowania w chmurze na serwery trzecie, ryzykuje naruszenie obowiązku zachowania tajemnicy zawodowej — zagrożone karą pozbawienia wolności do jednego roku.

Czy potrzebuję umowy o przetwarzanie danych dla oprogramowania do dyktowania?

Tylko wtedy, gdy oprogramowanie przesyła dane na zewnętrzne serwery. W przypadku rozwiązań opartych na chmurze umowa powierzenia przetwarzania danych zgodnie z art. 28 RODO jest obowiązkowa. W przypadku czysto lokalnego oprogramowania obowiązek ten nie występuje, ponieważ nie ma miejsca powierzenie przetwarzania danych.

Oprogramowanie do dyktowania a RODO: Dlaczego rozpoznawanie mowy w chmurze stanowi ryzyko prawne

Q: Czy oprogramowanie do dyktowania jest zgodne z RODO?

To zależy od architektury. Oprogramowanie do dyktowania w chmurze przesyła dane głosowe na zewnętrzne serwery i wymaga umowy powierzenia przetwarzania danych zgodnie z art. 28 RODO. Lokalnie zainstalowane oprogramowanie jak Diktly przetwarza wszystko na komputerze — bez przesyłania danych, bez konieczności umowy powierzenia, zgodne z RODO z założenia.

Q: Które oprogramowanie do dyktowania działa całkowicie offline?

Diktly przetwarza mowę w pełni lokalnie na komputerze i nie wymaga internetu. Również klasyczna wersja desktopowa Dragon działa lokalnie. Większość nowoczesnych alternatyw, takich jak Siri, wprowadzanie głosowe Google czy Dragon Anywhere, korzysta natomiast z serwerów w chmurze.

Q: Czy dane głosowe to dane biometryczne zgodnie z RODO?

Nagrania głosu mogą stanowić dane biometryczne w rozumieniu art. 4 pkt 14 RODO, jeśli są przetwarzane w celu jednoznacznej identyfikacji osoby. W takim przypadku stosuje się surowy zakaz przetwarzania zgodnie z art. 9 RODO z jego ograniczonymi wyjątkami.

Q: Ile kosztuje oprogramowanie do dyktowania zgodne z RODO?

Zakres cenowy jest szeroki. Diktly Basic kosztuje jednorazowo 14,99 € plus VAT. Rozwiązania chmurowe jak Dragon Anywhere często kosztują 20–30 € miesięcznie w abonamencie. Do rozwiązań chmurowych dochodzą dodatkowo ukryte koszty zarządzania umowami przetwarzania danych, oceny skutków dla ochrony danych i dokumentacji zgodności.

W skrócie: Oprogramowanie do dyktowania oparte na chmurze przesyła dane głosowe na zewnętrzne serwery — problem dla RODO, a tym bardziej dla osób związanych tajemnicą zawodową zgodnie z §203 StGB. Nagrania głosowe mogą zawierać dane biometryczne i podlegają w związku z tym rygorystycznemu art. 9 RODO. Lokalne rozwiązania offline całkowicie omijają te zagrożenia, ponieważ nie dochodzi do przesyłania danych.

Dyktuje Pan pismo procesowe dla klienta. Poufne szczegóły, sygnatury akt, nazwiska — wszystko płynie głosem do komputera. Ale dokładnie dokąd? W przypadku większości rozwiązań do dyktowania odpowiedź brzmi: na serwer w chmurze. Często w USA, czasami w Irlandii, rzadko w Niemczech. Dla grup zawodowych objętych obowiązkiem zachowania tajemnicy — prawników, doradców podatkowych, lekarzy — to nie tylko kwestia ochrony danych. To potencjalnie przestępstwo. Ten artykuł wyjaśnia, dlaczego oprogramowanie do dyktowania i RODO tworzą pole napięć, jakie konkretne zagrożenia niosą ze sobą rozwiązania chmurowe i jakie są alternatywy.

Co dzieje się z Pana danymi głosowymi w chmurze?

Oprogramowanie do dyktowania oparte na chmurze przesyła dane audio na zewnętrzny serwer, gdzie model AI przekształca mowę w tekst i odsyła wynik. Przy tym dane głosowe przechodzą przez kilka węzłów sieciowych, są przetwarzane na serwerze dostawcy i często tymczasowo przechowywane — proces, który ma daleko idące konsekwencje dla ochrony danych.

Problem zaczyna się już przy samym przesyłaniu. Zgodnie z badaniem SkyScribe (2026) niektóre aplikacje do transkrypcji wgrywają dane audio na zewnętrzne serwery nawet przed uzyskaniem zgody użytkownika — przez SDK, które przesyłają dane już przy uruchomieniu aplikacji. Ten mechanizm jest niewidoczny dla użytkownika: aplikacja tylko żąda dostępu do mikrofonu, podczas gdy w tle dane audio są przekierowywane do modeli chmurowych.

Wielcy dostawcy chmurowi jak Google, Apple i Microsoft standardowo przetwarzają dane głosowe na swoich serwerach. Apple Siri i rozpoznawanie mowy Google w ogóle nie działają przy wyłączonym WLAN — wyraźny znak, że przetwarzanie nie odbywa się lokalnie. Do użytku prywatnego może to być akceptowalne. Dla użytkowników profesjonalnych z obowiązkami zachowania poufności to problem compliance.

Dodatkowo pojawia się kwestia przechowywania danych. Wielu dostawców chmurowych zastrzega sobie w swoich warunkach użytkowania prawo do wykorzystywania danych audio do ulepszania swoich modeli. Nawet jeśli obiecywane jest natychmiastowe usunięcie, często brakuje przejrzystych dowodów na to, że dane są rzeczywiście całkowicie usuwane. Bez jasnych terminów usunięcia i weryfikowalnych procesów pozostaje ryzyko, że Pana poufne dyktanda pozostaną na obcych serwerach.

Często niedoceniony punkt: również metadane są godne ochrony. Nawet jeśli strumień audio jest przesyłany szyfrowany, znaczniki czasu, adresy IP, informacje o urządzeniu i wzorce użytkowania mogą pozwolić na wyciągnięcie wniosków o Pana pracy. W kancelarii te metadane ujawniają na przykład, kiedy pracowano nad którą sprawą — informacja, która może być cenna dla przeciwników lub konkurentów.

Przepływ danych w oprogramowaniu do dyktowania opartym na chmurze w porównaniu z przetwarzaniem lokalnym

Jakie wymagania RODO dotyczą oprogramowania do dyktowania?

Oprogramowanie do dyktowania, które przetwarza dane głosowe, podlega w pełni RODO, ponieważ dane audio są danymi osobowymi. Zawierają głos osoby możliwej do zidentyfikowania i często również treściowo wrażliwe informacje o osobach trzecich. Czy wymagana jest umowa powierzenia przetwarzania danych, zależy od tego, czy przetwarzanie odbywa się lokalnie czy na zewnętrznych serwerach.

Główne wymagania RODO można podzielić na cztery obszary:

Podstawa prawna według art. 6 RODO. Każde przetwarzanie wymaga podstawy prawnej. W przypadku chmurowego oprogramowania do dyktowania zazwyczaj w grę wchodzi art. 6 ust. 1 lit. f (uzasadniony interes) lub lit. a (zgoda). Oba są problematyczne w kontekście profesjonalnym: uzasadniony interes musi być wyważony z prawami osób, których dane dotyczą, a skuteczna zgoda wszystkich osób wymienionych w dyktandzie jest praktycznie niemożliwa do uzyskania.

Powierzenie przetwarzania według art. 28 RODO. Gdy tylko dostawca chmury przetwarza dane głosowe na swoich serwerach, mamy do czynienia z powierzeniem przetwarzania. Umowa powierzenia przetwarzania danych (UPPD) jest obowiązkowa. Musi regulować przedmiot, czas trwania, rodzaj i cel przetwarzania, rodzaj danych osobowych oraz obowiązki podmiotu przetwarzającego. Przy braku UPPD już samo korzystanie z oprogramowania narusza RODO — niezależnie od tego, czy rzeczywiście dojdzie do naruszenia ochrony danych.

Transfer do krajów trzecich. Wiele chmurowych usług dyktowania przetwarza dane w USA lub innych krajach trzecich. Od wyroku ETS w sprawie Schrems II (2020) przekazywanie danych osobowych do USA jest związane z surowymi warunkami. Obecne EU-US Data Privacy Framework oferuje co prawda podstawę, ale już ponownie jest pod krytyką prawniczą. Zgodnie z badaniem DLA Piper (2025) tylko w 2024 roku w Europie nałożono kary RODO o wartości 1,2 miliarda euro — transfery do krajów trzecich należały do najczęstszych naruszeń.

Ocena skutków dla ochrony danych (OSOD). Gdy przetwarzanie prawdopodobnie wiąże się z wysokim ryzykiem dla praw osób fizycznych — na przykład przy danych biometrycznych lub systematycznym monitoringu — zgodnie z art. 35 RODO należy przeprowadzić OSOD. Dane głosowe mogą spełniać to kryterium, szczególnie gdy są przetwarzane na dużą skalę lub systematycznie.

Decydujący punkt: wszystkie te wymagania dotyczą tylko wtedy, gdy w ogóle dochodzi do przesyłania danych do osób trzecich. W przypadku czysto lokalnego oprogramowania do dyktowania, które nie wysyła danych na zewnętrzne serwery, cały nakład compliance odpada. Nie ma powierzenia przetwarzania, transferu do krajów trzecich, a tym samym również obowiązku OSOD — zgodność z RODO wynika z samej architektury technicznej.

Wymaganie	Chmurowe oprogramowanie do dyktowania	Lokalne oprogramowanie do dyktowania
Podstawa prawna (art. 6)	Wymagana, złożona	Nie dotyczy (brak danych do osób trzecich)
UPPD (art. 28)	Obowiązkowa	Niepotrzebna
Transfer do krajów trzecich	Często (serwery USA)	Wykluczone
OSOD (art. 35)	Często wymagana	Zazwyczaj niepotrzebna
Środki techniczne	Zależne od dostawcy	Pełna kontrola

Dlaczego dane głosowe są szczególnie wrażliwe?

Nagrania głosowe mogą zawierać dane biometryczne w rozumieniu RODO, ponieważ rejestrują fizyczne i behawioralne cechy osoby — częstotliwość głosu, rytm mowy, wzorce artykulacji. Art. 4 pkt 14 RODO definiuje dane biometryczne jako dane osobowe uzyskiwane za pomocą specjalnych procedur technicznych, które mogą jednoznacznie identyfikować osobę.

Gdy dane głosowe są wykorzystywane do jednoznacznej identyfikacji, zastosowanie ma surowy zakaz przetwarzania z art. 9 ust. 1 RODO. Zakaz ten przewiduje tylko dziesięć wąsko zdefiniowanych wyjątków — na przykład wyraźną zgodę. Dla usług dyktowania w chmurze oznacza to: nawet jeśli istnieje umowa powierzenia przetwarzania i dane są przetwarzane w UE, przetwarzanie może naruszać art. 9, jeśli dostawca wykorzystuje lub mógłby wykorzystywać dane audio do biometrii głosu.

Według stanowiska Konferencji Ochrony Danych (DSK, 2019) przydatność danych biometrycznych do jednoznacznej identyfikacji zawsze należy uwzględnić w ocenie ryzyka — nawet jeśli obecne przetwarzanie nie ma na celu identyfikacji. Sama możliwość wystarcza, aby uzasadnić wzmoczone środki ochrony. Dotyczy to również przypadków, w których dostawca usług w chmurze technicznie byłby w stanie tworzyć profile głosowe — nawet jeśli obecnie tego nie robi.

Kolejny aspekt: dane głosowe regularnie zawierają również informacje merytoryczne o osobach trzecich. Gdy prawnik tworzy dyktando dotyczące sprawy klienta, zawiera ono dane osobowe klienta, strony przeciwnej i możliwie świadków. Osoby te ani nie wyraziły zgody na przetwarzanie, ani nie mogą go kontrolować. W kontekście doradztwa podatkowego sytuacja jest podobna: dyktanda o sprawach podatkowych zawierają dane o dochodach, stosunkach rodzinnych i informacje majątkowe klientów — wszystko to wysoce wrażliwe dane, które trafiają na serwer u dostawcy usług w chmurze, nad którym nie ma kontroli ani doradca podatkowy, ani klient.

Według TU Darmstadt i Hochschule Rosenheim systemy rozpoznawania mowy oparte na chmurze stwarzają znaczne ryzyko, ponieważ przesyłane nagrania zawierają zarówno informacje biometryczne, jak i poufne — i mogą być nadużywane, na przykład do tworzenia tzw. „fałszywych nagrań” (autentycznie brzmiących, sztucznie wygenerowanych nagrań głosowych). Ryzyko to jest całkowicie wyeliminowane przy przetwarzaniu lokalnym, ponieważ dane audio nigdy nie opuszczają komputera.

Co oznacza §203 StGB dla stosowania oprogramowania do dyktowania?

§203 StGB zabrania posiadaczom tajemnicy zawodowej — w tym prawnikom, doradcom podatkowym, biegłym rewidentom i lekarzom — nieuprawnionych ujawnień tajemnic prywatnych i przewiduje za naruszenia karę pozbawienia wolności do jednego roku lub grzywnę. Kto przesyła dane klientów lub pacjentów za pomocą oprogramowania do dyktowania w chmurze na serwery zewnętrzne, ryzykuje naruszenie tajemnicy zawodowej istotne z punktu widzenia prawa karnego.

Skutki prawne wykraczają poza grzywnę. W przypadku działania w celu osiągnięcia korzyści grozi do dwóch lat pozbawienia wolności (§203 ust. 6 StGB). Dodatkowo następują konsekwencje zawodowe: postępowania przed sądami adwokackimi, cofnięcie zezwolenia, roszczenia odszkodowawcze poszkodowanych klientów. Wikipedia określa naruszenia §203 StGB jako „przestępstwo masowe trudne do przebicia” pod względem częstotliwości — jednak poważne ściganie rzadko ma miejsce. Nie powinno to być jednak rozumiane jako sygnał odwołania: w przypadku sytuacji krytycznej — na przykład przy wycieku danych u dostawcy usług w chmurze — kwestia obowiązku należytej staranności staje się punktem decydującym.

Od reformy z 2017 roku §203 ust. 3 StGB zezwala wprawdzie na angażowanie zewnętrznych usługodawców jako „innych osób współdziałających”. Warunkiem jest jednak, że posiadacz tajemnicy zawodowej starannie wybierze usługodawcę i zobowiąże go do zachowania tajemnicy. Te osoby współdziałające same podlegają odpowiedzialności karnej według §203 — same dopuszczają się przestępstwa, jeśli ujawnią tajemnicę, o której dowiedziały się przy okazji swojej działalności. W przypadku dostawców usług w chmurze z siedzibą w USA wątpliwe jest, czy warunek ten może zostać spełniony — szczególnie w świetle tamtejszych ustaw inwigilacyjnych, takich jak FISA Section 702 i CLOUD Act, które umożliwiają amerykańskim organom dostęp do danych, nawet jeśli są przechowywane w UE.

Radca prawny specjalizujący się w prawie IT Andreas Nörr ujął to w wywiadzie dla Future-Law (2026) następująco: wielu prawników doradza swoim klientom w sprawach ochrony danych, ale sami używają niebezpiecznych narzędzi konsumenckich do poufnych dyktand. Używanie Siri lub wprowadzania głosowego Google do dyktand klientów to rażąca sprzeczność z obowiązkami zawodowymi. Widzi rozwiązanie w profesjonalnych narzędziach, które przetwarzają dane lokalnie lub w certyfikowanych europejskich centrach danych — produkty konsumenckie nie mają miejsca w środowisku kancelarii.

Przegląd: Które grupy zawodowe podlegają §203 StGB

Jakie konkretne ryzyka wiążą się z chmurowym oprogramowaniem do dyktowania?

Oprogramowanie do dyktowania oparte na chmurze niesie ze sobą znaczące ryzyka techniczne, prawne, ekonomiczne i reputacyjne, które mogą się wzajemnie wzmacniać. Pojedynczy incydent naruszenia ochrony danych u dostawcy chmury może jednocześnie wywołać grzywnę RODO, dochodzenie karne według §203 StGB, cywilnoprawne roszczenia odszkodowawcze oraz trwałą szkodę reputacyjną wśród klientów i pacjentów.

Ryzyka techniczne. Dane audio są przesyłane do serwera przez internet. Mimo szyfrowania HTTPS istnieje resztkowe ryzyko przy skompromitowanych certyfikatach lub atakach typu man-in-the-middle. Na samym serwerze dane są deszyfrowane i przetwarzane — kto ma dostęp do serwera, ma dostęp do Państwa dyktand. Według Cloud Monitor firmy KPMG i Bitkom Research zagrożenia z chmury dla średnich przedsiębiorstw stale rosną, szczególnie poprzez kradzież danych i szpiegostwo przemysłowe. Szczególnie podstępne: niektóre aplikacje przesyłają audio już przez SDK, zanim użytkownik w ogóle aktywnie zacznie dyktować.

Ryzyka prawne. Oprócz grzywien RODO (do 20 milionów euro lub 4% rocznego obrotu światowego według art. 83 RODO) i karalności według §203 StGB grożą także cywilnoprawne roszczenia odszkodowawcze. Art. 82 RODO przyznaje osobom, których dane dotyczą, prawo do odszkodowania za naruszenia RODO — również za szkody niemajątkowe. W 2025 roku sama BfDI nałożyła grzywnę 45 milionów euro na Vodafone z powodu wadliwego przetwarzania w ramach zlecenia (Portal RODO, 2026). W tym samym roku CNIL ukarała Google kwotą 325 milionów euro, a Shein 150 milionami euro.

Ryzyka ekonomiczne. Chmurowe oprogramowanie do dyktowania generuje bieżące koszty: subskrypcje, zarządzanie umowami powierzenia przetwarzania, regularne audyty zgodności, tworzenie DPIA. Dragon Anywhere w modelu subskrypcyjnym kosztuje miesięcznie między 20 a 30 euro na użytkownika przy minimalnym okresie zobowiązania 12 miesięcy. Dodatkowo powstają koszty prawnej weryfikacji zgodności z ochroną danych, które powstają na nowo przy każdej zmianie dostawcy.

Ryzyka reputacyjne. Incydent naruszenia ochrony danych u dostawcy chmury może jednocześnie dotyczyć wszystkich użytkowników. Dla kancelarii i praktyk taki incydent może być zagrożeniem egzystencjalnym. Średnia liczba zgłoszonych naruszeń ochrony danych wzrosła według DLA Piper (2025) do 363 zgłoszeń dziennie w Europie. W 2025 roku niemieckim władzom zgłoszono łącznie 10.259 przypadków naruszenia danych — wzrost w porównaniu z poprzednim rokiem z 8.623 zgłoszeniami (Portal RODO, 2026).

Kategoria ryzyka	Rozwiązanie chmurowe	Rozwiązanie lokalne
Wyciek danych podczas transmisji	Możliwy	Wykluczony
Dostęp stron trzecich po stronie serwera	Możliwy (także władze USA)	Wykluczony
Grzywna RODO	Do 20 mln € / 4% obrotu	Ryzyko minimalne
Karalność §203 StGB	Tak, dla osób związanych tajemnicą zawodową	Nie
Bieżące koszty compliance	Umowy powierzenia, DPIA, audyty	Brak

Jak działa lokalne rozpoznawanie mowy jako alternatywa?

Lokalne rozpoznawanie mowy przetwarza dane audio całkowicie na własnym komputerze użytkownika, bez połączenia internetowego i bez transmisji na zewnętrzne serwery. Model AI działa bezpośrednio na lokalnym sprzęcie, dzięki czemu żadna strona trzecia nie jest włączana w łańcuch przetwarzania, nie jest potrzebna umowa powierzenia przetwarzania, a zgodność z RODO jest dana architektonicznie.

Przełom technologiczny, który to umożliwia, nazywa się OpenAI Whisper. Ten model open-source został wytrenowany na 680.000 godzinach wielojęzycznych danych audio i osiąga dla języka niemieckiego Word Error Rate (WER) około 5,8% — porównywalną z komercyjnymi usługami chmurowymi. Decydujące jest to, że Whisper działa całkowicie na lokalnym sprzęcie. Nowoczesne procesory przetwarzają dyktanda w czasie zbliżonym do rzeczywistego, z obsługą GPU (Apple Metal na Mac, NVIDIA CUDA na Windows) nawet znacznie szybciej.

Dzięki kwantyzacji modelu — przekształceniu 32-bitowych wag zmiennoprzecinkowych w mniejsze formaty — model zmniejsza się do możliwego do obsługi rozmiaru, nie wpływając istotnie na dokładność. Według MLCommons (2025) referencyjna implementacja Whisper osiąga Word Accuracy 97,93% i zmniejszyła liczbę błędów w porównaniu z poprzednim modelem MLPerf-ASR o ponad 72%. Licencja MIT pozwala przy tym na nieograniczone użycie komercyjne — decydującą przewagę nad zastrzeżonymi usługami chmurowymi, w których jesteście związani z jednym dostawcą.

Dla zgodności z RODO wynik jest jednoznaczny: jeśli dane głosowe nie opuszczają komputera, nie ma przetwarzania w ramach zlecenia, transferu do państw trzecich ani dostawcy chmury, któremu musielibyście zaufać. Cała złożoność compliance odpada. Także dla §203 StGB sytuacja jest jasna: dane, które nigdy nie opuszczają komputera, nie mogą być „ujawnione”.

Diktly wykorzystuje dokładnie to podejście. Oprogramowanie przetwarza mowę całkowicie lokalnie za pomocą modelu Whisper. Bez internetu, bez chmury, bez połączenia z serwerem — nawet do sprawdzania aktualizacji. Dla osób związanych tajemnicą zawodową według §203 StGB to najbezpieczniejsza droga: dane pozostają na komputerze, obowiązek zachowania poufności jest gwarantowany technicznie.

Praktyczna korzyść, która często jest pomijana: lokalne rozpoznawanie mowy działa także tam, gdzie nie ma internetu — w sądzie, na spotkaniu z klientem, w pociągu czy za granicą. Podczas gdy rozwiązania chmurowe zawodzą przy słabym połączeniu lub borykają się z wysokim opóźnieniem, oprogramowanie lokalne działa niezawodnie i bez zwłoki. Dla doradców podatkowych w szczycie sezonu zeznań podatkowych i prawników z napiętymi terminami to nie jest kwestia komfortu, ale czynnik produktywności.

Jakie wymagania powinna spełniać zgodne z RODO oprogramowanie do dyktowania?

Zgodne z RODO oprogramowanie do dyktowania musi zapewnić, że dane głosowe nie są przekazywane stronom trzecim bez podstawy prawnej, a użytkownik zachowuje pełną kontrolę nad swoimi danymi audio. Termin „zgodny z RODO” nie jest chroniony — dlatego sprawdź konkretnie, jak oprogramowanie obchodzi się z Twoimi danymi.

Następujące kryteria pomagają w ocenie:

1. Przetwarzanie danych. Gdzie odbywa się rozpoznawanie mowy — na Twoim urządzeniu czy na zewnętrznym serwerze? Przetestuj to, odłączając połączenie internetowe i rozpoczynając dyktowanie. Jeśli oprogramowanie działa offline, przetwarzanie jest rzeczywiście lokalne. Ten test demaskuje również dostawców, którzy reklamują się „lokalną AI”, ale faktycznie polegają na przetwarzaniu w chmurze.

2. Komunikacja sieciowa. Sprawdź, czy oprogramowanie przesyła dane w tle. Niektóre aplikacje reklamują się „lokalną AI”, ale mimo to wysyłają dane telemetryczne, statystyki użytkowania lub aktualizacje modeli przez sieć. Według analizy SkyScribe (2026) niektóre aplikacje do transkrypcji przekazują nagrania przez procesy w tle do modeli chmurowych, mimo że żądają tylko dostępu do mikrofonu. Zwróć szczególną uwagę na aplikacje, które przy uruchomieniu nawiązują połączenie sieciowe, chociaż do funkcji dyktowania nie powinny potrzebować internetu.

3. UPP i dokumentacja. Jeśli oprogramowanie korzysta z komponentów chmurowych: Czy dostawca oferuje kompletną UPP? Gdzie znajdują się serwery? W jakim kraju ma siedzibę dostawca? Którzy podwykonawcy są zaangażowani? Brakująca lub niekompletna UPP to już naruszenie RODO — niezależnie od tego, czy dane faktycznie wypływają.

4. Przechowywanie i usuwanie danych. Czy dane audio lub transkrypcje są przechowywane? Jeśli tak, przez jak długo? Czy istnieją jasne terminy usunięcia? Brak informacji typu „usunięcie po X dniach” oznacza według RODO brak gwarancji, że Twoje dane nie będą przechowywane w nieskończoność. Zwróć również uwagę, czy dostawca wykorzystuje dane audio do trenowania swoich modeli AI — to oddzielny cel przetwarzania, który wymaga własnej podstawy prawnej.

5. Transparentność Open-Source. Czy używany silnik AI ma otwarty kod źródłowy? W przypadku modeli open-source jak Whisper (licencja MIT) można przeprowadzić niezależne audyty bezpieczeństwa. Własnościowe modele chmurowe to czarne skrzynki — musisz zaufać dostawcy, nie mogąc sprawdzić jego przetwarzania danych.

Jaki jest stan prawny rozpoznawania mowy w chmurze w kancelarii?

Rozpoznawanie mowy w chmurze w kancelariach prawnych nie jest per se zabronione, ale wymaga przestrzegania zarówno przepisów o ochronie danych, jak i regulacji zawodowych. Oprócz RODO obowiązują przepisy o adwokaturze (BRAO): §43a ust. 2 BRAO zobowiązuje do zachowania tajemnicy o wszystkim, co stało się znane w wykonywaniu zawodu.

Korzystanie z oprogramowania do dyktowania w chmurze w kancelarii wymaga co najmniej:

Kompletnej UPP z dostawcą chmury zgodnie z art. 28 RODO
Sprawdzenia, czy dostawca chmury może być kwalifikowany jako „inna osoba współdziałająca” w rozumieniu §203 ust. 3 StGB
Pisemnego zobowiązania dostawcy do zachowania tajemnicy
W przypadku dostawców z USA: sprawdzenia wpływu FISA Section 702, CLOUD Act i EU-US Data Privacy Framework
Udokumentowanej oceny wpływu na ochronę danych zgodnie z art. 35 RODO
Informowania wszystkich osób, których dane dotyczą (art. 13/14 RODO) — także klientów, których dane są dyktowane

W praktyce oznacza to znaczny nakład administracyjny. Jak zauważył Simon Reuvekamp, CTO w kancelarii Meyer-Köring i specjalista od systemów dyktowania na legal-tech.de: ochrona danych nie ogranicza zalet rozpoznawania mowy — pod warunkiem, że stoi za tym przemyślana koncepcja. Kto natomiast po prostu używa Siri lub rozpoznawania głosu Google do dyktowania klientów, postępuje niedbale. Zaleca jako najbezpieczniejszą alternatywę korzystanie z lokalnych rozwiązań rozpoznawania mowy, które działają całkowicie bez transmisji sieciowej — lub przynajmniej rozwiązań, w których dane przechodzą wyłącznie przez własny zaszyfrowany serwer kancelarii.

Najprostsze rozwiązanie, które omija wszystkie te wymagania: oprogramowanie, w którym rozpoznawanie mowy działa całkowicie lokalnie na komputerze kancelarii. Żaden dostawca chmury, żadna UPP, żaden transfer do krajów trzecich — i żadna otwarta flanka przy następnej kontroli ochrony danych.

Praktyczny przykład ilustruje różnicę: Jednoosobowa kancelaria korzystająca z Dragon Anywhere musi sprawdzić UPP z Nuance/Microsoft, ocenić problematykę krajów trzecich (serwery znajdują się według dostawcy w niemieckim centrum danych, ale Microsoft jako firma amerykańska podlega CLOUD Act), stworzyć DSFA, poinformować wszystkich klientów zgodnie z art. 13 RODO oraz zakwalifikować dostawcę chmury jako osobę współdziałającą według §203 ust. 3 StGB i zobowiązać do zachowania tajemnicy. Ta sama kancelaria z rozwiązaniem lokalnym jak Diktly nie musi robić nic z tego — zgodność z RODO wynika z architektury.

Ile kosztuje oprogramowanie do dyktowania zgodne z RODO w porównaniu?

Całkowite koszty oprogramowania do dyktowania zgodnego z RODO składają się z ceny zakupu i często pomijanych kosztów zgodności — te ostatnie mogą wielokrotnie przewyższać czystą cenę oprogramowania w przypadku rozwiązań chmurowych. Uczciwe porównanie musi zatem uwzględniać oprócz opłat licencyjnych także weryfikację umowy powierzenia przetwarzania, ocenę skutków dla ochrony danych i bieżącą dokumentację zgodności.

Rozwiązanie	Cena	Model	Chmura / Lokalnie	Umowa powierzenia potrzebna?
Siri / Google Rozpoznawanie mowy	Bezpłatnie	—	Chmura	Tak (prawie niemożliwe)
Dragon Anywhere	~25 €/miesiąc (abonament)	Abonament, 12 mies.	Chmura (centrum danych w Niemczech)	Tak
Philips SpeechLive	~15–25 €/miesiąc	Abonament	Chmura (UE)	Tak
Whisper (Self-Hosted)	Bezpłatnie (Open Source)	—	Lokalnie	Nie
Diktly Basic	14,99 € jednorazowo + VAT	Zakup jednorazowy	100% lokalnie	Nie
Diktly Pro	49,99 € jednorazowo + VAT	Zakup jednorazowy	100% lokalnie	Nie

W przypadku rozwiązań chmurowych dochodzą koszty zgodności: początkowa weryfikacja umowy powierzenia przetwarzania przez inspektora ochrony danych kosztuje w zależności od złożoności 500–2.000 €. Ocena skutków dla ochrony danych wynosi 1.000–5.000 €. Te koszty przypadają na każdego dostawcę i powtarzają się przy każdej zmianie dostawcy. Dla większych kancelarii z wieloma członkami zawodu koszty licencji mnożą się przez liczbę użytkowników, podczas gdy koszty zgodności ponosi się tylko raz — w małych jednostkach zdecydowanie dominuje natomiast obciążenie związane ze zgodnością.

Dla solopreneurów i małych kancelarii rozliczenie wypada szczególnie wyraźnie: abonament chmurowy sumuje się w ciągu dwóch lat do 600 € lub więcej — plus nakład na zgodność. Jeśli doliczymy jednorazową weryfikację umowy powierzenia (od 500 €) i ocenę skutków dla ochrony danych (od 1.000 €), całkowite koszty zgodnej z RODO eksploatacji chmurowego rozwiązania do dyktowania szybko sięgają ponad 2.000 € w pierwszych dwóch latach. Rozwiązanie lokalne jak Diktly kosztuje jednorazowo 14,99 € i nie wymaga bieżącego zarządzania ochroną danych. Także pozornie „bezpłatne” narzędzia konsumenckie jak Siri czy Google Rozpoznawanie mowy mają swoją cenę: płacisz swoimi danymi, a dla osób objętych tajemnicą zawodową w przypadku krytycznym dochodzi jeszcze cena postępowania karnego.

Często zadawane pytania o oprogramowanie do dyktowania i RODO

Czy oprogramowanie do dyktowania jest zgodne z RODO?

To zależy od architektury. Oprogramowanie do dyktowania oparte na chmurze przesyła dane głosowe na zewnętrzne serwery i wymaga umowy powierzenia przetwarzania (UPP) zgodnie z art. 28 RODO. Oprogramowanie zainstalowane lokalnie jak Diktly przetwarza wszystko na komputerze — brak transferu danych, brak potrzeby UPP, zgodne z RODO z założenia.

Dlaczego chmurowe rozwiązania do dyktowania są problematyczne z punktu widzenia ochrony danych?

Usługi chmurowe przesyłają dane audio na zewnętrzne serwery, często poza UE. Nagrania głosowe zawierają cechy biometryczne i potencjalnie poufne treści. Bez prawidłowej podstawy prawnej, UPP i oceny skutków dla ochrony danych korzystanie z nich narusza RODO.

Co ma §203 StGB wspólnego z oprogramowaniem do dyktowania?

§203 StGB chroni tajemnice prywatne osób objętych tajemnicą zawodową jak prawnicy, doradcy podatkowi i lekarze. Kto przesyła dane mandantów lub pacjentów przez chmurowe oprogramowanie do dyktowania na serwery zewnętrzne, ryzykuje naruszenie obowiązku zachowania tajemnicy — zagrożone karą pozbawienia wolności do jednego roku.

Czy potrzebuję UPP dla oprogramowania do dyktowania?

Tylko jeśli oprogramowanie przesyła dane na zewnętrzne serwery. W przypadku rozwiązań opartych na chmurze umowa powierzenia przetwarzania zgodnie z art. 28 RODO jest obowiązkowa. W przypadku czysto lokalnego oprogramowania ten obowiązek odpada, ponieważ nie następuje powierzenie przetwarzania.

Które oprogramowanie do dyktowania działa całkowicie offline?

Diktly przetwarza mowę całkowicie lokalnie na komputerze i nie wymaga internetu. Także klasyczna wersja Dragon na pulpit działa lokalnie. Większość nowoczesnych alternatyw jak Siri, Google Rozpoznawanie mowy czy Dragon Anywhere wykorzystuje natomiast serwery chmurowe.

Czy dane głosowe to dane biometryczne według RODO?

Nagrania głosowe mogą być danymi biometrycznymi w rozumieniu art. 4 pkt 14 RODO, jeśli są przetwarzane w celu jednoznacznej identyfikacji osoby. W takim przypadku stosuje się surowy zakaz przetwarzania z art. 9 RODO z ograniczonymi wyjątkami.

Ile kosztuje oprogramowanie do dyktowania zgodne z RODO?

Rozpiętość cenowa jest duża. Diktly Basic kosztuje jednorazowo 14,99 € plus VAT. Rozwiązania chmurowe jak Dragon Anywhere kosztują często 20–30 € miesięcznie w abonamencie. W przypadku rozwiązań chmurowych dochodzą ukryte koszty zarządzania UPP, oceny skutków dla ochrony danych i dokumentacji zgodności.

Podsumowanie: przetwarzanie lokalne to najbezpieczniejsza droga do zgodności z RODO

Pytanie nie brzmi, czy chmurowe oprogramowanie do dyktowania może być eksploatowane zgodnie z RODO. Z wystarczającym nakładem — UPP, ocena skutków, weryfikacja transferu do państwa trzeciego, zabezpieczenie §203 — jest to teoretycznie możliwe. Pytanie brzmi, czy ten nakład się opłaca, gdy istnieje prostsze rozwiązanie.

Lokalne rozpoznawanie mowy eliminuje problem u źródła. Jeśli dane nie opuszczają komputera, nie ma podmiotu przetwarzającego w imieniu, nie ma transferu do państwa trzeciego i nie ma naruszenia tajemnicy zawodowej. Zgodność nie jest czasochłonna — jest architektonicznie dana. Dzięki modelom open-source jak Whisper jakość rozpoznawania rozwiązań lokalnych jest dziś na poziomie komercyjnych usług chmurowych — często przytaczana przewaga jakościowa chmury nie jest już argumentem.

Jeśli jako prawnik, doradca podatkowy czy lekarz korzystasz z oprogramowania do dyktowania, sprawdź dziś: gdzie trafiają twoje dane głosowe? Jeśli odpowiedź brzmi „do chmury”, to czas na zmianę. Diktly przetwarza wszystko lokalnie, kosztuje jednorazowo od 14,99 € i nie wymaga ani jednego procesu zgodności. Bo najlepsza ochrona danych to taka, przy której nie ma czego chronić — ponieważ dane nigdy nie opuszczają twojego komputera.