OFFLINETRANSCRIBE
DOKUMENTATION
VERSION
2022.12.26.0834
OFFLINETRANSCRIBE.DE
COPYRIGHT ©2022 TADELSUCHT UG (HAFTUNGSBESCHRÄNKT)
1 Einleitung 3
1.1 Unterstütze Aufnahmen-/Audio-Dateiformate . . . . . . . . . . . . . 3
1.2 Auswahl an Transkriptions-Software . . . . . . . . . . . . . . . . . . . 4
1.2.1 OpenAI Whisper .......................... 4
1.2.2 Whisper.cpp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Whisper.cpp BLAS .............................. 6
2 Installation 7
2.1 Installation über die grafische Oberfläche ................ 8
2.2 Installation über die Kommandozeile .................. 9
2.3 Lizenzierung der Anwendung . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Einzelbenutzerlizenzen . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Mehrbenutzer-/Terminal-Server-Lizenzen . . . . . . . . . . . 10
3 Benutzeroberfläche im Detail (GUI) 12
3.1 Transkription ................................. 13
3.2 Wartschlange für die Transkription . . . . . . . . . . . . . . . . . . . . 14
3.3 Abgeschlossene Transkriptionen . . . . . . . . . . . . . . . . . . . . . 15
3.4 Programmeinstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.5 Programmressourcen initialisieren . . . . . . . . . . . . . . . . . . . . 18
3.6 Technische Informationen . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Kommandozeilen (CMD) 19
4.1 Parameterliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 Aufrufbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Konfigurationsdatei 22
6 Häufig gestellte Fragen (FAQ) 23
6.1 Was hat OfflineTranscribe für Systemanforderungen? . . . . . . . . . 23
6.2 OfflineTranscribe lässt sich nicht installieren. [Windows SmartScreen] 23
6.3 Werden meine Dateien bzw. Daten hochgeladen oder verlassen in
irgendeiner Weise meinen Computer? . . . . . . . . . . . . . . . . . . 24
6.4 Von wie vielen Benutzern darf eine Lizenz gleichzeitig verwendet wer-
den? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.5 Auf wie vielen Computern kann eine Lizenz genutzt werden? . . . . 24
6.6 Ich bekomme folgende Meldung "Der Lizenzschlüssel wird derzeit
bereits von mehreren Geräten verwendet". Was bedeutet das? . . . . 24
6.7 Ein Transkription-Prozess startet nicht. Was kann ich tun? . . . . . . 25
6.8 Die Transkription auf meinem Computer ist mir zu langsam. Was
kann ich tun? ................................. 25
1
6.9 Das Programm sagt mir, dass für meine Auswahl an Transkriptions-
Software und Transkriptions-Modell der Arbeitsspeicher nicht reicht.
Was kann ich tun? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7 Referenzen 26
2
1
Einleitung
Mit OfflineTranscribe können Aufnahmen-/Audio-Dateien, wie MP3-Dateien, ohne
eine Internetverbindung auf dem eigenen Computer von Sprache in Text umge-
wandelt werden, also transkribiert werden. Es ist ein Programm, das eine einfache
Benutzeroberfläche für eine Auswahl an Transkriptions-Software und -Modellen
bietet und die Bereitstellung und Nutzung dieser automatisiert.
1.1 Unterstütze Aufnahmen-/Audio-Dateiformate
Das Programm unterstützt verschiedene Dateiformate. MP3- und WAV-Dateien
werden nativ unterstützt, während andere Audio-Dateiformate erst innerhalb des
Programms automatisch in eine kompatible Audio-Datei konvertiert werden. Die
konvertierten Dateien werden unter dem Pfad %appdata%\OfflineTranscribe\
ConvertedAudioFiles mit einem Namen wie beispielsweise "Recording_5d2d3b9c-
a360-4f52-a335-093e3d9d5c98.mp3" temporär abgelegt. Dies geschieht mit der en-
thaltenen Software "ffmpeg"[3].
Folgende Dateiformate wurden getestet und werden unterstützt:
(Weitere Formate können eventuell auch unterstützt werden, da die enthaltene
Konvertierungs-Software sehr viele Audio-Datei-Formate unterstützt [Mehr Infor-
mationen dazu: https://en.wikipedia.org/wiki/FFmpeg#Supported_formats].)
3
MP3 WAV OGG FLAC M4A
1.2 Auswahl an Transkriptions-Software
Dieser Abschnitt geht auf die unterstützte Auswahl an Transkriptions-Software und
-Modellen ein. Dabei werden diese kurz beschrieben und auf eventuell interes-
sante Einzelheiten eingegangen.
1.2.1 OpenAI Whisper
Whisper ist ein Allzweckmodell für die Spracherkennung. Es wurde anhand eines
großen Datensatzes mit verschiedenen Audiodaten trainiert und ist ein Multitasking-
Modell, das sowohl mehrsprachige Spracherkennung als auch Sprachübersetzung
und Sprachidentifikation durchführen kann.[2]
Modelle Folgende Modelle können für die enthaltende Transkriptions-Software
Whisper ausgewählt werden:
Modellname Schnelligkeit Fehlerquote Beschreibung
tiny +++++ + Schnellste / meiste Fehler
base ++++ ++ Schnell
small +++ +++ Normal
medium ++ ++++ Besser
large + +++++ Beste / Geringste Fehler
tiny_en +++++ + Nur Englisch - Schnellste/meiste Fehler
base_en ++++ ++ Nur Englisch - Schnell
small_en +++ +++ Nur Englisch - Normal
medium_en ++ ++++ Nur Englisch - Besser
Unterstütze Sprache Die Sprachunterstützung und Fehlerquote können je nach
Sprache stark variieren (Mehr Informationen: https://github.com/openai/whisper/
blob/eff383b27b783e280c089475852ba83f20f64998/language-breakdown.svg).
Hier ist die Auflistung der unterstützten Sprachen:
Englisch
Chinesisch
Deutsch
Spanisch
Russisch
Koreanisch
Französisch
Japanisch
Portugiesisch
Türkisch
Polnisch
Katalanisch
4
Niederländisch
Arabisch
Schwedisch
Italienisch
Indonesisch
Hindi
Finnisch
Vietnamesisch
Hebräisch
Ukrainisch
Griechisch
Malaiisch
Tschechisch
Rumänisch
Dänisch
Ungarisch
Tamil
Norwegisch
Thai
Urdu
Kroatisch
Bulgarisch
Litauisch
Latein
Maori
Malayalam
Walisisch
Slowakisch
Telugu
Persisch
Lettisch
Bengalisch
Serbisch
Aserbaidschanisch
Slowenisch
Kannada
Estnisch
Mazedonisch
Bretonisch
Baskisch
Isländisch
Armenisch
Nepali
Mongolisch
Bosnisch
Kasachisch
Albanisch
Suaheli
Galicisch
Marathi
Punjabi
Singhalesisch
Khmer
Shona
Yoruba
Somali
Afrikaans
Okzitanisch
Georgisch
Weißrussisch
Tadschikisch
Sindhi
Gujarati
Amharisch
Jiddisch
Laotisch
Usbekisch
Färöisch
Haitianisches-
Kreolisch
Pashto
Turkmenisch
Nynorsk
Maltesisch
Sanskrit
Luxemburgisch
5
Myanmar
Tibetisch
Tagalog
Malagasy
Assamese
Tatar
Hawaiianisch
Lingala
Hausa
Baschkirisch
Javanisch
Sundanese
1.2.2 Whisper.cpp
Diese Software ist eine alternative Implementierung von OpenAI’s Whisper. Sie ist
in der Programmiersprache C++ verfasst, was je nach System zu einer schnelleren
Transkription führen kann.[4] Es werden umformatierte Whisper-Modelle verwen-
det und nativ werden nur WAV-Dateien unterstützt. OfflineTranscribe kümmert
sich aber bei anderen Audio-Dateiformaten, wie auch bei OpenAI’s Whisper, um
die interne Konvertierung in das kompatible Audio-Dateiformat. Abgesehen von
dem gerade genannten, verhält sich die Software genauso wie OpenAI’s Whisper
mit den gegebenen Modellen und unterstützten Sprachen (siehe 1.2.1).
1.3 Whisper.cpp BLAS
Diese Software ist Whisper.cpp (siehe 1.2.2) bloß mit einer Implementierung, die
die Programmbibliothek BLAS für die Berechnungen der Transkription verwendet.[5]
Auf manchen Systemen ist diese schneller als die normale Implementierung. Sie
verhält sich genauso wie Whisper.cpp und nutzt dieselben Modelle.
6
2
Installation
Das Programm kann mittels der, auf https://OfflineTranscribe.de verfügbaren,
Exe-Datei "OfflineTranscribe-Setup.exe" gestartet werden. Diese ist gegebenfalls je
nach Quelle in einer komprimierten Zip-Datei gepackt.
Folgend wird in Abschnitt 2.1 auf die grafische Installation und in Abschnitt 2.2 auf
die Kommandozeilen-Installation eingegangen.
Weiterhin folgt in Abschnitt 2.3 die Erklärung, wie man die Anwendung mit einem
Lizenzschlüssel lizenzieren kann.
7
2.1 Installation über die grafische Oberfläche
8
2.2 Installation über die Kommandozeile
Mit dem Parameter "/S" kann eine Installation unbeaufsichtigt durchgeführt wer-
den. Wenn der Installationspfad festgelegt werden soll, kann dies über den Param-
eter /D=C:\NewInstallDir\\ durchgeführt werden.
Beispiel 1: OfflineTranscribe-Setup.exe /S
Beispiel 2: OfflineTranscribe-Setup.exe /S /D=C:\\NewInstallDir\\
2.3 Lizenzierung der Anwendung
Zur Lizenzierung der Anwendung muss mit einem Lizenzschlüssel einmalig eine
Online-Aktivierung der Installation durchgeführt werden. Die Anzahl der maxi-
malen Aktivierungen ist dabei limitiert und abhängig von der erworbenen Lizenz.
Bei der Aktivierung wird nach einer erfolgreichen Kommunikation mit dem Lizen-
zserver eine "LicenseConfirmation"-Datei auf dem Computer angelegt, die den Lizen-
zschlüssel, das Ablaufdatum und die Geräte-ID enthält. Diese Datei wird bei jedem
Start der Anwendung herangezogen, um die Gültigkeit der Lizenz zu prüfen. Diese
Prüfung funktioniert auch ohne Internetverbindung.
Unter den Programmeinstellungen findet man die Einstellungen für die Lizenz.
Diese Lizenz bezogenen Einstellungen werden folgend in ihren verschiedenen For-
men gegebenfalls mit einer kurzen Erklärung durchgegangen.
Keinen Lizenzschlüssel eingegeben
9
Lizenzschlüssel nicht erkannt
Ein Lizenzschlüssel wird als ungültig angezeigt, wenn dieser nicht die korrekten
Lizenzschlüsselstruktur besitzt, der Schlüssel dem Lizenzserver unbekannt ist oder
der Lizenzserver nicht erreichbar iust.
Lizenzschlüssel wurde als gültig erkannt
In diesem Fall wird die Aktivierungsschaltfläche aktiv und die Online-Aktivierung
kann mit einem Klick auf die Schaltfläche durchgeführt werden.
Ansicht nach erfolgreicher Online-Aktivierung
Nach der Aktivierung sieht man das Datum an dem die Lizenz abläuft und die An-
zahl der durchgeführten Aktivierungen sowie die Anzahl der maximal möglichen
Aktivierungen angezeigt.
2.3.1 Einzelbenutzerlizenzen
Die "LicenseConfirmation"-Dateien von Einzelbenutzerlizenzen müssen immer im
Arbeitsordner liegen, wie %appdata%/OfflineTranscribe/.
Diese "LicenseConfirmation"-Dateien der Einzelbenutzerlizenz sind computerspez-
ifisch und können nicht einfach auf einen anderen Computer kopiert werden, um
das Programm zu lizenzieren. Es muss auf dem neuen Computer mit dem Lizen-
zschlüssel wieder erneut eine Onlineaktivierung speziell für diesen Rechner durchge-
führt werden.
2.3.2 Mehrbenutzer-/Terminal-Server-Lizenzen
Die "LicenseConfirmation"-Datei bei Mehrbenutzer-/Terminal-Server-Lizenzen kann
im Arbeitsordner liegen, wie %appdata%/OfflineTranscribe/, oder im Programm-
Installationsordner. Diese "LicenseConfirmation"-Dateien der Mehrbenutzer-/Terminal-
Server-Lizenzen sind nicht computerspezifisch und können einfach auf einen an-
deren Computer kopiert werden, um das Programm auf diesem zu lizenzieren. Dieses
10
veränderte Verhalten im Vergleich zu Einzelbenutzerlizenzen ist besonders für die
weit verbreitete automatisierte Verteilung der Anwendung innerhalb von Unternehmen
gedacht.
11
3
Benutzeroberfläche im
Detail (GUI)
In diesem Kapitel wird im Detail auf die Benutzeroberfläche, ihre einzelnen Ele-
mente sowie auf nennenswerte Aspekte eingegangen.
In dem dargestellten Screenshot der Anwendung sind bereits Eintragungen durch
12
den Benutzer vorgenommen worden, um beispielsweise die Liste der Audio-Dateien,
die Warteschlange für die Transkription sowie die Liste der abgeschlossenen Tran-
skription demonstrativ mit Elementen zu füllen. Ebenso wurden auch schon bei
den Einstellungen für die Transkription sowie für die Anwendung im Allgemeinen
Änderungen vorgenommen.
Folgend werden Ausschnitte aus diesem Bild genommen, um die einzelnen Teile
der Benutzeroberfläche zu erklären:
3.1 Transkription
Diese Elementgruppe enthält die beiden Unterelementgruppen "Audio" und "Ein-
stellungen für die Transkription".
In der Unterelementgruppe "Audio" können Audio-Aufnahmen von der Festplatte
ausgewählt werden, die zu Text transkribiert werden sollen. Es können dabei mehrere
Audio-Dateien gleichzeitig ausgewählt werden. Die ausgewählten Dateien befinden
sich dann in der Auflistung, in der der Name, die Länge und der Dateipfad der
Audio-Datei angezeigt werden.
Unter der Unterelementgruppe "Audio" befindet sich die "Einstellungen für die
Transkription". In diesen Einstellungen können Sie die Art der Transkription auswählen.
Zunächst steht Ihnen die Auswahl der Software zur Verfügung, die für die Tran-
skription verwendet werden soll.
13
Je nach ausgewählter Software verändert sich die nachfolgende Auswahl der "Mod-
elle der Transkriptionssoftware". Diese Modelle sind unterschiedlich angelernte
Speicher für die Software, die zur Transkription genutzt werden. Die Modelle un-
terscheiden sich beispielsweise bei der Genauigkeit der Transkription, der Schnel-
ligkeit der Transkription und dem Sprachumfang. Als vereinfachtes Beispiel: Ein
Modell, das nur auf Englisch angelernt ist, würde bei einer englischen Audio-Aufnahme
bei der Transkription wesentlich schneller sein als eines, das gleich für 6 verschiedene
Sprachen angelernt wurde, da die einzelnen Worte mit mehr Wörtern auf Überein-
stimmungen abgeglichen werden müssten.
Als letzte Auswahlmöglichkeit bleibt die Auswahl der Sprache der Audio-Datei. Manche
Software- und Modell-Auswahlkombinationen bieten das automatische Erkennen
der Sprache in der Audio-Datei an. Andere nicht. In diesem Fall muss manueell
die korrekte Sprache ausgewählt werden, da ansonsten die Software versucht, die
Transkription mit der falschen ausgewählten Sprache vorzunehmen. Das Ergebnis
wäre in diesem Fall maximal unterhaltsam, aber wenig nützlich.
Wenn schlussendlich die entsprechenden Audio-Dateien und die Transkription-
seinstellungen festgelegt wurden, kann mit einem Klick auf "Zur Transkription-
swarteschlange hinzufügen" die Transkription begonnen werden. Je nach Anwen-
dungseinstellung startet bereits jetzt automatisch der Transkriptionsprozess und
die Verarbeitung kann in der Transkriptionswarteschlange verfolgt werden.
3.2 Wartschlange für die Transkription
In dieser Elementgruppe werden die Transkriptionsaufträge dargestellt, die derzeit
ausgeführt oder als nächstes ausgeführt werden.
Die Aufträge, die noch nicht gestartet wurden, enthalten dabei die Informationen
der derzeitigen Platznummer in der Liste, des Dateinamens, der Länge der Auf-
nahme, der ausgewählten Transkriptionssoftware, des ausgewählten Transkription-
smodells und der ausgewählten oder automatisch ermittelten Sprache der Audio-
datei. Darunter befindet sich der komplette Dateipfad der Audiodatei. Im Hin-
tergrund des Auftrags ist auch eine grafische Darstellung der Höhen und Tiefen
der Audiodatei sichtbar. Rechts befindet sich der Startknopf, der die Transkription
startet. Gefolgt davon gibt es Schaltflächen, mit denen die Aufträge in der Liste ver-
schoben oder komplett entfernt werden können.
14
Aufträge, die gestartet wurden und noch nicht abgeschlossen sind, unterscheiden
sich in der Oberfläche in einigen Punkten. So wurde der Start-Knopf durch einen
Stop-Knopf ersetzt und eine zusätzliche Schaltfläche darunter hinzugefügt. Diese
Schaltfläche öffnet ein Ausgabefenster, das die bisherigen Prozessausgaben und
technischen Daten der Transkriptionssoftware anzeigt. Eine solche Prozessaus-
gabe ist in dem folgenden Bild dargestellt.
Als weitere Änderungen sind eine Prozentangabe des Transkriptionsfortschritts, die
Anzahl der transkribierten Minuten, die Gesamtzahl an Audiominuten, ein visueller
Ladebalken und die Zeit, die die T</