वीपीएस/वीडीएस सर्वर

पूर्व-कॉन्फ़िगर ऑपरेटिंग सिस्टम (असेंबली)

लिनक्स डेबियन 12 पर ट्रांसक्रिप्शन सर्वर (ऑडियो से टेक्स्ट अनुवाद)

(अंतिम परिवर्तन: 06.11.2024)

डेबियन 12 लिनक्स ट्रांसक्रिप्शन सर्वर (Python, VOSK, Script)

ऐसे कार्यों के लिए जब आपको जानकारी को पाठ में परिवर्तित करने के लिए बड़ी संख्या में ऑडियो फ़ाइलों को संसाधित करने की आवश्यकता होती है, तो पायथन में लिखा गया एक VOSK मॉडल होता है और इसमें दुनिया की अधिकांश भाषाएँ शामिल होती हैं। इस क्रिया को प्रतिलेखन कहते हैं। चूँकि खोज इंजन ऑडियो और वीडियो फ़ाइलों को विवरण और टैग के आधार पर अनुक्रमित करते हैं, न कि उनकी सामग्री के आधार पर, कार्य एक और पाठ संस्करण प्रकाशित करने के लिए उठता है। इस गाइड में, हम रूट के रूप में स्थापित करते हैं, यदि आपके पास एक सामान्य है, तो sudo कमांड का उपयोग करें .

सबसे अक्सर पूछे जाने वाले प्रश्न:

हम चाहते हैं कि सारा डेटा हमारे पास रहे। क्या आप यह सारा सेटअप हमारे उपकरण पर कर सकते हैं?

हां, आप अपने उपकरण पर इस कॉन्फ़िगरेशन की स्थापना और कॉन्फ़िगरेशनlink.

1. आवश्यक पैकेज स्थापित करें

apt update
apt install python3 python3-pip ffmpeg unzip rename
apt install python3.11-venv
python3 -m venv .venv

2. वोस्क उपयोगिता स्थापित करें

source .venv/bin/activate
pip3 install vosk

3. मॉडल डाउनलोड हो रहा है

cd /opt
wget https://alphacephei.com/vosk/models/vosk-model-ru-0.42.zip
unzip vosk-model-ru-0.42.zip

नोट 1:हमारे मामले में, हमने पूर्ण मॉडल चुना, यदि सर्वर कॉन्फ़िगरेशन में 8 जीबी से कम रैम है, तो यह मॉडल काम नहीं करेगा और एक त्रुटि देगा:

File "/usr/local/lib/python3.9/dist-packages/vosk/__init__.py", line 57, in __init__
    raise Exception("Failed to create a model")
Exception: Failed to create a model

इस मामले में, मॉडल का न्यूनतम संस्करण डाउनलोड करें, क्योंकि यह सर्वर संसाधनों पर कम मांग वाला है:

cd /opt
wget https://alphacephei.com/vosk/models/vosk-model-small-ru-0.22.zip
unzip vosk-model-small-ru-0.22.zip

4. यह काम करता है या नहीं यह जांचने के लिए निम्नलिखित कमांड सिंटैक्स का उपयोग करें

vosk-transcriber -i audio_file -o text_file -m path_to_model
vosk-transcriber -i /root/test.mp3 -o /root/test.txt -m /opt/vosk-model-ru-0.42

न्यूनतम मॉडल के लिए, क्रमशः

vosk-transcriber -i /root/test.mp3 -o /root/test.txt -m /opt/vosk-model-small-ru-0.22

यदि आपके पास कई फ़ाइलें हैं, तो हमने इंटरनेट पर निम्नलिखित स्क्रिप्ट ढूंढी और उसका उपयोग किया, जो आपको ऑडियो फ़ाइलों के साथ पूरे फ़ोल्डर को संसाधित करने और उन सभी को स्वचालित रूप से पाठ में अनुवाद करने की अनुमति देता है, आपको बस प्रसंस्करण पूरा होने तक प्रतीक्षा करनी होगी:

touch transcribe.sh
chmod +x transcribe.sh

nano transcribe.sh

#!/bin/bash

errmsg="USAGE: sh transcribe.sh SRCPATH DSTPATH VOSKMODELPATH"

if [ $1 ]; then
    srcpath=$1
    echo "SOURCE PATH: $srcpath"
else
    echo "No source path entered" >&2
    echo $errmsg
    exit 2
fi

if [ $2 ]; then
    dstpath=$2
    echo "DESTINATION PATH: $dstpath"
else
    echo "No destination path entered" >&2
    echo $errmsg
    exit 2
fi

if [ $3 ]; then
    modelpath=$3
    echo "VOSK MODEL PATH: $modelpath"
else
    echo "No VOSK language model path entered" >&2
    echo $errmsg
    exit 2
fi

startdate=$(date)

find $srcpath -name "* *" -type f  | rename 's/ /_/g' 
## remove spaces from filenames in target directory
famount=$(find $srcpath -type f | wc -l) ## counting the number of files
echo "Found $famount files"
i=0;

for f in $srcpath/*; do 
	i=$(( $i + 1 ))
	echo "Transcribing ${f##*/} ($i/$famount)"  
	vosk-transcriber -m $modelpath -i $srcpath/${f##*/} -o $dstpath/${f##*/}.txt >/dev/null 2>&1 ; 
	## remove >/dev/null 2>&1 to display recognition status
	## rm $srcpath/${f##*/} ## uncomment to remove the original file
done

fready=$(find $dstpath -type f | wc -l)
echo "DONE. Transcribed $fready of $famount files"
enddate=$(date)
echo STARTED AT: ${startdate}
echo ENDED AT: ${enddate}

स्क्रिप्ट का उपयोग करने के लिए सिंटैक्स:

sh transcribe.sh path_to_sources_files path_to_result path_to_model
sh transcribe.sh /root/audio/ /root/text/ /opt/vosk-model-ru-0.42/

नोट 2:यदि आपने ssh के माध्यम से सर्वर में दोबारा लॉग इन किया है, तो आपके द्वारा Python वर्चुअल वातावरण को सक्रिय करने के बाद vosk-transcriber कमांड उपलब्ध होगा, इसलिए ट्रांसक्रिप्शन प्रारंभ अनुक्रम इस प्रकार होगा:

source .venv/bin/activate
vosk-transcriber -i /root/test.mp3 -o /root/test.txt -m /opt/vosk-model-ru-0.42/

संपूर्ण फ़ोल्डर को संसाधित करने के लिए:

sh transcribe.sh /root/audio/ /root/text/ /opt/vosk-model-ru-0.42/

अधिक भाषा मॉडल उपलब्ध हैं लिंक, पैराग्राफ 3 में वर्णित सादृश्य द्वारा डाउनलोड और अनपैक करना आवश्यक है।

ऑडियो फ़ाइलों को टेक्स्ट में अनुवाद करने वाला सर्वर उपयोग के लिए तैयार है। अनुवाद की गुणवत्ता उच्चारण की स्पष्टता और रिकॉर्डिंग की गुणवत्ता पर ही निर्भर करती है, उदाहरण के लिए, एक साक्षात्कार से ऑडियो अंश को संसाधित करते समय, यह एक संगीत गीत को संसाधित करते समय की तुलना में काफी अधिक होता है।

No Comments Yet