डेबियन 12 लिनक्स ट्रांसक्रिप्शन सर्वर (Python, VOSK, Script)
ऐसे कार्यों के लिए जब आपको जानकारी को पाठ में परिवर्तित करने के लिए बड़ी संख्या में ऑडियो फ़ाइलों को संसाधित करने की आवश्यकता होती है, तो पायथन में लिखा गया एक VOSK मॉडल होता है और इसमें दुनिया की अधिकांश भाषाएँ शामिल होती हैं। इस क्रिया को प्रतिलेखन कहते हैं। चूँकि खोज इंजन ऑडियो और वीडियो फ़ाइलों को विवरण और टैग के आधार पर अनुक्रमित करते हैं, न कि उनकी सामग्री के आधार पर, कार्य एक और पाठ संस्करण प्रकाशित करने के लिए उठता है। इस गाइड में, हम रूट के रूप में स्थापित करते हैं, यदि आपके पास एक सामान्य है, तो sudo कमांड का उपयोग करें .
|
सबसे अक्सर पूछे जाने वाले प्रश्न:
-
हम चाहते हैं कि सारा डेटा हमारे पास रहे। क्या आप यह सारा सेटअप हमारे उपकरण पर कर सकते हैं?
हां, आप अपने उपकरण पर इस कॉन्फ़िगरेशन की स्थापना और कॉन्फ़िगरेशनlink.
1. आवश्यक पैकेज स्थापित करें
apt update
apt install python3 python3-pip ffmpeg unzip rename
apt install python3.11-venv
python3 -m venv .venv
2. वोस्क उपयोगिता स्थापित करें
source .venv/bin/activate
pip3 install vosk
3. मॉडल डाउनलोड हो रहा है
cd /opt
wget https://alphacephei.com/vosk/models/vosk-model-ru-0.42.zip
unzip vosk-model-ru-0.42.zip
नोट 1:हमारे मामले में, हमने पूर्ण मॉडल चुना, यदि सर्वर कॉन्फ़िगरेशन में 8 जीबी से कम रैम है, तो यह मॉडल काम नहीं करेगा और एक त्रुटि देगा:
इस मामले में, मॉडल का न्यूनतम संस्करण डाउनलोड करें, क्योंकि यह सर्वर संसाधनों पर कम मांग वाला है:
cd /opt
wget https://alphacephei.com/vosk/models/vosk-model-small-ru-0.22.zip
unzip vosk-model-small-ru-0.22.zip
4. यह काम करता है या नहीं यह जांचने के लिए निम्नलिखित कमांड सिंटैक्स का उपयोग करें
vosk-transcriber -i audio_file -o text_file -m path_to_model
vosk-transcriber -i /root/test.mp3 -o /root/test.txt -m /opt/vosk-model-ru-0.42
न्यूनतम मॉडल के लिए, क्रमशः
vosk-transcriber -i /root/test.mp3 -o /root/test.txt -m /opt/vosk-model-small-ru-0.22
यदि आपके पास कई फ़ाइलें हैं, तो हमने इंटरनेट पर निम्नलिखित स्क्रिप्ट ढूंढी और उसका उपयोग किया, जो आपको ऑडियो फ़ाइलों के साथ पूरे फ़ोल्डर को संसाधित करने और उन सभी को स्वचालित रूप से पाठ में अनुवाद करने की अनुमति देता है, आपको बस प्रसंस्करण पूरा होने तक प्रतीक्षा करनी होगी:
touch transcribe.sh
chmod +x transcribe.sh
nano transcribe.sh
#!/bin/bash
errmsg="USAGE: sh transcribe.sh SRCPATH DSTPATH VOSKMODELPATH"
if [ $1 ]; then
srcpath=$1
echo "SOURCE PATH: $srcpath"
else
echo "No source path entered" >&2
echo $errmsg
exit 2
fi
if [ $2 ]; then
dstpath=$2
echo "DESTINATION PATH: $dstpath"
else
echo "No destination path entered" >&2
echo $errmsg
exit 2
fi
if [ $3 ]; then
modelpath=$3
echo "VOSK MODEL PATH: $modelpath"
else
echo "No VOSK language model path entered" >&2
echo $errmsg
exit 2
fi
startdate=$(date)
find $srcpath -name "* *" -type f | rename 's/ /_/g'
## remove spaces from filenames in target directory
famount=$(find $srcpath -type f | wc -l) ## counting the number of files
echo "Found $famount files"
i=0;
for f in $srcpath/*; do
i=$(( $i + 1 ))
echo "Transcribing ${f##*/} ($i/$famount)"
vosk-transcriber -m $modelpath -i $srcpath/${f##*/} -o $dstpath/${f##*/}.txt >/dev/null 2>&1 ;
## remove >/dev/null 2>&1 to display recognition status
## rm $srcpath/${f##*/} ## uncomment to remove the original file
done
fready=$(find $dstpath -type f | wc -l)
echo "DONE. Transcribed $fready of $famount files"
enddate=$(date)
echo STARTED AT: ${startdate}
echo ENDED AT: ${enddate}
स्क्रिप्ट का उपयोग करने के लिए सिंटैक्स:
sh transcribe.sh path_to_sources_files path_to_result path_to_model
sh transcribe.sh /root/audio/ /root/text/ /opt/vosk-model-ru-0.42/
नोट 2:यदि आपने ssh के माध्यम से सर्वर में दोबारा लॉग इन किया है, तो आपके द्वारा Python वर्चुअल वातावरण को सक्रिय करने के बाद vosk-transcriber कमांड उपलब्ध होगा, इसलिए ट्रांसक्रिप्शन प्रारंभ अनुक्रम इस प्रकार होगा:
source .venv/bin/activate
vosk-transcriber -i /root/test.mp3 -o /root/test.txt -m /opt/vosk-model-ru-0.42/
संपूर्ण फ़ोल्डर को संसाधित करने के लिए:
sh transcribe.sh /root/audio/ /root/text/ /opt/vosk-model-ru-0.42/
अधिक भाषा मॉडल उपलब्ध हैं लिंक, पैराग्राफ 3 में वर्णित सादृश्य द्वारा डाउनलोड और अनपैक करना आवश्यक है।
ऑडियो फ़ाइलों को टेक्स्ट में अनुवाद करने वाला सर्वर उपयोग के लिए तैयार है। अनुवाद की गुणवत्ता उच्चारण की स्पष्टता और रिकॉर्डिंग की गुणवत्ता पर ही निर्भर करती है, उदाहरण के लिए, एक साक्षात्कार से ऑडियो अंश को संसाधित करते समय, यह एक संगीत गीत को संसाधित करते समय की तुलना में काफी अधिक होता है।