最新消息: 新版網站上線了?。?!
  • 谷歌開源Live Transcribe語音識別轉文字工具

    谷歌在其開源博客中宣布開源 Android語音識別轉錄工具——Live Transcribe的語音引擎,它可以將語音或對話實時轉錄為文字,還能夠為聽障人士提供幫助。

      Live Transcribe 是谷歌于今年2月推出的一款Android應用程序,它的語音識別由谷歌最先進的Cloud Speech API提供。但是,依賴于云引入了一些復雜性,不斷變化的網絡連接、數據成本和延遲等等都帶來一些考驗。因此,谷歌把它開源出來,希望開發人員在已有的基礎上進一步構建和開發。

      Cloud Speech API目前無法支持無限的音頻流,團隊采取了一些措施來解決這一難題,例如在達到超時之前關閉并重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。

    Live Transcribe

      值得一提的是,Live Transcribe支持超過70種語言,并能夠根據語音自動識別語種,其中也包括中文。

      另外,由于是提供實時語音轉錄,轉錄出來的文本會隨著語音的輸入不斷發生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功于它的自定義Opus編碼器。

      Live Transcribe語音引擎功能

      Google列出了語音引擎的以下功能(不包括說話人識別):

      無限流媒體。

      支持70多種語言。

      可以簡化網絡丟失(在網絡和Wi-Fi之間切換時)。文字不會丟失,只會延遲。

      強大的擴展網絡損耗。即使網絡已經停電數小時,也會重新連接。當然,沒有連接就不能進行語音識別。

      可以輕松啟用和配置Opus,AMR-WB和FLAC編碼。

      包含文本格式庫,用于可視化ASR置信度、發言人ID等。

      可離線模型擴展。

      內置支持語音檢測器,可在延長靜音期間用于停止ASR,以節省資金和數據。

      內置支持揚聲器識別,可根據揚聲器編號標記或著色文本。


    轉載請注明:谷谷點程序 » 谷歌開源Live Transcribe語音識別轉文字工具

    平度胜利路按摩在什么地方多,平度做大活的足疗,平度职教中心女孩微信,平度找曼地方