日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
AI虛擬點(diǎn)讀機(jī),手勢識(shí)別+OCR+語音TTS

哈嘍,大家好。

創(chuàng)新互聯(lián)是專業(yè)的周寧網(wǎng)站建設(shè)公司,周寧接單;提供網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì),網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行周寧網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!

最近在研究AIGC方面的內(nèi)容,好久沒有更新公眾號(hào)內(nèi)容。

今天給大家分享的是用計(jì)算機(jī)視覺技術(shù)做一個(gè)虛擬點(diǎn)讀機(jī)。

圖片

技術(shù)上很簡單,只不過工程實(shí)現(xiàn)先有些細(xì)節(jié)需要注意。

1. 思路

  1. OpenCV讀取視頻流,識(shí)別食指坐標(biāo)
  2. 用兩個(gè)食指坐標(biāo)作為頂點(diǎn),畫一個(gè)矩形框
  3. 截取矩形框,送入OCR模型識(shí)別文本
  4. 用語音合成引擎TTS將文本合成語音
  5. 調(diào)用音頻播放模塊,播放聲音

2. 細(xì)節(jié)處理

OpenCV讀取視頻流、mediapipe識(shí)別食指坐標(biāo),之前的分享的文章都有代碼,這里就不貼了,重點(diǎn)說下需要處理的細(xì)節(jié)。

細(xì)節(jié)1. 檢測到兩個(gè)食指時(shí),需要設(shè)置一個(gè)時(shí)間間隔,這樣可以給你預(yù)留一些時(shí)間來調(diào)整矩形框

if self.point_start_time is None:
    # 首次同時(shí)檢測到左右食指
    self.point_start_time = time.time()
else:
    time_del = time.time() - self.point_start_time
    if time_del > 3:

圖片

細(xì)節(jié)2. 設(shè)置標(biāo)記,防止重復(fù)識(shí)別

矩形框一旦確定,如果沒有標(biāo)記,每一幀都會(huì)送入OCR模型識(shí)別、然后播放聲音,這樣程序就會(huì)卡死。

需要設(shè)置標(biāo)記,保證任何時(shí)刻只處理一個(gè)矩形框。

if not self.is_processing:
  # 開始識(shí)別
  self.is_processing = True
  # ocr識(shí)別選定的圖片
  t, b = min(p0_y, p1_y), max(p0_y, p1_y)
  l, r = min(p0_x, p1_x), max(p0_x, p1_x)

  selected_frame = frame[t:b, l:r]
  # ocr識(shí)別文字
  text = self.ocr_rec(selected_frame)
  # 文本轉(zhuǎn)語音
  voice = self.tts.get_speech(text)
  # 播放語音
  self.player.play(voice, False, notallow=lambda: self.stop_play())
  self.pc_time = time.time()

細(xì)節(jié)3. 多線程處理

播放音頻的時(shí)候需要用多線程播放,不然主程序會(huì)卡死,知道音頻播放完成才能繼續(xù)運(yùn)行。

如果識(shí)別的內(nèi)容很多,播放時(shí)間長,程序就會(huì)一直卡著很長時(shí)間沒有反應(yīng)。

3. 其他技術(shù)

關(guān)于OCR和TTS技術(shù)之前的文章都有介紹過。

OCR直接用Paddle框架和預(yù)訓(xùn)練好的模型就行。

TTS如果是Mac可以使用系統(tǒng)自帶的,不需要安裝其他程序。如果是Windows可以使用微軟的edge-tts。edge-tts效果比大部分tts強(qiáng)太多。

也可以用d-id、wav2lip或者sadtalker實(shí)現(xiàn)唇形合成,讓靜態(tài)圖片朗讀文本內(nèi)容。


網(wǎng)站名稱:AI虛擬點(diǎn)讀機(jī),手勢識(shí)別+OCR+語音TTS
URL地址:http://m.5511xx.com/article/cddhhoo.html