Spaces:

ASLP-lab
/

OSUM

Runtime error

tomxxie

适配zeroGPU

568e264 10 months ago

8.35 kB

	import math
	from typing import Any, List, Optional, Tuple, Union
	import torch

	from wenet.transformer.search import DecodeResult
	from wenet.utils.mask import (make_non_pad_mask, mask_finished_preds,
	mask_finished_scores)


	def _isChinese(ch: str):
	if '\u4e00' <= ch <= '\u9fff' or '\u0030' <= ch <= '\u0039' or ch == '@':
	return True
	return False


	def _isAllChinese(word: Union[List[Any], str]):
	word_lists = []
	for i in word:
	cur = i.replace(' ', '')
	cur = cur.replace('</s>', '')
	cur = cur.replace('<s>', '')
	cur = cur.replace('<unk>', '')
	cur = cur.replace('<OOV>', '')
	word_lists.append(cur)

	if len(word_lists) == 0:
	return False

	for ch in word_lists:
	if _isChinese(ch) is False:
	return False
	return True


	def _isAllAlpha(word: Union[List[Any], str]):
	word_lists = []
	for i in word:
	cur = i.replace(' ', '')
	cur = cur.replace('</s>', '')
	cur = cur.replace('<s>', '')
	cur = cur.replace('<unk>', '')
	cur = cur.replace('<OOV>', '')
	word_lists.append(cur)

	if len(word_lists) == 0:
	return False

	for ch in word_lists:
	if ch.isalpha() is False and ch != "'":
	return False
	elif ch.isalpha() is True and _isChinese(ch) is True:
	return False

	return True


	def paraformer_beautify_result(tokens: List[str]) -> str:
	middle_lists = []
	word_lists = []
	word_item = ''

	# wash words lists
	for token in tokens:
	if token in ['<sos>', '<eos>', '<blank>']:
	continue
	else:
	middle_lists.append(token)

	# all chinese characters
	if _isAllChinese(middle_lists):
	for _, ch in enumerate(middle_lists):
	word_lists.append(ch.replace(' ', ''))

	# all alpha characters
	elif _isAllAlpha(middle_lists):
	for _, ch in enumerate(middle_lists):
	word = ''
	if '@@' in ch:
	word = ch.replace('@@', '')
	word_item += word
	else:
	word_item += ch
	word_lists.append(word_item)
	word_lists.append(' ')
	word_item = ''

	# mix characters
	else:
	alpha_blank = False
	for _, ch in enumerate(middle_lists):
	word = ''
	if _isAllChinese(ch):
	if alpha_blank is True:
	word_lists.pop()
	word_lists.append(ch)
	alpha_blank = False
	elif '@@' in ch:
	word = ch.replace('@@', '')
	word_item += word
	alpha_blank = False
	elif _isAllAlpha(ch):
	word_item += ch
	word_lists.append(word_item)
	word_lists.append(' ')
	word_item = ''
	alpha_blank = True
	else:
	word_lists.append(ch)
	alpha_blank = False
	return ''.join(word_lists).strip()


	def gen_timestamps_from_peak(cif_peaks: List[int],
	num_frames: int,
	frame_rate=0.02):
	START_END_THRESHOLD = 5
	MAX_TOKEN_DURATION = 14
	force_time_shift = -0.5
	fire_place = [peak + force_time_shift for peak in cif_peaks]
	times = []
	for i in range(len(fire_place) - 1):
	if MAX_TOKEN_DURATION < 0 or fire_place[
	i + 1] - fire_place[i] <= MAX_TOKEN_DURATION:
	times.append(
	[fire_place[i] * frame_rate, fire_place[i + 1] * frame_rate])
	else:
	split = fire_place[i] + MAX_TOKEN_DURATION
	times.append([fire_place[i] * frame_rate, split * frame_rate])
	if len(times) > 0:
	if num_frames - fire_place[-1] > START_END_THRESHOLD:
	end = (num_frames + fire_place[-1]) * 0.5
	times[-1][1] = end * frame_rate
	times.append([end * frame_rate, num_frames * frame_rate])
	else:
	times[-1][1] = num_frames * frame_rate
	return times


	def paraformer_greedy_search(
	decoder_out: torch.Tensor,
	decoder_out_lens: torch.Tensor,
	cif_peaks: Optional[torch.Tensor] = None) -> List[DecodeResult]:
	batch_size = decoder_out.shape[0]
	maxlen = decoder_out.size(1)
	topk_prob, topk_index = decoder_out.topk(1, dim=2)
	topk_index = topk_index.view(batch_size, maxlen) # (B, maxlen)
	topk_prob = topk_prob.view(batch_size, maxlen)
	results: List[DecodeResult] = []
	topk_index = topk_index.cpu().tolist()
	topk_prob = topk_prob.cpu().tolist()
	decoder_out_lens = decoder_out_lens.cpu().numpy()
	for (i, hyp) in enumerate(topk_index):
	confidence = 0.0
	tokens_confidence = []
	lens = decoder_out_lens[i]
	for logp in topk_prob[i][:lens]:
	tokens_confidence.append(math.exp(logp))
	confidence += logp
	r = DecodeResult(hyp[:lens],
	tokens_confidence=tokens_confidence,
	confidence=math.exp(confidence / lens))
	results.append(r)

	if cif_peaks is not None:
	for (b, peaks) in enumerate(cif_peaks):
	result = results[b]
	times = []
	n_token = 0
	for (i, peak) in enumerate(peaks):
	if n_token >= len(result.tokens):
	break
	if peak > 1 - 1e-4:
	times.append(i)
	n_token += 1
	result.times = times
	assert len(result.times) == len(result.tokens)
	return results


	def paraformer_beam_search(decoder_out: torch.Tensor,
	decoder_out_lens: torch.Tensor,
	beam_size: int = 10,
	eos: int = -1) -> List[DecodeResult]:
	mask = make_non_pad_mask(decoder_out_lens)
	indices, _ = _batch_beam_search(decoder_out,
	mask,
	beam_size=beam_size,
	eos=eos)

	best_hyps = indices[:, 0, :].cpu()
	decoder_out_lens = decoder_out_lens.cpu()
	results = []
	# TODO(Mddct): scores, times etc
	for (i, hyp) in enumerate(best_hyps.tolist()):
	r = DecodeResult(hyp[:decoder_out_lens.numpy()[i]])
	results.append(r)
	return results


	def _batch_beam_search(
	logit: torch.Tensor,
	masks: torch.Tensor,
	beam_size: int = 10,
	eos: int = -1,
	) -> Tuple[torch.Tensor, torch.Tensor]:
	""" Perform batch beam search

	Args:
	logit: shape (batch_size, seq_length, vocab_size)
	masks: shape (batch_size, seq_length)
	beam_size: beam size

	Returns:
	indices: shape (batch_size, beam_size, seq_length)
	log_prob: shape (batch_size, beam_size)

	"""

	batch_size, seq_length, vocab_size = logit.shape
	masks = ~masks
	# beam search
	with torch.no_grad():
	# b,t,v
	log_post = torch.nn.functional.log_softmax(logit, dim=-1)
	# b,k
	log_prob, indices = log_post[:, 0, :].topk(beam_size, sorted=True)
	end_flag = torch.eq(masks[:, 0], 1).view(-1, 1)
	# mask predictor and scores if end
	log_prob = mask_finished_scores(log_prob, end_flag)
	indices = mask_finished_preds(indices, end_flag, eos)
	# b,k,1
	indices = indices.unsqueeze(-1)

	for i in range(1, seq_length):
	# b,v
	scores = mask_finished_scores(log_post[:, i, :], end_flag)
	# b,v -> b,k,v
	topk_scores = scores.unsqueeze(1).repeat(1, beam_size, 1)
	# b,k,1 + b,k,v -> b,k,v
	top_k_logp = log_prob.unsqueeze(-1) + topk_scores

	# b,k,v -> b,k*v -> b,k
	log_prob, top_k_index = top_k_logp.view(batch_size,
	-1).topk(beam_size,
	sorted=True)

	index = mask_finished_preds(top_k_index, end_flag, eos)

	indices = torch.cat([indices, index.unsqueeze(-1)], dim=-1)

	end_flag = torch.eq(masks[:, i], 1).view(-1, 1)

	indices = torch.fmod(indices, vocab_size)

	return indices, log_prob