Transcripts and Metadata from ETV

Collecting transcripts made with insanely-fast-whisper in order to create a search index + app.

Original metadata from ETV saved in './metadata' and json transcript files from insanely-fast-whisper with distil-whisper large v3 in "./transcripts/"

Plan

Minimum viable code for collecting metadata
Minimum viable code for collecting transcripts
Pre-process metadata for searching/filtering transcripts
Pre-process transcripts for searching
Minimum viable code for searching transcripts
Impliment download_metadata script. Make it run daily to collect metadata using github actions (Using known IDs to find sequences with new additions)

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
metadata		metadata
scripts		scripts
transcripts		transcripts
metadata.jsonl		metadata.jsonl
metadata.jsonl.gz		metadata.jsonl.gz
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Transcripts and Metadata from ETV

Plan

About

Uh oh!

Releases

Packages

Languages

JavaGT/ETV-University-of-Auckland-Transcripts

Folders and files

Latest commit

History

Repository files navigation

Transcripts and Metadata from ETV

Plan

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages