Spaces:

chrisjay
/

afro-speech

Build error

App Files Files Community

chrisjay commited on May 23, 2022

Commit

db3a1a4

1 Parent(s): 6b9259e

plot per language

Browse files

Files changed (2) hide show

app.py +65 -23
data +1 -1

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from ctypes.wintypes import LANGID
 from email.policy import default
 import pycountry
 import os
@@ -179,7 +180,16 @@ def get_metadata_json(path):
     except Exception:
         return []
-def show_records():
     repo.git_pull()
     REPOSITORY_DATA_DIR = os.path.join(REPOSITORY_DIR,'data')
     repo_recordings = [os.path.join(REPOSITORY_DATA_DIR,f.name) for f in os.scandir(REPOSITORY_DATA_DIR)] if os.path.isdir(REPOSITORY_DATA_DIR) else []
@@ -188,29 +198,8 @@ def show_records():
     audio_repo = [a.replace('data/data/','https://huggingface.co/datasets/chrisjay/crowd-speech-africa/resolve/main/data/') for a in audio_repo]
     metadata_all = [get_metadata_json(os.path.join(f,'metadata.jsonl')) for f in repo_recordings]
     metadata_all = [m for m in metadata_all if m!=[]]
-    audios_all =  audio_repo
-    langs=[m['language_name'] for m in metadata_all]
-    lang_dict = Counter(langs)
-    lang_dict.update({'All others':0})
-    all_langs = list(lang_dict.keys())
-    langs_count  = [lang_dict[k] for k in all_langs]
-    y_pos = np.arange(len(all_langs))
-    plt.barh(all_langs, langs_count)
-    plt.ylabel("Language")
-    plt.xlabel('Number of audio samples')
-    plt.title('Distribution of audio samples over languages')
-    #audios = [a for a in audios_all]
-    #texts = [m['text'] for m in metadata_all]
-    #numbers = [m['number'] for m in metadata_all]
-    html = f"""<div class="infoPoint">
-                <h1> Hooray! We have collected {len(metadata_all)} samples!</h1>
-                """
-    return html,plt
 def display_records():
@@ -315,9 +304,62 @@ with block:
                 </div>
                """)
             plot = gr.Plot(type="matplotlib")
             #listen = gr.Button("Listen")
             listen_tab.select(show_records,inputs=[],outputs=[display_html,plot])
     gr.Markdown(ARTICLE)
 block.launch()

 from ctypes.wintypes import LANGID
+from curses import meta
 from email.policy import default
 import pycountry
 import os
     except Exception:
         return []
+def plot_bar(value,name,x_name,y_name,title):
+    plt.barh(name, value)
+    plt.ylabel(y_name)
+    plt.xlabel(x_name)
+    plt.title(title)
+    return plt
+def get_metadata_of_dataset():
     repo.git_pull()
     REPOSITORY_DATA_DIR = os.path.join(REPOSITORY_DIR,'data')
     repo_recordings = [os.path.join(REPOSITORY_DATA_DIR,f.name) for f in os.scandir(REPOSITORY_DATA_DIR)] if os.path.isdir(REPOSITORY_DATA_DIR) else []
     audio_repo = [a.replace('data/data/','https://huggingface.co/datasets/chrisjay/crowd-speech-africa/resolve/main/data/') for a in audio_repo]
     metadata_all = [get_metadata_json(os.path.join(f,'metadata.jsonl')) for f in repo_recordings]
     metadata_all = [m for m in metadata_all if m!=[]]
+    return metadata_all
 def display_records():
                 </div>
                """)
             plot = gr.Plot(type="matplotlib")
+            metadata_all = get_metadata_of_dataset()
+            def show_records():
+                langs=[m['language_name'] for m in metadata_all]
+                all_genders = [m['gender'] for m in metadata_all
+                ]
+                lang_dict = Counter(langs)
+                lang_dict.update({'All others':0})
+                all_langs = list(lang_dict.keys())
+                langs_count  = [lang_dict[k] for k in all_langs]
+                plt_ = plot_bar(langs_count,all_langs,'Number of audio samples',"Language",'Distribution of audio samples over languages')
+                html = f"""<div class="infoPoint">
+                            <h1> Hooray! We have collected {len(metadata_all)} samples!</h1>
+                            """
+                return html,plt_
+            languages = list(Counter([m['language_name'] for m in metadata_all]).keys())
+            for language in languages:
+                with gr.Row() as row_lang:
+                    metadata_for_language = [m for m in metadata_all if m['language_name']==language]
+                    gender_for_language = [m['gender'] for m in metadata_for_language]
+                    digits_for_language = [m['number'] for m in metadata_for_language]
+                    gender_for_language = [g if g!="" else 'Not given' for g in gender_for_language]
+                    digits_dict = Counter(digits_for_language)
+                    gender_dict = Counter(gender_for_language)
+                    digits_name_for_language = list(digits_dict.keys())
+                    digits_count_for_language = [digits_dict[k] for k in digits_name_for_language]
+                    gender_name_for_language = list(gender_dict.keys())
+                    gender_count_for_language = [gender_dict[k] for k in gender_name_for_language]
+                    plot_digits = gr.Plot(type="matplotlib")
+                    plot_gender = gr.Plot(type="matplotlib")
+                    def plot_metadata_for_language():
+                        plt_digits = plot_bar(digits_count_for_language,digits_name_for_language,'Number of audio samples',"Digit",f"Distribution of audio samples over digits for {language.upper()} ")
+                        plt_gender = plot_bar(gender_count_for_language,gender_name_for_language,'Number of audio samples',"Gender",f"Distribution of audio samples over digits for {language.upper()}")
+                        return plt_digits, plt_gender
+                    row_lang.select(plot_metadata_for_language,inputs=[],outputs=[plot_digits,plot_gender])
             #listen = gr.Button("Listen")
             listen_tab.select(show_records,inputs=[],outputs=[display_html,plot])
+            # Have a list of the languages. lang
+            # We want digits per language and gender per language
+            # for l in range(len(lang),step =4)
+            #   with Row()....   d
     gr.Markdown(ARTICLE)
 block.launch()

data CHANGED Viewed

	@@ -1 +1 @@
1	- Subproject commit ~~7fa5d2a2751934a30d76f6dbd20b3295766ba39e~~


1	+ Subproject commit af4ec56533825ccc0877c32d8ad73301181e8e98