Spaces:

Weyaxi
/

huggingface-leaderboard

Running

App Files Files Community

Weyaxi commited on Aug 22, 2023

Commit

9df3444

1 Parent(s): 490b824

I tried optimizing the scraping code but realized it is worse. Back to old code

Browse files

Files changed (1) hide show

app.py +11 -55

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ import gradio as gr
 api = HfApi()
-def get_models_old(org_name, which_one):
   all_list = []
   if which_one == "models":
     things = api.list_models(author=org_name)
@@ -73,49 +73,15 @@ def get_ranking(model_list, target_org):
           return [index+1, model]
     return "Not Found"
-def get_models(which_one):
-  if which_one == "models":
-    data = api.list_models()
-  elif which_one == "datasets":
-    data = api.list_datasets()
-  elif which_one == "spaces":
-    data = api.list_spaces()
-  all_list = []
-  for i in tqdm(data, desc=f"Scraping {which_one}", position=0, leave=True):
-      i = i.__dict__
-      id = i["id"].split("/")
-      if len(id) != 1:
-        json_format_data = {"author": id[0] ,"id": "/".join(id), "downloads": i['downloads'], "likes": i['likes']} if which_one != "spaces" else {"author": id[0] ,"id": "/".join(id), "downloads": 0, "likes": i['likes']}
-        all_list.append(json_format_data)
-  return all_list
-def search(data, author_name):
-    matching_authors = []
-    for entry in data:
-        if entry['author'] == author_name:
-            matching_authors.append(entry)
-    data_frame = pd.DataFrame(matching_authors)
-    return data_frame
-def make_leaderboard(orgs, which_one, data):
     data_rows = []
     open_llm_leaderboard = get_openllm_leaderboard() if which_one == "models" else None
     trend = get_trending_list(1, which_one)
-    for org in tqdm(orgs, desc=f"Proccesing Organizations ({which_one})", position=0, leave=True):
         rank = get_ranking_trend(trend, org)
-        df = search(data, org)
         if len(df) == 0:
           continue
         num_things = len(df)
@@ -178,6 +144,8 @@ def make_leaderboard(orgs, which_one, data):
     leaderboard.insert(0, "Serial Number", range(1, len(leaderboard) + 1))
     return leaderboard
 with open("org_names.txt", "r") as f:
   org_names_in_list = [i.rstrip("\n") for i in f.readlines()]
@@ -185,23 +153,14 @@ with open("org_names.txt", "r") as f:
 INTRODUCTION_TEXT = f"""
 🎯 The Organization Leaderboard aims to track organization rankings. This space is inspired by the [Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard).
 ## Available Dataframes:
 - 🏛️ Models
 - 📊 Datasets
 - 🚀 Spaces
 ## Backend
 🛠️ The leaderboard's backend mainly runs on the [Hugging Face Hub API](https://huggingface.co/docs/huggingface_hub/v0.5.1/en/package_reference/hf_api).
 🛠️ Organization names are retrieved using web scraping from [Huggingface Organizations](https://huggingface.co/organizations).
 **🌐 Note:** In the model's dataframe, there are some columns related to the [Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard). This data is also retrieved through web scraping.
 **🌐 Note:** In trending models, first 300 models/datasets/spaces is being retrieved from huggingface.
 """
@@ -258,14 +217,10 @@ with gr.Blocks() as demo:
       gr.Markdown("""<h1 align="center" id="space-title">🤗 Organization Leaderboard</h1>""")
       gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
-      all_models = get_models("models")
-      all_datasets  = get_models("datasets")
-      all_spaces = get_models("spaces")
       with gr.TabItem("🏛️ Models", id=1):
           columns_to_convert = ["Organization Name", "Best Model On Open LLM Leaderboard", "Most Downloaded Model", "Most Liked Model", "Trending Model"]
-          models_df = make_leaderboard(org_names_in_list, "models", all_models)
           models_df = models_df_to_clickable(models_df, columns_to_convert, "models")
           headers = ["🔢 Serial Number", "🏢 Organization Name", "📥 Total Downloads", "👍 Total Likes", "🤖 Number of Models", "🏆 Best Model On Open LLM Leaderboard", "🥇 Best Rank On Open LLM Leaderboard", "📊 Average Downloads per Model", "📈 Average Likes per Model", "🚀 Most Downloaded Model", "📈 Most Download Count", "❤️ Most Liked Model", "👍 Most Like Count", "🔥 Trending Model", "👑 Best Rank at Trending Models"]
@@ -273,7 +228,7 @@ with gr.Blocks() as demo:
       with gr.TabItem("📊 Datasets", id=2):
           columns_to_convert = ["Organization Name", "Most Downloaded Dataset", "Most Liked Dataset", "Trending Dataset"]
-          dataset_df = make_leaderboard(org_names_in_list, "datasets", all_datasets)
           dataset_df = models_df_to_clickable(dataset_df, columns_to_convert, "datasets")
           headers = ["🔢 Serial Number", "🏢 Organization Name", "📥 Total Downloads", "👍 Total Likes", "📊 Number of Datasets", "📊 Average Downloads per Dataset", "📈 Average Likes per Dataset", "🚀 Most Downloaded Dataset", "📈 Most Download Count", "❤️ Most Liked Dataset", "👍 Most Like Count", "🔥 Trending Dataset", "👑 Best Rank at Trending Datasets"]
@@ -282,10 +237,11 @@ with gr.Blocks() as demo:
       with gr.TabItem("🚀 Spaces", id=3):
           columns_to_convert = ["Organization Name", "Most Liked Space", "Trending Space"]
-          spaces_df = make_leaderboard(org_names_in_list, "spaces", all_spaces)
           spaces_df = models_df_to_clickable(spaces_df, columns_to_convert, "spaces")
           headers = ["🔢 Serial Number", "🏢 Organization Name", "👍 Total Likes", "🚀 Number of Spaces", "📈 Average Likes per Space", "❤️ Most Liked Space", "👍 Most Like Count", "🔥 Trending Space", "👑 Best Rank at Trending Spaces"]
           gr.Dataframe(spaces_df.head(150), headers=headers, interactive=False,  datatype=["str", "markdown", "str", "str", "str", "markdown", "str", "markdown", "str"])
 demo.launch()

 api = HfApi()
+def get_models(org_name, which_one):
   all_list = []
   if which_one == "models":
     things = api.list_models(author=org_name)
           return [index+1, model]
     return "Not Found"
+def make_leaderboard(orgs, which_one):
     data_rows = []
     open_llm_leaderboard = get_openllm_leaderboard() if which_one == "models" else None
     trend = get_trending_list(1, which_one)
+    for org in tqdm(orgs, desc=f"Scraping Organizations ({which_one})", position=0, leave=True):
         rank = get_ranking_trend(trend, org)
+        df = get_models(org, which_one)
         if len(df) == 0:
           continue
         num_things = len(df)
     leaderboard.insert(0, "Serial Number", range(1, len(leaderboard) + 1))
     return leaderboard
+"""# Gradio başlasın
+"""
 with open("org_names.txt", "r") as f:
   org_names_in_list = [i.rstrip("\n") for i in f.readlines()]
 INTRODUCTION_TEXT = f"""
 🎯 The Organization Leaderboard aims to track organization rankings. This space is inspired by the [Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard).
 ## Available Dataframes:
 - 🏛️ Models
 - 📊 Datasets
 - 🚀 Spaces
 ## Backend
 🛠️ The leaderboard's backend mainly runs on the [Hugging Face Hub API](https://huggingface.co/docs/huggingface_hub/v0.5.1/en/package_reference/hf_api).
 🛠️ Organization names are retrieved using web scraping from [Huggingface Organizations](https://huggingface.co/organizations).
 **🌐 Note:** In the model's dataframe, there are some columns related to the [Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard). This data is also retrieved through web scraping.
 **🌐 Note:** In trending models, first 300 models/datasets/spaces is being retrieved from huggingface.
 """
       gr.Markdown("""<h1 align="center" id="space-title">🤗 Organization Leaderboard</h1>""")
       gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
       with gr.TabItem("🏛️ Models", id=1):
           columns_to_convert = ["Organization Name", "Best Model On Open LLM Leaderboard", "Most Downloaded Model", "Most Liked Model", "Trending Model"]
+          models_df = make_leaderboard(org_names_in_list, "models")
           models_df = models_df_to_clickable(models_df, columns_to_convert, "models")
           headers = ["🔢 Serial Number", "🏢 Organization Name", "📥 Total Downloads", "👍 Total Likes", "🤖 Number of Models", "🏆 Best Model On Open LLM Leaderboard", "🥇 Best Rank On Open LLM Leaderboard", "📊 Average Downloads per Model", "📈 Average Likes per Model", "🚀 Most Downloaded Model", "📈 Most Download Count", "❤️ Most Liked Model", "👍 Most Like Count", "🔥 Trending Model", "👑 Best Rank at Trending Models"]
       with gr.TabItem("📊 Datasets", id=2):
           columns_to_convert = ["Organization Name", "Most Downloaded Dataset", "Most Liked Dataset", "Trending Dataset"]
+          dataset_df = make_leaderboard(org_names_in_list, "datasets")
           dataset_df = models_df_to_clickable(dataset_df, columns_to_convert, "datasets")
           headers = ["🔢 Serial Number", "🏢 Organization Name", "📥 Total Downloads", "👍 Total Likes", "📊 Number of Datasets", "📊 Average Downloads per Dataset", "📈 Average Likes per Dataset", "🚀 Most Downloaded Dataset", "📈 Most Download Count", "❤️ Most Liked Dataset", "👍 Most Like Count", "🔥 Trending Dataset", "👑 Best Rank at Trending Datasets"]
       with gr.TabItem("🚀 Spaces", id=3):
           columns_to_convert = ["Organization Name", "Most Liked Space", "Trending Space"]
+          spaces_df = make_leaderboard(org_names_in_list, "spaces")
           spaces_df = models_df_to_clickable(spaces_df, columns_to_convert, "spaces")
           headers = ["🔢 Serial Number", "🏢 Organization Name", "👍 Total Likes", "🚀 Number of Spaces", "📈 Average Likes per Space", "❤️ Most Liked Space", "👍 Most Like Count", "🔥 Trending Space", "👑 Best Rank at Trending Spaces"]
           gr.Dataframe(spaces_df.head(150), headers=headers, interactive=False,  datatype=["str", "markdown", "str", "str", "str", "markdown", "str", "markdown", "str"])
 demo.launch()