rnalysis.filtering.CountFilter.map_orthologs_ensembl

CountFilter.map_orthologs_ensembl(map_to_organism: Union[str, int, Literal['Acanthochromis polyacanthus', 'Accipiter nisus', 'Ailuropoda melanoleuca', 'Amazona collaria', 'Amphilophus citrinellus', 'Amphiprion ocellaris', 'Amphiprion percula', 'Anabas testudineus', 'Anas platyrhynchos', 'Anas platyrhynchos platyrhynchos', 'Anas zonorhyncha', 'Anolis carolinensis', 'Anser brachyrhynchus', 'Anser cygnoides', 'Aotus nancymaae', 'Apteryx haastii', 'Apteryx owenii', 'Apteryx rowi', 'Aquila chrysaetos chrysaetos', 'Astatotilapia calliptera', 'Astyanax mexicanus', 'Astyanax mexicanus pachon', 'Athene cunicularia', 'Balaenoptera musculus', 'Betta splendens', 'Bison bison bison', 'Bos grunniens', 'Bos indicus hybrid', 'Bos mutus', 'Bos taurus', 'Bos taurus hybrid', 'Bubo bubo', 'Buteo japonicus', 'Caenorhabditis elegans', 'Cairina moschata domestica', 'Calidris pugnax', 'Calidris pygmaea', 'Callithrix jacchus', 'Callorhinchus milii', 'Camarhynchus parvulus', 'Camelus dromedarius', 'Canis lupus dingo', 'Canis lupus familiaris', 'Canis lupus familiarisbasenji', 'Canis lupus familiarisboxer', 'Canis lupus familiarisgreatdane', 'Canis lupus familiarisgsd', 'Capra hircus', 'Capra hircus blackbengal', 'Carassius auratus', 'Carlito syrichta', 'Castor canadensis', 'Catagonus wagneri', 'Catharus ustulatus', 'Cavia aperea', 'Cavia porcellus', 'Cebus imitator', 'Cercocebus atys', 'Cervus hanglu yarkandensis', 'Chelonoidis abingdonii', 'Chelydra serpentina', 'Chinchilla lanigera', 'Chlorocebus sabaeus', 'Choloepus hoffmanni', 'Chrysemys picta bellii', 'Chrysolophus pictus', 'Ciona intestinalis', 'Ciona savignyi', 'Clupea harengus', 'Colobus angolensis palliatus', 'Corvus moneduloides', 'Cottoperca gobio', 'Coturnix japonica', 'Cricetulus griseus chok1gshd', 'Cricetulus griseus crigri', 'Cricetulus griseus picr', 'Crocodylus porosus', 'Cyanistes caeruleus', 'Cyclopterus lumpus', 'Cynoglossus semilaevis', 'Cyprinodon variegatus', 'Cyprinus carpio carpio', 'Cyprinus carpio germanmirror', 'Cyprinus carpio hebaored', 'Cyprinus carpio huanghe', 'Danio rerio', 'Dasypus novemcinctus', 'Delphinapterus leucas', 'Denticeps clupeoides', 'Dicentrarchus labrax', 'Dipodomys ordii', 'Dromaius novaehollandiae', 'Drosophila melanogaster', 'Echeneis naucrates', 'Echinops telfairi', 'Electrophorus electricus', 'Eptatretus burgeri', 'Equus asinus', 'Equus caballus', 'Erinaceus europaeus', 'Erpetoichthys calabaricus', 'Erythrura gouldiae', 'Esox lucius', 'Falco tinnunculus', 'Felis catus', 'Ficedula albicollis', 'Fukomys damarensis', 'Fundulus heteroclitus', 'Gadus morhua', 'Gallus gallus', 'Gallus gallus gca000002315v5', 'Gallus gallus gca016700215v2', 'Gambusia affinis', 'Gasterosteus aculeatus', 'Geospiza fortis', 'Gopherus agassizii', 'Gopherus evgoodei', 'Gorilla gorilla', 'Gouania willdenowi', 'Haplochromis burtoni', 'Heterocephalus glaber female', 'Heterocephalus glaber male', 'Hippocampus comes', 'Homo sapiens', 'Hucho hucho', 'Ictalurus punctatus', 'Ictidomys tridecemlineatus', 'Jaculus jaculus', 'Junco hyemalis', 'Kryptolebias marmoratus', 'Labrus bergylta', 'Larimichthys crocea', 'Lates calcarifer', 'Laticauda laticaudata', 'Latimeria chalumnae', 'Lepidothrix coronata', 'Lepisosteus oculatus', 'Leptobrachium leishanense', 'Lonchura striata domestica', 'Loxodonta africana', 'Lynx canadensis', 'Macaca fascicularis', 'Macaca mulatta', 'Macaca nemestrina', 'Malurus cyaneus samueli', 'Manacus vitellinus', 'Mandrillus leucophaeus', 'Marmota marmota marmota', 'Mastacembelus armatus', 'Maylandia zebra', 'Meleagris gallopavo', 'Melopsittacus undulatus', 'Meriones unguiculatus', 'Mesocricetus auratus', 'Microcebus murinus', 'Microtus ochrogaster', 'Mola mola', 'Monodelphis domestica', 'Monodon monoceros', 'Monopterus albus', 'Moschus moschiferus', 'Mus caroli', 'Mus musculus', 'Mus musculus 129s1svimj', 'Mus musculus aj', 'Mus musculus akrj', 'Mus musculus balbcj', 'Mus musculus c3hhej', 'Mus musculus c57bl6nj', 'Mus musculus casteij', 'Mus musculus cbaj', 'Mus musculus dba2j', 'Mus musculus fvbnj', 'Mus musculus lpj', 'Mus musculus nodshiltj', 'Mus musculus nzohlltj', 'Mus musculus pwkphj', 'Mus musculus wsbeij', 'Mus pahari', 'Mus spicilegus', 'Mus spretus', 'Mustela putorius furo', 'Myotis lucifugus', 'Myripristis murdjan', 'Naja naja', 'Nannospalax galili', 'Neogobius melanostomus', 'Neolamprologus brichardi', 'Neovison vison', 'Nomascus leucogenys', 'Notamacropus eugenii', 'Notechis scutatus', 'Nothobranchius furzeri', 'Nothoprocta perdicaria', 'Numida meleagris', 'Ochotona princeps', 'Octodon degus', 'Oncorhynchus kisutch', 'Oncorhynchus mykiss', 'Oncorhynchus tshawytscha', 'Oreochromis aureus', 'Oreochromis niloticus', 'Ornithorhynchus anatinus', 'Oryctolagus cuniculus', 'Oryzias javanicus', 'Oryzias latipes', 'Oryzias latipes hni', 'Oryzias latipes hsok', 'Oryzias melastigma', 'Oryzias sinensis', 'Otolemur garnettii', 'Otus sunia', 'Ovis aries', 'Ovis aries rambouillet', 'Pan paniscus', 'Pan troglodytes', 'Panthera leo', 'Panthera pardus', 'Panthera tigris altaica', 'Papio anubis', 'Parambassis ranga', 'Paramormyrops kingsleyae', 'Parus major', 'Pavo cristatus', 'Pelodiscus sinensis', 'Pelusios castaneus', 'Periophthalmus magnuspinnatus', 'Peromyscus maniculatus bairdii', 'Petromyzon marinus', 'Phascolarctos cinereus', 'Phasianus colchicus', 'Phocoena sinus', 'Physeter catodon', 'Piliocolobus tephrosceles', 'Podarcis muralis', 'Poecilia formosa', 'Poecilia latipinna', 'Poecilia mexicana', 'Poecilia reticulata', 'Pogona vitticeps', 'Pongo abelii', 'Procavia capensis', 'Prolemur simus', 'Propithecus coquereli', 'Pseudonaja textilis', 'Pteropus vampyrus', 'Pundamilia nyererei', 'Pygocentrus nattereri', 'Rattus norvegicus', 'Rattus norvegicus shrspbbbutx', 'Rattus norvegicus shrutx', 'Rattus norvegicus wkybbb', 'Rhinolophus ferrumequinum', 'Rhinopithecus bieti', 'Rhinopithecus roxellana', 'Saccharomyces cerevisiae', 'Saimiri boliviensis boliviensis', 'Salarias fasciatus', 'Salmo salar', 'Salmo trutta', 'Salvator merianae', 'Sander lucioperca', 'Sarcophilus harrisii', 'Sciurus vulgaris', 'Scleropages formosus', 'Scophthalmus maximus', 'Serinus canaria', 'Seriola dumerili', 'Seriola lalandi dorsalis', 'Sinocyclocheilus anshuiensis', 'Sinocyclocheilus grahami', 'Sinocyclocheilus rhinocerous', 'Sorex araneus', 'Sparus aurata', 'Spermophilus dauricus', 'Sphaeramia orbicularis', 'Sphenodon punctatus', 'Stachyris ruficeps', 'Stegastes partitus', 'Strigops habroptila', 'Strix occidentalis caurina', 'Struthio camelus australis', 'Suricata suricatta', 'Sus scrofa', 'Sus scrofa bamei', 'Sus scrofa berkshire', 'Sus scrofa hampshire', 'Sus scrofa jinhua', 'Sus scrofa landrace', 'Sus scrofa largewhite', 'Sus scrofa meishan', 'Sus scrofa pietrain', 'Sus scrofa rongchang', 'Sus scrofa tibetan', 'Sus scrofa usmarc', 'Sus scrofa wuzhishan', 'Taeniopygia guttata', 'Takifugu rubripes', 'Terrapene carolina triunguis', 'Tetraodon nigroviridis', 'Theropithecus gelada', 'Tupaia belangeri', 'Tursiops truncatus', 'Urocitellus parryii', 'Ursus americanus', 'Ursus maritimus', 'Ursus thibetanus thibetanus', 'Varanus komodoensis', 'Vicugna pacos', 'Vombatus ursinus', 'Vulpes vulpes', 'Xenopus tropicalis', 'Xiphophorus couchianus', 'Xiphophorus maculatus', 'Zalophus californianus', 'Zonotrichia albicollis', 'Zosterops lateralis melanops']], map_from_organism: Union[Literal['auto'], str, int, Literal['Acanthochromis polyacanthus', 'Accipiter nisus', 'Ailuropoda melanoleuca', 'Amazona collaria', 'Amphilophus citrinellus', 'Amphiprion ocellaris', 'Amphiprion percula', 'Anabas testudineus', 'Anas platyrhynchos', 'Anas platyrhynchos platyrhynchos', 'Anas zonorhyncha', 'Anolis carolinensis', 'Anser brachyrhynchus', 'Anser cygnoides', 'Aotus nancymaae', 'Apteryx haastii', 'Apteryx owenii', 'Apteryx rowi', 'Aquila chrysaetos chrysaetos', 'Astatotilapia calliptera', 'Astyanax mexicanus', 'Astyanax mexicanus pachon', 'Athene cunicularia', 'Balaenoptera musculus', 'Betta splendens', 'Bison bison bison', 'Bos grunniens', 'Bos indicus hybrid', 'Bos mutus', 'Bos taurus', 'Bos taurus hybrid', 'Bubo bubo', 'Buteo japonicus', 'Caenorhabditis elegans', 'Cairina moschata domestica', 'Calidris pugnax', 'Calidris pygmaea', 'Callithrix jacchus', 'Callorhinchus milii', 'Camarhynchus parvulus', 'Camelus dromedarius', 'Canis lupus dingo', 'Canis lupus familiaris', 'Canis lupus familiarisbasenji', 'Canis lupus familiarisboxer', 'Canis lupus familiarisgreatdane', 'Canis lupus familiarisgsd', 'Capra hircus', 'Capra hircus blackbengal', 'Carassius auratus', 'Carlito syrichta', 'Castor canadensis', 'Catagonus wagneri', 'Catharus ustulatus', 'Cavia aperea', 'Cavia porcellus', 'Cebus imitator', 'Cercocebus atys', 'Cervus hanglu yarkandensis', 'Chelonoidis abingdonii', 'Chelydra serpentina', 'Chinchilla lanigera', 'Chlorocebus sabaeus', 'Choloepus hoffmanni', 'Chrysemys picta bellii', 'Chrysolophus pictus', 'Ciona intestinalis', 'Ciona savignyi', 'Clupea harengus', 'Colobus angolensis palliatus', 'Corvus moneduloides', 'Cottoperca gobio', 'Coturnix japonica', 'Cricetulus griseus chok1gshd', 'Cricetulus griseus crigri', 'Cricetulus griseus picr', 'Crocodylus porosus', 'Cyanistes caeruleus', 'Cyclopterus lumpus', 'Cynoglossus semilaevis', 'Cyprinodon variegatus', 'Cyprinus carpio carpio', 'Cyprinus carpio germanmirror', 'Cyprinus carpio hebaored', 'Cyprinus carpio huanghe', 'Danio rerio', 'Dasypus novemcinctus', 'Delphinapterus leucas', 'Denticeps clupeoides', 'Dicentrarchus labrax', 'Dipodomys ordii', 'Dromaius novaehollandiae', 'Drosophila melanogaster', 'Echeneis naucrates', 'Echinops telfairi', 'Electrophorus electricus', 'Eptatretus burgeri', 'Equus asinus', 'Equus caballus', 'Erinaceus europaeus', 'Erpetoichthys calabaricus', 'Erythrura gouldiae', 'Esox lucius', 'Falco tinnunculus', 'Felis catus', 'Ficedula albicollis', 'Fukomys damarensis', 'Fundulus heteroclitus', 'Gadus morhua', 'Gallus gallus', 'Gallus gallus gca000002315v5', 'Gallus gallus gca016700215v2', 'Gambusia affinis', 'Gasterosteus aculeatus', 'Geospiza fortis', 'Gopherus agassizii', 'Gopherus evgoodei', 'Gorilla gorilla', 'Gouania willdenowi', 'Haplochromis burtoni', 'Heterocephalus glaber female', 'Heterocephalus glaber male', 'Hippocampus comes', 'Homo sapiens', 'Hucho hucho', 'Ictalurus punctatus', 'Ictidomys tridecemlineatus', 'Jaculus jaculus', 'Junco hyemalis', 'Kryptolebias marmoratus', 'Labrus bergylta', 'Larimichthys crocea', 'Lates calcarifer', 'Laticauda laticaudata', 'Latimeria chalumnae', 'Lepidothrix coronata', 'Lepisosteus oculatus', 'Leptobrachium leishanense', 'Lonchura striata domestica', 'Loxodonta africana', 'Lynx canadensis', 'Macaca fascicularis', 'Macaca mulatta', 'Macaca nemestrina', 'Malurus cyaneus samueli', 'Manacus vitellinus', 'Mandrillus leucophaeus', 'Marmota marmota marmota', 'Mastacembelus armatus', 'Maylandia zebra', 'Meleagris gallopavo', 'Melopsittacus undulatus', 'Meriones unguiculatus', 'Mesocricetus auratus', 'Microcebus murinus', 'Microtus ochrogaster', 'Mola mola', 'Monodelphis domestica', 'Monodon monoceros', 'Monopterus albus', 'Moschus moschiferus', 'Mus caroli', 'Mus musculus', 'Mus musculus 129s1svimj', 'Mus musculus aj', 'Mus musculus akrj', 'Mus musculus balbcj', 'Mus musculus c3hhej', 'Mus musculus c57bl6nj', 'Mus musculus casteij', 'Mus musculus cbaj', 'Mus musculus dba2j', 'Mus musculus fvbnj', 'Mus musculus lpj', 'Mus musculus nodshiltj', 'Mus musculus nzohlltj', 'Mus musculus pwkphj', 'Mus musculus wsbeij', 'Mus pahari', 'Mus spicilegus', 'Mus spretus', 'Mustela putorius furo', 'Myotis lucifugus', 'Myripristis murdjan', 'Naja naja', 'Nannospalax galili', 'Neogobius melanostomus', 'Neolamprologus brichardi', 'Neovison vison', 'Nomascus leucogenys', 'Notamacropus eugenii', 'Notechis scutatus', 'Nothobranchius furzeri', 'Nothoprocta perdicaria', 'Numida meleagris', 'Ochotona princeps', 'Octodon degus', 'Oncorhynchus kisutch', 'Oncorhynchus mykiss', 'Oncorhynchus tshawytscha', 'Oreochromis aureus', 'Oreochromis niloticus', 'Ornithorhynchus anatinus', 'Oryctolagus cuniculus', 'Oryzias javanicus', 'Oryzias latipes', 'Oryzias latipes hni', 'Oryzias latipes hsok', 'Oryzias melastigma', 'Oryzias sinensis', 'Otolemur garnettii', 'Otus sunia', 'Ovis aries', 'Ovis aries rambouillet', 'Pan paniscus', 'Pan troglodytes', 'Panthera leo', 'Panthera pardus', 'Panthera tigris altaica', 'Papio anubis', 'Parambassis ranga', 'Paramormyrops kingsleyae', 'Parus major', 'Pavo cristatus', 'Pelodiscus sinensis', 'Pelusios castaneus', 'Periophthalmus magnuspinnatus', 'Peromyscus maniculatus bairdii', 'Petromyzon marinus', 'Phascolarctos cinereus', 'Phasianus colchicus', 'Phocoena sinus', 'Physeter catodon', 'Piliocolobus tephrosceles', 'Podarcis muralis', 'Poecilia formosa', 'Poecilia latipinna', 'Poecilia mexicana', 'Poecilia reticulata', 'Pogona vitticeps', 'Pongo abelii', 'Procavia capensis', 'Prolemur simus', 'Propithecus coquereli', 'Pseudonaja textilis', 'Pteropus vampyrus', 'Pundamilia nyererei', 'Pygocentrus nattereri', 'Rattus norvegicus', 'Rattus norvegicus shrspbbbutx', 'Rattus norvegicus shrutx', 'Rattus norvegicus wkybbb', 'Rhinolophus ferrumequinum', 'Rhinopithecus bieti', 'Rhinopithecus roxellana', 'Saccharomyces cerevisiae', 'Saimiri boliviensis boliviensis', 'Salarias fasciatus', 'Salmo salar', 'Salmo trutta', 'Salvator merianae', 'Sander lucioperca', 'Sarcophilus harrisii', 'Sciurus vulgaris', 'Scleropages formosus', 'Scophthalmus maximus', 'Serinus canaria', 'Seriola dumerili', 'Seriola lalandi dorsalis', 'Sinocyclocheilus anshuiensis', 'Sinocyclocheilus grahami', 'Sinocyclocheilus rhinocerous', 'Sorex araneus', 'Sparus aurata', 'Spermophilus dauricus', 'Sphaeramia orbicularis', 'Sphenodon punctatus', 'Stachyris ruficeps', 'Stegastes partitus', 'Strigops habroptila', 'Strix occidentalis caurina', 'Struthio camelus australis', 'Suricata suricatta', 'Sus scrofa', 'Sus scrofa bamei', 'Sus scrofa berkshire', 'Sus scrofa hampshire', 'Sus scrofa jinhua', 'Sus scrofa landrace', 'Sus scrofa largewhite', 'Sus scrofa meishan', 'Sus scrofa pietrain', 'Sus scrofa rongchang', 'Sus scrofa tibetan', 'Sus scrofa usmarc', 'Sus scrofa wuzhishan', 'Taeniopygia guttata', 'Takifugu rubripes', 'Terrapene carolina triunguis', 'Tetraodon nigroviridis', 'Theropithecus gelada', 'Tupaia belangeri', 'Tursiops truncatus', 'Urocitellus parryii', 'Ursus americanus', 'Ursus maritimus', 'Ursus thibetanus thibetanus', 'Varanus komodoensis', 'Vicugna pacos', 'Vombatus ursinus', 'Vulpes vulpes', 'Xenopus tropicalis', 'Xiphophorus couchianus', 'Xiphophorus maculatus', 'Zalophus californianus', 'Zonotrichia albicollis', 'Zosterops lateralis melanops']] = 'auto', gene_id_type: Union[str, Literal['auto'], Literal['UniProtKB AC/ID', 'UniParc', 'UniRef50', 'UniRef90', 'UniRef100', 'Gene Name', 'CRC64', 'Ensembl', 'Ensembl Genomes', 'Ensembl Genomes Protein', 'Ensembl Genomes Transcript', 'Ensembl Protein', 'Ensembl Transcript', 'GeneID', 'KEGG', 'PATRIC', 'UCSC', 'WBParaSite', 'WBParaSite Transcript/Protein', 'ArachnoServer', 'Araport', 'CGD', 'ConoServer', 'dictyBase', 'EchoBASE', 'euHCVdb', 'FlyBase', 'GeneCards', 'GeneReviews', 'HGNC', 'LegioList', 'Leproma', 'MaizeGDB', 'MGI', 'MIM', 'neXtProt', 'OpenTargets', 'Orphanet', 'PharmGKB', 'PomBase', 'PseudoCAP', 'RGD', 'SGD', 'TubercuList', 'VEuPathDB', 'VGNC', 'WormBase', 'WormBase Protein', 'WormBase Transcript', 'Xenbase', 'ZFIN', 'eggNOG', 'GeneTree', 'HOGENOM', 'OMA', 'OrthoDB', 'TreeFam', 'CCDS', 'EMBL/GenBank/DDBJ', 'EMBL/GenBank/DDBJ CDS', 'GI number', 'PIR', 'RefSeq Nucleotide', 'RefSeq Protein', 'ChiTaRS', 'GeneWiki', 'GenomeRNAi', 'PHI-base', 'CollecTF', 'BioCyc', 'PlantReactome', 'Reactome', 'UniPathway', 'CPTAC', 'ProteomicsDB']] = 'auto', filter_percent_identity: bool = True, non_unique_mode: Literal['first', 'last', 'random', 'none'] = 'first', remove_unmapped_genes: bool = False, inplace: bool = True)

Map genes to their nearest orthologs in a different species using the Ensembl database. This function generates a table describing all matching discovered ortholog pairs (both unique and non-unique) and returns it, and can also translate the genes in this data table into their nearest ortholog, as well as remove unmapped genes.

Parameters
  • map_to_organism (str or int) – organism name or NCBI taxon ID of the target species for ortholog mapping.

  • map_from_organism (str or int) – organism name or NCBI taxon ID of the input genes’ source species.

  • gene_id_type (str or 'auto' (default='auto')) – the identifier type of the genes/features in the FeatureSet object (for example: ‘UniProtKB’, ‘WormBase’, ‘RNACentral’, ‘Entrez Gene ID’). If the annotations fetched from the KEGG server do not match your gene_id_type, RNAlysis will attempt to map the annotations’ gene IDs to your identifier type. For a full list of legal ‘gene_id_type’ names, see the UniProt website: https://www.uniprot.org/help/api_idmapping

  • filter_percent_identity (bool (default=True)) – if True (default), when encountering non-unique ortholog mappings, RNAlysis will only keep the mappings with the highest percent_identity score.

  • non_unique_mode ('first', 'last', 'random', or 'none' (default='first')) – How to handle non-unique mappings. ‘first’ will keep the first mapping found for each gene; ‘last’ will keep the last; ‘random’ will keep a random mapping; and ‘none’ will discard all non-unique mappings.

  • remove_unmapped_genes (bool (default=False)) – if True, rows with gene names/IDs that could not be mapped to an ortholog will be dropped from the table. Otherwise, they will remain in the table with their original gene name/ID.

  • inplace (bool (default=True)) – If True (default), filtering will be applied to the current Filter object. If False, the function will return a new Filter instance and the current instance will not be affected.

Returns

DataFrame describing all discovered mappings (unique and otherwise). If inplace=True, returns a filtered instance of the Filter object as well.